AIOS 架构分析与供参考设计 (PDF)¶
本页面为 DiPECS 项目的核心架构参考文档。
摘要¶
- Agent 不进内核,Agent 成为系统级受控服务
- 必须引入 System Action Fabric,统一动作协议
- 模型只负责理解与规划,最终执行必须被策略、审计、确认机制约束
一、AIOS 的总目标¶
传统手机 OS 的核心对象是:
- App
- Window
- Process
- File
- Notification
模型原生 OS 的核心对象应变成:
- Intent(用户目标)
- Action(结构化系统动作)
- Policy(策略与授权)
- Context(环境与状态)
- Agent(持续执行主体)
- Memory(跨会话记忆)
- Trust(可审计、可追责、可确认)
结论:传统 OS 管“资源”;AIOS 既管资源,也管“任务闭环”。
二、设计原则¶
1) Intent-first,不是 screen-first¶
用户说“给张三发消息”“帮我订票”,系统应先理解为意图,再映射为结构化动作链,而不是直接让模型看屏幕找按钮。最新安全研究明确指出,“Screen-as-Interface”方案在高风险场景更脆弱;更安全的方向是 clean-slate secure agent OS + action access control + on-device audit。
2) Structured-action-first,GUI fallback¶
执行优先级应为:
- 结构化系统动作
- 系统服务 API
- 应用能力接口
- GUI Agent 兜底
这与最近的移动 Agent 研究一致:先走确定性控制路径,再升级到概率型 UI 推理,可显著减少不必要的模型调用、状态序列化和执行不确定性。
3) Agent 是系统一等公民,但不是内核本体¶
Agent Runtime 应是系统级服务,不是 kernel module。Android 官方架构本身就是 framework → system services → HAL → native daemons/libraries → kernel,系统能力通过 system services 暴露;Binder 则是标准 IPC。
4) 云 + 端协同是默认,不是补丁¶
- 端侧负责:低延迟、隐私敏感、常驻感知、快速确认、小闭环任务。
- 云侧负责:长上下文、重规划、多工具复杂推理、跨设备/跨应用长期任务。
5) 安全边界比“模型能力”更重要¶
近年的边缘 Agent 研究表明,部署架构本身就是主要风险来源:混合架构会引入边界穿越、故障窗口、可追溯链断裂等系统级风险。
三、完整分层架构¶
AIOS 建议分为 8 层/模块:
| 层级 | 模块名称 | 核心职责 |
|---|---|---|
| L8 | Experience Layer | 统一入口与交互体验 |
| L7 | Agent Runtime Module | Trusted Agent Runtime(系统级智能体) |
| L6 | Intent & Memory Module | 意图理解、会话状态、长期记忆 |
| L5 | System Action Fabric | 系统能力总线(AIOS 关键新层) |
| L4 | System Service Module | 系统服务 / 权限 / 语义上下文 / 设备服务 |
| L3 | Framework Layer | 开发框架 / SDK / App Ability 接口 |
| L2 | Runtime & Native Layer | Binder、推理运行时、本地向量库 |
| L1 | Kernel / HAL Layer | 调度、内存、驱动、进程隔离、安全边界 |
四、各层详细设计¶
L1: Kernel / HAL Layer¶
最底层,只做确定性、可验证、低语义的事:
- 责任:调度、内存管理、驱动、进程隔离、IPC 驱动、安全执行边界、硬件抽象。
- 为何不能放 Agent:内核适合做“谁能运行、访问什么、消息传输、资源分配”,不适合做任务规划、模糊推理、长时状态机、第三方工具编排、语义决策。
L2: Runtime & Native Layer¶
AIOS 的“操作底盘”,包含:
- Binder / IPC / RPC
- Native daemons
- Inference runtime(NN / GPU / NPU / DSP 调度)
- Secure storage / key service
- Logging / tracing / observability
- Local vector store / retrieval runtime
L3: Framework Layer¶
统一框架层,对开发者暴露三类接口:
- App API:传统 UI / 数据 / 媒体 / 网络。
- Ability API:把 App 的高价值能力结构化暴露给系统。
- Agent API:给系统级 Agent 使用的受控接口。
新要求:每个 App 不仅要有 GUI,还需声明可供 AI 调用的 Abilities(输入输出 schema、风险级别、是否可后台/撤销)。
L4: System Service Layer¶
强化传统 OS 服务,并新增 AIOS 专属服务:
- 核心系统服务:Identity、Permission、Notification、App Lifecycle、Payment Bridge、Accessibility、Sensor、Search、Privacy Redaction。
- AIOS 新增服务:
- Semantic Context Service:提供结构化上下文,非纯截图。
- Safety Interceptor Service:高风险动作统一拦截点。
L5: System Action Fabric(核心创新层)¶
将系统能力从“零散 API / GUI 操作”升级为统一的结构化动作总线。
- Action 统一模型:每个动作需包含
type、target、params、permission_requirements、risk_level、rollback_semantics、audit_requirements、human_confirmation_policy。 - 典型动作类型:
APP.OPEN、MESSAGE.SEND、CALL.START、FILE.READ、PAYMENT.PREPARE等。 - 关键机制:
- 权限要求:动作级权限声明(如
MESSAGE.SEND需读取联系人权限,而非全局授权)。 - 可回滚性:Hard rollback(真撤销)、Compensating rollback(补偿)、No rollback。
- 审计日志:链路 ID、主体、权限、结果、脱敏。
- 人机确认点:自动执行、轻确认、强确认(生物识别)、永不自动执行。
- 权限要求:动作级权限声明(如
L6: Intent & Memory Layer¶
负责理解任务但不直接执行。
- 子模块:Intent Parser、Task Graph Builder、Context Fusion、Short/Long-term Memory、Preference Model、Retrieval Engine、Uncertainty Estimator。
- Memory 分层:Session memory、Personal preference memory、Task template memory、Enterprise policy memory。
- Taint-aware memory:区分可信与不可信内容,防止污染长期偏好。
L7: Trusted Agent Runtime¶
系统级、沙盒化、受控的 Agent 运行时。
- 8 个核心子模块:
- Gateway:统一入口(语音、通知、车机、云)。
- Planner:拆解目标为多步计划(含回退路径)。
- Tool Router:选择执行路径(Fabric -> API -> App Ability -> GUI fallback)。
- Policy Engine:风险把关、域策略、用户偏好决策。
- Audit Engine:全链路留痕、溯源、异常检测。
- Human Confirmation:人机共驾确认点。
- Multi-Agent Coordinator:拆分任务给不同领域 Agent。
- Safety Sandbox:隔离第三方 Skills/Tools。
L8: Experience Layer¶
全系统可唤起的自然交互界面:
- 统一入口:语音唤醒、Spotlight 搜索、锁屏摘要、通知建议、浮动助理、App 内 agent sheet、摄像头截图叠加。
五、控制平面与数据平面¶
AIOS 必须明确拆分为两个平面:
| 平面 | 职责 | 包含内容 |
|---|---|---|
| Control Plane | 决定“做什么、能不能做” | Intent parsing、Planning、Policy、Routing、Scheduling、Confirmation |
| Data Plane | 负责“执行与数据流动” | IPC/RPC、App ability call、File I/O、Sensor stream、Media pipeline、Cloud tool invocation |
六、模型层设计¶
1) 三层模型拓扑¶
- A. Nano/Micro Model(端上常驻):意图分类、唤醒、轻量总结、快速路由、本地隐私判定。
- B. Local Mid-size Model(端上主力):多步轻任务、通知理解、UI 语义理解、短规划、本地工具调用。
- C. Cloud Frontier Model(云上重推理):长链推理、跨应用编排、文档处理、多代理协调、企业策略融合。
2) 路由维度¶
模型路由至少考虑:latency、cost、battery、privacy、risk、offline availability、context length。
3) 模型权限边界¶
模型只提出 Plan、Parameter proposal、Confidence、Risk estimate,最终执行权由 Policy Engine + System Action Fabric + Human Confirmation 共同决定。
七、记忆系统设计¶
记忆不能等同于“无限收集聊天记录”。
- Ephemeral Memory:临时会话上下文,任务结束即衰减。
- Preference Memory:用户长期偏好(常用联系人、通知优先级)。
- Procedural Memory:可复用任务模板(如“下班前发日报”)。
- Restricted Memory:高敏感信息(支付/健康/凭据),单独加密与审批。
关键原则:最小必要持久化、来源标签、可删除、可解释、外部不可信内容不得自动升格为长期偏好。
八、安全架构¶
AIOS 的成败本质上是安全架构问题。
1) 四层安全环¶
- Identity:Agent identity、tool identity、app identity、session binding。
- Capability:最小权限、短时令牌、域级授权、一次性授权。
- Interception:高风险动作统一拦截,支付/删除/外呼必须经过关键节点。
- Accountability:本地不可抵赖审计、provenance chain、replayable logs。
2) 混合架构风险¶
云+端需明确主权边界,防止 fallback 静默越界和溯源绕过。
- 对策:云调用显式标注、fallback 可见、离线降级策略、跨边界动作留痕。
九、应用生态如何重构¶
AIOS 不应消灭 App,而应重构 App 为三层结构:
- UI Surface:给人看的界面。
- Ability Surface:给系统/Agent 调用的结构化能力。
- Policy Surface:声明能力的自动/确认/禁止执行策略。
新的 App Store 审核维度:是否提供能力 schema、是否幂等、是否可回滚、风险级别、audit hooks 支持、无 GUI 执行能力。
十、Android 与 OpenHarmony 的落地映射¶
Android 路线¶
- 基础优势:modular system services、Binder IPC、AIDL、HAL。
- 推荐落地组件:
agentd:Trusted Agent Runtimeactiond:System Action Fabric executorpolicyd:策略服务auditd:审计服务confirmd:确认 UI / 生物识别桥semantid:UI 语义树和上下文服务
OpenHarmony 路线¶
- 基础优势:分层架构(Kernel -> System Service -> Framework)、System Abilities (SA) 机制、独立沙盒运行。
- 推荐落地:TAR 作为新的 System Ability 集群,通过 SA Manager 暴露 Agent / Action / Policy 能力,利用 permission framework + sandbox 隔离 skills。
十一、AIOS 的标准执行流¶
以 “给张三发消息:我10分钟后到” 为例:
- 入口层接收语音/文字。
- Intent 层识别为
Communicate -> MessageSend。 - Memory 层解析“张三”为常用联系人。
- Planner 生成计划。
- Tool Router 优先选择
MESSAGE.SEND结构化动作。 - Policy Engine 判断是否需确认。
- Human Confirmation 弹出确认。
- System Action Fabric 执行动作。
- Audit 记录链路。
- Experience Layer 返回结果与后续建议。
注:模型参与规划,不直接裸执行。
十二、与“AI 助手 + 普通 OS”的根本区别¶
| 普通做法 | AIOS 做法 |
|---|---|
| 一个 App 内的助手 | 系统级 Agent Runtime |
| 大量依赖截图 + 点击 | 结构化 Action 总线 |
| 权限碎片化 | 统一策略与审计 |
| 难审计难复现 | 人机共驾内建 |
| 遇到 UI 变化就脆弱 | 云/端模型协同,App 能力协议化 |
本质:AIOS 不是“更强的自动化”,而是 “把自动化提升为操作系统级的受控执行语义”。
十三、未来 3 个阶段的演进路线¶
-
阶段 1:Agent-augmented OS
- 仍是传统 OS,加入系统级 Agent。
- 先做 Action Fabric 和审计。
-
阶段 2:Intent-native OS
- App 不再是唯一入口,任务可跨 App 原生执行。
- 用户更多以目标而非 App 名称交互。
-
阶段 3:Model-native OS
- 调度器同时调度 Compute + Models + Agents。
- 多设备共享 Context / Memory / Action Protocol。
- 交互演进为:“发目标 + 看中间态 + 接管关键节点”。