TL;DR
WWDC 2026 的核心变化在于:Apple 正将 Apple Intelligence 从一组割裂的 AI 功能,升级为操作系统的智能控制层。

这个控制层由以下部分构成:
- Apple Foundation Models:新的基础模型族,融合了 Google Gemini 系列模型背后的同源技术。
- Private Cloud Compute(PCC):负责处理端侧无法承载的复杂推理与生成任务。
- System Orchestrator:在个人上下文、Spotlight 语义索引、App Actions、屏幕感知及 Web 信息之间进行安全编排。
- App Intents / Spotlight Semantic Index:让第三方应用的内容与动作进入系统可调用范围。
- Foundation Models Framework / Core AI Framework:将 Apple 模型及第三方本地模型能力开放给开发者。
这套架构的目标非常明确:让 Siri AI 不只是回答问题,更能理解当前屏幕、检索个人数据、调用 App 工具、生成草稿、修改照片、创建日程、监测网页变化乃至修复弱密码。
但它也面临三个硬限制:
- Siri AI 年底才面向用户开放 Beta,秋季正式版并不包含完整的 Siri AI。
- 首发仅支持英语,多语言适配及安全策略仍需时间打磨。
- 欧盟地区 iOS/iPadOS 初期不可用;中国大陆地区 Siri AI 及新的 Apple Intelligence 功能暂不可用。
这说明 Apple 的方向虽已明确,但产品、监管与基础设施都尚未完全收敛。
一、WWDC 2026 的主线:从 AI 功能,到 Agent 操作系统
重点可分为三类:平台响应速度、儿童安全、Apple Intelligence。表面看是三个独立主题,实则是同一条逻辑链。
响应速度解决 Agent 的交互延迟问题;儿童安全解决 AI 进入家庭、教育及未成年人场景的合规需求;而 Apple Intelligence 则把模型、索引、权限、App 工具箱和云端推理整合到了一起。
我们可以把 Apple 的新 AI 栈压缩成三层来理解:过去的 Siri 更像一个语音入口:识别指令,匹配固定意图,执行标准动作。而如今的 Siri AI 进化为一个受控 Agent:
- 它能读取当前屏幕;
- 能检索照片、邮件、信息、备忘录;
- 能结合 Web 世界知识;
- 能通过 App Actions 调用各类应用工具;
- 能将多轮对话保存至独立 Siri App,并通过 iCloud 私密同步。
所谓的“语音助手升级”,实际上已焕新为系统权限、数据索引、模型推理与应用能力注册的深度重组。
二、Gemini:技术补给,不等于裸连 Google API
Apple 与 Google 进行了深度技术合作,利用 Gemini 系列模型背后的技术与架构,共同打造了下一代 Apple Foundation Models,并将其适配到设备端和 PCC 服务器端运行。
更严谨的理解存在三种路径:
| 合作模式 |
可能性 |
价值 |
| Gemini 的技术、架构、训练方法或教师模型被 Apple 吸收,用于训练/蒸馏自己的基础模型 |
高 |
Apple 对外仍呈现自研模型,监管解释成本相对较低 |
| Gemini 权重或衍生权重经 Apple 适配后直接部署在设备端或 PCC |
中 |
技术效果兑现更快,但权重来源、审计及合规边界更复杂 |
| 用户请求实时转发至 Google Gemini API |
低 |
与 PCC “不存储、不可被 Apple 或他人访问” 的隐私设定直接冲突 |
Apple 的策略是在模型能力上引入外部技术补给,再以自有的系统权限、隐私承诺及端云路由将其封装成平台能力。这是一条现实路线,但问题同样尖锐:如果核心模型能力高度依赖 Google,Apple AI 的独立性将被市场、监管及开发者持续追问。
三、端云混合:哪些在本地,哪些去 PCC
Apple 此次并未宣称所有 AI 均在设备端完成,而是给出了端云双轨的路线。
设备端负责低延迟、隐私敏感、高频任务。 例如个人上下文检索、部分语义理解、系统听写、更自然的 Siri 声音,以及 Spatial Reframing 的实时空间预览。
PCC 负责重推理与生成。 例如 Visual Intelligence 的深度图像理解、Image Playground 的写实图像生成、复杂 Web 知识问答、照片扩图与空间构图补全。
路由逻辑大概率遵循此模式。这里有个容易被忽略的点:Apple 明确提到“第二版更强的设备端模型”仅面向最强的 Apple Silicon 系统。也就是说,即便 iOS 27 支持 iPhone 11,也绝不意味着 iPhone 11 能获得完整的 Apple Intelligence。
设备支持将分层:
| 设备档位 |
可能获得的 AI 能力 |
| 最新 Pro 版 iPhone、M 系列 iPad/Mac |
端侧 v2 模型、高级听写、表现力语音、多模态能力 |
| 较新的非 Pro 设备 |
基础 Apple Intelligence + 更多 PCC 回退 |
| iPhone 11 等旧机型 |
iOS 27 系统能力增强,但 AI 能力明显受限 |
这必然成为 iPhone 和 Mac 高端机型的新卖点。
四、Siri AI:真正的变化是“上下文 + 工具调用”
Siri AI 的产品演示覆盖了以下典型场景:
- 根据屏幕上的照片识别地点。
- 从 Messages 和 Mail 中寻找个人上下文。
- 结合世界知识规划派对菜单。
- 在 macOS Spotlight 中发起长对话。
- 选中多个文件,让 Siri 比较内容并生成表格。
- 起草邮件,自动提取联系人和背景信息。
- 在 iPhone Camera 中通过 Siri Mode 识别眼前物体并建议动作。
- 在 visionOS 中通过注视物体直接提问。
这些场景的共同点是:Siri 能把多个系统能力串接起来。
| 能力 |
数据来源 |
可能路径 |
| Personal Context |
照片、邮件、信息、备忘录、第三方 Spotlight 索引 |
本地语义索引优先 |
| World Knowledge |
Web 最新信息 |
PCC 生成答案 |
| On-screen Awareness |
当前 App、屏幕选区、截图 |
端侧解析 + 必要时 PCC |
| App Actions |
App 暴露的工具能力 |
App Intents / action schema |
| Writing Tools |
文本、联系人沟通风格 |
端侧 + PCC 混合 |
为什么 Apple 需要 System Orchestrator?因为如果没有一个系统级的编排器,Siri 就只能回答问题,而不能稳定地跨应用做事。
五、系统应用正在变成 Agent 样板
在 WWDC 2026 上,Apple 以第一方应用为例,展示了未来应用应如何接入 Agent 系统。
Safari:从浏览器到网页监控代理
Safari 新增了三个关键能力:
- 按主题组织标签页:分析页面内容,将相关标签聚合为话题。
- Notify Me:用户用自然语言告知关注点,关闭标签页后,Safari 在后台监测网页变化并触发通知。
- Describe an extension:用自然语言描述需求,Safari 即可生成自定义网页扩展。
其中,Notify Me 是一个极其典型的 Agent 功能。它不是搜索,不是收藏,也不是提醒事项,而是由浏览器替用户持续观察网页。推测实现可能有三条路径:
| 路径 |
概率 |
适用场景 |
| DOM / 语义 diff |
高 |
商品补货、报名开放、页面文字变化 |
| Headless re-fetch |
中 |
静态网页、轻交互页面 |
| 视觉快照比较 |
低到中 |
高动态页面,但成本高、误报多 |
Passwords:Web 自动化进入系统密码管理
Passwords 应用现在能对符合条件的弱密码或泄露密码进行一键升级。后台由 Apple Intelligence 和 Safari 代理用户导航网站、登录、修改密码。这类功能技术难度极高,因为网页改密流程高度不标准:DOM 结构、双因素认证、地区页面、反机器人机制都会影响成功率。Apple 选择只支持“符合条件的账户”而非全量,说明它很清楚技术边界在哪里。
Shortcuts:自然语言编译成可编辑工作流
Shortcuts 的变化更为关键。用户不再需要手动拼凑节点,只需描述意图,例如:
离开公司时给 Pedro 发“我在路上”,并附上回家 ETA。
系统将生成一个工作流:地理围栏触发、Maps 计算预计到达时间、Messages 发送消息。用户还能继续用自然语言追加“再播放我最喜欢的播客”。此举本质是让大型语言模型(LLM)将自然语言编译成可审查、可编辑、可运行的 Action Graph。这条路线远比“让 Agent 随意点击屏幕”更符合 Apple 的安全风格。
六、开发者的新门槛:应用必须能被系统理解
WWDC 2026 向开发者释放的信号很直接:未来 App 的竞争力,不只取决于 UI 和功能,更取决于能否被 Siri、Spotlight、Shortcuts 及系统 Agent 调用。开发者至少需要关注三条线。
1. App Intents:把核心动作 Schema 化
Line 的案例说明,第三方应用内容进入 Spotlight 后,用户可以直接让 Siri 查询对话信息。Structured 的案例则表明,应用采用 App Intents 后,用户能让 Siri 创建日程并加入时间线。App 的核心功能必须从“只能在 UI 里点击”转变为“系统能理解的结构化动作”。
2. Foundation Models Framework:调用 Apple 模型
该框架通过 Swift API 提供 Apple Foundation Models 能力,支持文本、图像输入、自定义技能(Custom Skills)以及服务器端模型。适合摘要、分类、轻量视觉理解、文档问答、垂直领域技能等场景。
3. Core AI Framework:本地运行第三方模型
Core AI Framework 允许开发者将其他模型带到本地 App 中,并利用 Apple Silicon 加速。这很可能是 Apple 对开源模型及企业私有模型的一次重要让步。它不强制所有开发者都使用 Apple 自有模型,也不要求所有 AI 功能都走云端。
开发者的迁移优先级可以这样排列:
| 类型 |
12 个月内必须做 |
18 个月内应该做 |
| 独立开发者 |
Liquid Glass 适配、核心 App Intents、基础 Spotlight 索引 |
小范围接入 Foundation Models |
| 中型团队 |
Intent schema、隐私权限文案、Device Hub 自动化测试 |
Custom Skills、端侧 AI |
| 大型企业 |
数据分级、App Intents 安全审计、MDM 策略 |
Core AI 私有模型、企业知识索引 |
七、Xcode 也在变:IDE 变成 Agent 执行环境
Apple 对 Xcode 的更新远不止“代码补全更强”这么简单:
- coding assistant 可以本地化整个 App;
- 可与模拟设备交互;
- 可通过 custom skills 扩展能力;
- 支持选择模型和 agent,包括 Gemini;
- 可连接 Figma 和 GitHub;
- Device Hub 将真机和模拟器纳入统一界面;
- 支持模拟 swipe、pinch、多点触控;
- 支持一键切换外观、动态调整尺寸。
Xcode 正从开发工具转变为 Agent 工作台。它不仅能写代码,还能理解设计稿、修改 UI、运行模拟器、检查布局、本地化字符串。相比于 Cursor、Copilot 等工具,Xcode 的优势在于 Apple 平台的私有上下文:Swift、Simulator、Device Hub、App Store,以及与 Figma/GitHub 的连接和系统框架的深度绑定。
八、计算摄影:Spatial Reframing 是 Vision Pro 技术回流
Photos 应用中最具技术含量的功能是 Spatial Reframing。它允许用户在拍完二维照片后,像重新移动相机一样调整构图。实时预览由设备端的 spatial models 完成;视角变化产生的边缘空隙,则由 PCC 上的图像生成模型补全。Apple 强调仅补全空隙,不重写整张图,以最大限度保持原始场景的一致性。
这背后有两个信号。第一,Vision Pro 的空间理解技术正在回流至 iPhone、iPad 和 Mac。即使其短期销量有限,它也能作为 Apple 空间计算能力的孵化器。第二,Apple 的图像生成策略是尽可能将 AI 生成限制在可控区域内。相比纯 prompt 生成,这更符合摄影产品对真实性的要求。
九、性能工程:AI 体验的地基
Apple 同时公布了几项非常具体的系统性能提升:
| 项目 |
提升幅度 |
技术特征 |
| iPhone/iPad App 启动 |
最高快 30% |
预加载关键启动数据,第三方 App 也适用 |
| 新照片入库 |
最高快 70% |
Photos 与索引管线提速 |
| AirDrop |
最高快 80% |
传输栈优化 |
| iPad 外置存储 |
最高快 5 倍 |
Files/存储管线接近 Mac Finder |
| CPU Scheduler |
下放到 iPhone 11 |
显著改善旧机交互响应 |
这些并非边角料。Agent 系统最怕三件事:打开慢、找不到、传不动。Siri AI 若要在照片、邮件、文件、网页、App 动作之间穿梭,系统就必须先解决启动、索引、传输、网络切换及调度问题。尤其是 Search Index 的重构,将直接影响 Siri 的个人上下文检索。Apple 提到,iOS、iPadOS、macOS 重建了 Spotlight、Photos、Mail 的底层搜索基础,新内容几乎可即时索引。Apple 是在为 AI 铺设“数据地基”,而非仅仅在上层叠加一个模型。
十、全球可用性:欧盟和中国是最大变量
Siri AI 的区域限制至关重要:
- Siri AI 年底向用户开放 Beta。
- 首发仅支持英语。
- 欧盟地区 iOS/iPadOS 初期不可用。
- 中国大陆 Siri AI 及其他新 Apple Intelligence 功能暂不可用。
欧盟的问题主要源于 DMA 法案。Siri AI 需要深度访问系统能力和用户私有数据,若监管要求第三方虚拟助手也获得类似入口,Apple 必须证明其能在互操作与隐私安全之间找到可执行方案。中国大陆的问题则更复杂,涉及生成式 AI 备案、内容安全、数据跨境以及本地模型和云服务合作。
这将导致 Apple Intelligence 的全球体验开始分化:
| 地区 |
主要问题 |
最可能路径 |
| 美国/英语区 |
Beta 质量与设备支持 |
年底先行 |
| 欧盟 |
DMA 互操作与隐私安全冲突 |
延后,等待中介层或监管妥协 |
| 中国大陆 |
备案、本地化、内容安全、数据跨境 |
本地合作或端侧功能子集 |
| 其他市场 |
语言与地区政策 |
2027 年分批扩展 |
Siri AI 若只能在部分市场使用,就很难成为全球统一的硬件换机卖点。
十一、竞争格局:Apple 不做最大模型,做系统入口
将 Apple 置于 2026 年的 AI 竞争格局中,其定位非常清晰:Apple 的差异化优势是默认入口和系统权限。OpenAI 可以构建强大的 Workspace Agents,但它需要连接器、权限授权和沙盒环境。而 Apple 的 Siri AI 天然存在于系统之中,能看到屏幕、调用系统应用、接入本地索引、使用 TCC/Sandbox 权限模型。这是 Apple 的护城河,同时也是监管风险的来源。
结语
和国内外其他公司一样,Apple 正在押注“系统可控的 Agent”。其对下一代操作系统的定义是:模型不是独立应用,Agent 是嵌入到系统权限、数据索引、应用动作及设备算力中的控制层。Apple 已经给出了 Agent 操作系统的架构草图,但真正的交付,还要看 Siri AI Beta 的表现、开发者的适配进度以及全球监管的绿灯。在 云栈社区,我们也将持续关注并交流这场由 AI 驱动的系统底层变革。