2026 年 6 月 2 日,旧金山,微软 Build 大会,萨提亚·纳德拉(Satya Nadella)站在台上说了一句话:“我们正在进入 Agent 优先的时代。”
这句话说的时候,Anthropic 刚刚以 9650 亿美元估值秘密递交 IPO 文件,Alphabet 宣布 847.5 亿美元融资用于扩建算力基础设施。云端的钱正在以历史上从未出现过的速度烧掉。
纳德拉的意思,不是说云端不重要了。他在宣布一件不同的事:下一代计算平台的交互单元,不再是 App,而是 Agent——而且这个 Agent,有相当一部分要跑在你手边的设备上,而不是数千公里外的 数据中心 里。

“App已死”这句话,微软说了三十年,这次不同
个人计算机史上,每隔十五至二十年就会出现一次交互范式的断裂。
1984 年,麦金塔把命令行变成了图标和窗口。2007 年,iPhone 把窗口变成了触控应用。每一次断裂,原有的操作系统霸主都面临重新洗牌的压力,因为新的交互层往往建立在新的硬件架构上,原有的软件积累无法直接迁移。

微软在 Build 2026 发布的,不只是一个功能更新。它是一个三层架构的完整系统宣言。
底层是硅:Windows Agent Stack 要求设备 NPU(神经处理单元)达到 40 至 45 TOPS 以上的吞吐量。高通骁龙 X Elite、英特尔 Lunar Lake、AMD Strix Point 三家芯片在台上同台确认支持。微软自己发布的 Surface Pro 11 搭载的骁龙 X Elite 第二代 NPU,标称算力 75 TOPS,可同时运行多个本地 Agent。
中层是模型:Aion 1.0 Instruct,为 NPU 专门优化的轻量端侧语言模型,处理邮件摘要、文档格式化、日程协商等日常任务,不发送任何数据到云端。Aion 1.0 Plan 更进一步:140 亿参数,32K 上下文,支持工具调用,计划在未来数月内置到具备足够算力的设备上。
顶层是 Agent:Copilot Scout,主动感知用户当前工作状态,在不需要被唤醒的情况下介入。Windows Copilot Runtime 提供统一的 ONNX 推理层,自动将计算任务路由到 NPU、GPU 或 CPU——开发者写一套代码,硬件路由由系统接管。

Project Solara 走得更远。这是一个建立在安卓开源项目之上(而非 Windows)的轻量级边缘操作系统,面向一类此前不存在的设备:既不是手机,也不是 PC,也不是平板。它没有应用商店,没有浏览器,没有传统桌面。设备上跑的不是 App,只有 Agent。微软发布了两款参考设计:一款是带摄像头、指纹传感器、5G 的可穿戴员工徽章;另一款是带面部识别、超宽带感应的桌面陪伴设备。用一个按钮唤醒 Agent。微软不打算自己制造这些设备,它发布的是规格标准和参考设计,逻辑与谷歌 GMS 认证对安卓生态的管控方式一致。
一位前微软项目经理的话被广泛引用:“他们不是在杀死 Windows,而是把它变成一个托管 Agent 的静默平台。”
苹果的路线:把15年的芯片积累变成护城河
苹果的策略与微软不同,但方向一致。

苹果在 AI 竞争里长期被认为落后:Siri 的能力与 GPT-4、Claude 的差距有目共睹,Apple Intelligence 2024 年发布时承诺的功能至今交付不完整。但苹果一直在押注一个不同的赌注,而这个赌注在 2026 年开始兑现的条件正在成熟。
这个赌注的核心是:端侧推理的经济性。
苹果芯片在同等推理任务下,功耗约为数据中心 GPU 的十分之一。推理延迟低于 10 毫秒,无需网络往返,无需在数据中心排队等待其他用户的请求。苹果的 4GB 端侧模型,在 iPhone 15 Pro 以上机型上以每秒 30 至 40 个 token 的速度生成文字。这不是最强的 AI,但对于通知摘要、语音转录、快速回复等高频低复杂度任务,它足够了,而且是私密的、即时的。
苹果在准备 WWDC 2026 的内容。据知情人士向 The Information 透露,苹果将展示其芯片设计优势如何在端侧处理 AI 查询——将本地推理定位为一种隐私保护、降低成本的选择,与 Anthropic、OpenAI 等公司依赖大规模数据中心形成对比。Siri 将进行一次地基级别的重建:独立 App 界面、基于大语言模型的世界知识、数百个应用内 Agent 动作、屏幕感知能力。

苹果的底牌,是它在 15 年里积累的自研芯片体系。A 系列和 M 系列的神经引擎,是针对本地推理专门设计的,不是通用 GPU 的附属品。这意味着它的端侧 推理效率,是英伟达 GPU 在云端做同样任务的结构性对手。数据中心的规模优势,在这里被苹果的效率优势部分抵消。
苹果拥有 22 亿台活跃设备。这是一个比任何数据中心都更分散、但总算力加起来同样可观的推理网络。苹果不需要砸钱建机房,它已经把机房卖给了用户——用户还替苹果付电费。
为什么这不是“退守”
有人把这波浪潮形容成“退守”。但这显然是错的。
微软和苹果向端侧移动,不是因为云端打不过 Anthropic 或 OpenAI,而是因为云端的单位成本正在触及一个结构性边界:HBM 供给瓶颈至少持续到 2030 年,算力扩张的边际成本无法无限下降,云端推理的价格不可能无限便宜。
在这个边界面前,把常见的、低复杂度的推理任务从云端卸载到设备上,是一个成本和延迟的双重优化。Gartner 预计,到 2025 年前后,75% 的企业数据将在边缘处理。企业架构师的新共识是:在云端训练,在边缘推理。
微软和苹果是在顺着这个方向抢占落地点,不是在撤退。
更精确的描述是:云端算力的军备竞赛正在打造一批基础设施巨头(Anthropic、OpenAI、谷歌),而端侧 AI 的普及正在打造一批平台入口——操作系统层面的入口。历史告诉我们,平台入口往往比基础设施赚得更多,时间更长。
微软在 1981 年用 DOS 做到了这件事。苹果在 2007 年用 iOS 做到了这件事。
Agent First 的操作系统,是他们在争夺第三次。
开发者站在哪里,生态就在哪里
新平台能否成立,最终由开发者决定。

微软的牌面:Windows Copilot Runtime 提供统一 API,开发者写一套代码,系统自动路由到最优硬件。Aion 1.0 的权重开放在 Hugging Face,2026 年 7 月起可以下载微调。WSL 3 支持 NPU 直通,让 Linux 开发者可以在 Qualcomm 和英特尔的 NPU 上跑本地 AI 工作负载,几乎无额外开销。Windows AI Studio 提供本地测试和 模型优化 环境,上线前不需要连接云端。
苹果的牌面:Core ML 已经是 iOS 开发者熟悉的推理框架,Apple Intelligence 的端侧模型通过系统 API 开放给第三方。苹果的策略与过去的 Metal(图形)、Core ML(机器学习)一致:先在系统层做好,再开放 API,让开发者在封闭但高效的生态里构建。
两条路线的差异在于开放度:微软更开放,允许多个 Agent 共存,没有单一主导 Agent;苹果更封闭,系统控制更深,但硬件优化更彻底。
这个差异会产生两种不同的生态:微软的 Agent 平台像早期安卓,碎片化但快速繁殖;苹果的端侧 AI 像 iOS,整齐但入场门槛高。云端 AI 的第一战,是算力和模型能力之争。端侧 AI 的第二战,是操作系统和生态之争。在旧金山 Moscone Center,第二战的号角已经吹响,而赢家还没有出现。

对于这场从云到端的范式转移,云栈社区 也将持续关注技术栈的演变,为开发者在 Agent 与端侧智能的浪潮中提供前沿的见解与交流空间。