找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5305

积分

0

好友

731

主题
发表于 2 小时前 | 查看: 3| 回复: 0

昨天,当 OpenAI 做智能手机的具体规格与供应链爆料传出时,我的第一反应不是“他们要做手机了”,而是“OpenAI 最终也不得不踏出这一步”。与此同时,我回想起两周前 Richard Ho 在斯坦福大学的那场闭门交流。

Richard Ho 是 OpenAI 的硬件负责人,此前曾在 Google 主导 TPU 的开发。

Richard Ho 演讲照片

Richard Ho |图片来源:Synopsys

在那场 IEEE 内部组织的分享会上,他从未提过“手机”这个词。但结合昨天的新闻与他当时的观点来看,整条路径其实已经讲得很清楚——只是此前没有一个具体的产品形态来锚定它。

外界看来,OpenAI 做手机像是一次跨界。但顺着 Richard Ho 的逻辑往下推,这其实是一条早就铺好的路。毕竟对所有模型厂商而言,手机都只是终点之一,而不是起点。

模型的下一次“跃迁”,诞生自硬件

那场交流的核心议题是:OpenAI 为什么必须自己做硬件?

Richard Ho 反复强调一句话:“真正的限制不再只是模型,而是算力、能耗、成本、延迟,是整个系统。”

听起来像一句平淡的技术陈述,但放在 OpenAI 的位置上,分量完全不同——这意味着这家公司已经不把自己单纯当作一家模型公司了。GPU 是为通用并行计算设计的,在推荐系统、传统的并行任务上跑得很好。但面对今天主流的 Transformer、Agent、长上下文推理,其实已经偏离了 GPU 当初的设计假设。尤其是 Agent —— 多轮、持续执行、跨任务协同,会让整个系统层的低效被放大很多倍。Richard Ho 当时的原话是:“GPU 把我们带到了今天,但它并不是为这种(AI 负载任务)而设计的。”

这句话背后的含义是:继续依赖 NVIDIA 设定好的硬件路径,OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用,而是在能耗、成本、效率这些维度上,OpenAI 无法一直被动地接受外部的硬件节奏。

所以这件事的本质,从一开始就不是“OpenAI 进入芯片行业”,而是 OpenAI 想重新拿回 AI 计算 的底层控制权。如果只看媒体报道,你会以为 OpenAI 在做的事情是“组装一台手机”或者更深入一些的“自研一颗 AI 芯片”。但 Richard Ho 自己澄清得很直接:“我们不是在做一颗芯片,而是在做一个系统。”

这个“系统”包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像,但更强调端到端的控制。进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的,但“两年时间已经从空白走到 tape-out(芯片设计完成交付流片生产)”,并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据,而是“已经在真实环境里 work 的东西”。

两年从零到 tape-out 是个什么概念?传统芯片公司从架构到流片,五到七年很正常。Google TPU 第一代用了大约三年,而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年,背后只能是两件事:要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队(这是事实),要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持(这也部分是事实)。

但更值得说的是 OpenAI 和硬件供应商之间的关系边界。

“他们会参与 IP、physical design、packaging。”Richard Ho 谈到 Broadcom 时说得很克制,紧接着补了一句——“他们并不看到完整的架构。”他还专门解释,“很多时候他们只看到一部分,但看不到整体是怎么拼起来的。”这句话其实透露了 OpenAI 自身的一个判断:架构层和工程层是两件事,前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力,系统级的设计逻辑——也就是“这颗芯片到底要怎么和模型配合”这件事——必须留在内部,就像苹果做硬件的逻辑一样。

Richard Ho 提到,外界看到的模型是几个月发布一次,但内部其实是一条连续的 pipeline——“我们能看到接下来 6 到 9 个月模型会怎么变”。

这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片,而是在为还没出现的模型“预备”设计。具体到细节上,这种“向前看”会影响很多决定:模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high;网络带宽要扩到多少;新的压缩算法出现会不会改变数据流的形状;推理和训练的比例正在快速变化(推理负载越来越重),这对硬件的要求又是另一套。

Richard Ho 把这一点总结成一句话:

“你必须为模型将要去的方向设计硬件,而不是为今天的模型。”

这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU,而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看,OpenAI 做芯片更像 Google 做 TPU,而不是像 NVIDIA 做 H100。

但即便如此,硬件优化的天花板远没有到。Richard Ho 反对“晶体管进步变慢,所以芯片红利结束”这个论断。他的判断是:单颗芯片确实在变慢,但整个系统层面还远远没有被优化好。内存层次结构、网络、数据移动——这些大瓶颈都没解。他举的例子很具体:现在高速铜缆互联在高带宽下只能支持大约 2 米的距离,这对数据中心布局是非常大的限制。

简单说一句:OpenAI 在做的事情不是把一颗芯片做得更快,而是把整个 AI 计算系统重新优化一遍。手机这件事,是这个系统的最末端。

“手机不是为 Agent 设计的”

回到手机。

Richard Ho 在那场交流上有一句话,今天回头看几乎就是 OpenAI 做手机的全部理由——“手机不是为 Agent 设计的”。

“今天的手机交互是 app-based、session-based 的,你打开一个 app,做一件事,关掉。但 Agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 Agent 不会等你打开它再开始工作,它会在后台一直理解你的状态、调度你的任务、跟其他 Agent 通信。”

这种交互范式,直接等同于在说:今天的 iOS 和 Android 都不是为它设计的。

这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是“未来不是 cloud-only,也不是 edge-only,而是两者结合”——个人上下文、隐私数据、低延迟交互必须在设备端,复杂推理留在云端。如果一个 Agent 想随时拿到用户的“当下状态”,它必须在操作系统层有完整权限。

AI 助手手机界面演示

现有手机系统在满足 AI 时代原生用户需求面前有天然的短板 | 图片来源:io

这件事在 iOS 和 Android 上很难干净地做——不是技术问题,是利益问题。Apple 不会把系统级权限完全开放给一个第三方 Agent,Google 也不会。

也是从这个角度,去年 OpenAI 收购 Jony Ive 团队相关的公司(io)的逻辑就清楚了。Richard Ho 说,做端侧个人设备这部分工作“是目前最有意思的一块”——因为这是第一次把基础设施和消费电子设备真正接在一起。这其实是 OpenAI 整个硬件战略里最有想象力的部分,也是最危险的部分。有想象力是因为它在做 Apple 当年没做的事:用 AI Agent 把操作系统重写一遍。危险是因为消费电子是另一套游戏规则——产品节奏、供应链、零售、品牌——不是从云端工程师团队里能长出来的能力。

但 io 的存在解决了一部分问题。Jony Ive 不是来做芯片或者操作系统的,他是来做硬件形态和工业设计的——这本来就是 Apple 这些年从 OpenAI 手里能短暂保住的最后一块地。

不是所有 AI 公司都在做同一件事

消费电子的难度有多大,看过去两年其他 AI 公司在硬件上的尝试就清楚了。每一家都想用 AI 重新定义某个硬件形态,但每一家走的路径不一样,结果也很不一样。

最早的是 Rabbit R1。

2024 年初的 CES 上,吕骋拿出那台橙色小盒子,喊出“干翻所有 App”——用 LAM(大动作模型)替代手机里 App 的交互方式,一句话订外卖、打车、订机票。当时引发的关注度堪比“AI 时代的 iPhone 时刻”,开售两周卖出 5 万台。

Rabbit R1 产品包装图

Rabbit R1 是首批 AI 硬件中为数不多“口碑反转”的产品|图片来源:Rabbit

但首批用户体验出来之后,事情翻得很快。先是被开发者证实是套壳安卓——Rabbit OS 实际上是 AOSP 的修改版,APK 可以直接装到 Pixel 6a 上跑。LAM 被发现依赖 OpenAI 的 API。续航 4 小时,订一次外卖要试十几次。

Rabbit 失败的真正原因不是产品质量,而是路径——它只做了硬件壳子,没碰底层。芯片是联发科 Helio P35(入门手机水平),系统是套壳 Android,模型靠第三方 API。这种做法的天花板很明显:你做的事情,一个手机 App 都能做,而且做得更好。

Meta 选了一条完全不同的路。

Meta 的判断是不挑战手机这个形态,让 AI 借眼镜这个已经存在的硬件形态进入日常。Ray-Ban Meta 做对了三件事:找 EssilorLuxottica(雷朋母公司)做合作方,让眼镜回归眼镜本身——时尚、轻、舒适;把 AI 做成“附加项”,299 美元起售;不强求每个用户都用 AI,先把一副好眼镜卖出去,AI 是 bonus。

结果是 Ray-Ban Meta 卖出超过 200 万副,Meta 一家拿下全球智能眼镜市场 75% 以上的份额。但这条路的边界也清楚——Meta 解决的是“AI 怎么进入日常”这个问题,不是“AI 怎么重新定义计算”这个问题。眼镜只是一个加了摄像头和麦克风的入口,它不会替代手机,也没打算替代。

阿里千问基本上是 Meta 路径的中国版本。今年 2 月 MWC 发布、3 月 G1 系列发售(国补到手价 1997 元起)、4 月 S1 上市(国补到手价 3499 元),节奏很快。逻辑也清晰:千问 App 已经做到超 3 亿月活、8000 万 DAU,眼镜是把 AI 助手能力从手机延伸到日常佩戴形态——支付宝、高德、淘宝、飞猪一整套阿里生态都接进来,用户对眼镜说“点外卖”“打车”“翻译”就能办事。芯片是高通骁龙 AR1,系统在 Android 之上,模型用千问。

千问眼镜本质上是一次生态延伸,不是底层重构。它的优势是阿里生态足够厚,眼镜成为阿里 AI 服务的一个新入口。

把这三条路放在一起看,再对比 OpenAI——你会发现 OpenAI 是唯一一家在做“全栈重新定义”的公司:

Rabbit 想绕过 App 但没动操作系统,结果是空中楼阁;Meta 选择不挑战手机,让眼镜做配角,做对了爆款但天花板就是配角;千问跟随 Meta 的形态选择,把眼镜做成 AI 服务的延伸入口;而 OpenAI——从芯片、基础设施、能源、操作系统、设备一路打通。

这是另一个量级的事。

真正的护城河,不在模型层

那场交流的最后,Richard Ho 还给了一句对未来格局的判断:

“(模型公司)不再是在芯片层赢,而是在系统层赢。”

这句话的意思是,未来的 AI 竞争不只是模型能力的竞争,而是整套系统架构能力的竞争——同样的功耗下能提供多少计算、能服务多少用户、延迟能压到多低。这种系统级的优势,单靠模型本身是没法替代的。

放在 OpenAI 的位置上看,这是一种相当自洽的逻辑:模型团队在 GPT、o 系列、Agent 这些方向上往前推,但一旦推到某个体量,模型本身的进步就要被基础设施的瓶颈限制住。所以 OpenAI 必须从模型公司变成基础设施公司——再变成设备公司。

这也是为什么 Richard Ho 在被问到未来算力规模时,给出的数字是 20GW。把 OpenAI、Oracle、SoftBank 等合作方的规划加起来,未来需要的算力大约相当于十几到二十个核电站的发电量。

这个数字第一次听到的时候我没反应过来。20GW 已经不是数据中心能解决的问题——它是国家电网和能源政策的问题。Richard Ho 自己也说,“当你开始谈这种规模,就必须谈电力,甚至是国家安全”。

把这件事和“OpenAI 做手机”放在一起看,才能看清楚整个图景:一边是国家级别的能源基础设施,一边是用户兜里的一台设备,中间是一整套自研的芯片、系统、操作系统。OpenAI 想做的,是把这两端连起来。

把所有点串起来——模型、基础设施、自研芯片、能源、边缘设备、操作系统——会发现 OpenAI 做手机不是一个单点决策,而是这条路径自然长出来的结果。手机只是第一个被外界看见的形态,但真正的变化是更底下的那一层:计算范式正在从 app 为中心,转向 Agent 为中心。

一旦默认入口变成 Agent,今天的设备、芯片、操作系统,都会被重新定义一次。这一次重新定义里,OpenAI 不再只是一家做模型的公司。


头图来源:AI 生成

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO




上一篇:Redis部署架构全景解读:单机、主从、哨兵与集群演进
下一篇:苹果两款 Ultra 新机曝光:折叠屏 iPhone 与触控 MacBook 或于秋季登场
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-29 06:10 , Processed in 0.876937 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表