找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2005

积分

0

好友

282

主题
发表于 2026-1-3 02:22:05 | 查看: 20| 回复: 0

2025年9月底,科技播客20VC主持人Harry Stebbings与Groq创始人Jonathan Ross进行了一场近90分钟的深度对话。三个月后的圣诞前夜,英伟达宣布以200亿美元获得Groq知识产权的非独家授权,并聘请其核心工程团队,Ross本人也将加入英伟达。

这个时间点让这期播客内容具有了特殊的回看价值。Ross在对话中反复强调“我们不会做模型”,也坦承“我们可能被客户吞并”。他详细解释了为什么自研芯片几乎注定失败,为什么英伟达的真正护城河不在CUDA而在HBM供应链,以及为什么Groq的6个月交付周期是其最关键的差异化优势。当被问到英伟达5年后是否值10万亿美元时,他说“如果不值,我会很惊讶”。紧接着Harry问Groq是否也能值10万亿,他的回答是“possible”。如今看来,两者正以另一种方式“合体”共同面向未来。

Ross的背景使其判断颇具分量。他曾在Google领导开发TPU(张量处理单元),是现代AI硬件的核心架构师之一。Groq在对话发生时刚以69亿美元估值完成7.5亿美元融资,投资方包括BlackRock、三星、思科等。三个月后即被英伟达以近三倍溢价“收入囊中”,这笔交易来得很快——据报道,Groq当时并未主动寻求出售。

访谈中,Ross也阐述了他对全球AI算力格局的洞察。他认为中国的推理成本实际上比美国更高,当前token便宜是定价策略使然;他也指出欧洲的瓶颈并非电力基础,而是策略限制。如果欧洲不做调整,未来或将沦为纯粹的“旅游经济区”,在AI时代没有竞争力。

1. “如果Anthropic算力翻倍,一个月内收入几乎翻倍”

Ross开场便抛出一个核心判断:当前AI公司最大的瓶颈不是模型,而是算力。

“OpenAI和Anthropic最大的抱怨是什么?是速率限制(Rate limits)。用户拿不到足够的tokens。如果它们拥有更多算力,就能产出更多tokens,从而获得更多收入。”

这个判断的逻辑链条非常直接:算力 → tokens → 收入。他强调的不是“可能增加”,而是“几乎翻倍”。

当Harry追问如何实现翻倍时,Ross解释道:算力决定了你能服务多少用户以及服务的质量。OpenAI如何调节聊天服务?让响应慢一点,用户参与度(engagement)就会下降。这也是为什么OpenAI会推出限量高价产品——它们想看看当投入更多算力时,产品能变得多好。

“AI和SaaS完全不同。SaaS的产品质量由工程师决定。但AI不同,我可以运行两个实例然后选择更好的答案,我可以给高价值客户分配更多算力以得到更优结果。我能直接用钱买到更好的产品质量。”

2. 速度的多巴胺经济学

许多人认为AI响应速度“够用就行”,等几秒钟无所谓。Ross直言这个判断“100%错误”。

他用消费品行业做类比:按利润率排序,最高的是烟草,其次是嚼烟,然后是软饮料,最后是水等其他产品。决定利润率的核心变量是什么?

“是成分作用于人体的速度。多巴胺循环越快,品牌黏性就越强。”

他引用了一个关键数据:“每100毫秒的加速,能带来约8%的转化率提升。”这是Google和Facebook早年已验证的规律,也是Google始终强调速度的原因。

Ross提到,当Groq刚开始做速度优化时,曾有人看过演示视频后问:为什么需要比人阅读速度还快?他反问道:为什么网页加载需要比你阅读速度还快?

“人们很不擅长判断什么真正影响用户参与度和最终结果。但我们从早期互联网公司的经验中学到了这一点。”

3. 为什么超大厂像“醉酒水手”一样花钱

Harry问:现在AI是否存在泡沫?

Ross认为,如果一个问题你反复问却得不到清晰答案,也许应该换个角度。与其问“有没有泡沫”,不如问“聪明钱在做什么”。

看看Google在做什么?微软在做什么?亚马逊在做什么?一些国家在做什么?它们都在加倍投入AI。每次宣布的投资额,下一次都会更高。

他举了一个例子:微软曾在一个季度内部署了大量GPU,随后宣布不会将这些GPU放到Azure上出租,因为自己使用比租出去赚钱更多。

“市场里有真金白银在流动。”

Ross提到,他在阿布扎比参加高盛峰会时,曾问在场所有管理百亿美元以上资产的基金经理一个问题:“你们有谁100%确信10年后AI做不了你们的工作?”

没有人举手。

“这就是超大规模厂商(hyperscalers)的感受。他们当然要像‘醉酒水手’一样花钱,因为另一个选择是被完全踢出局。这不再是纯粹的经济框架问题,而是‘我还能不能保住领导地位’的问题。”

他补充道,要维持在“科技七巨头”(Mag 7)的地位,你必须持续投入。股价维持在高位,部分原因就是因为你身在其中。这是一个自我强化的循环。

4. 自研芯片:不是硬件难,是软件更难,跟上趋势最难

Harry问:OpenAI会不会自研芯片、进行垂直整合?英伟达难道不担心吗?

Ross的回答充满了工程师式的冷静。

“如果我今天创业,不会选择做芯片。那个机会窗口已经关闭了。”

从芯片设计到投产,在完美执行的情况下最快也需要三年。英伟达通常需要3-4年,只是依靠多条产品线并行来缩短周期。

更残酷的数据是:首次流片(tape out)的成功率只有14%。这意味着,有86%的概率你需要推倒重来。

“我们在做V2芯片时,已经预约好了重新流片(respin)的时间。结果第一次就成功了,我们自己都震惊了。你不应该期待这种小概率事件。”

Ross指出,大家都以为造芯片最难的是硬件。但做过才知道,软件更难。继续深入才会发现,跟上市场演进的方向才是最难的。

“如果你是市场在位者(incumbent),提前两年规划没问题,因为大家都在为你的硬件设计模型。但如果你是新人(newcomer),没人会为你尚未问世的芯片设计模型。你必须拥有更快的迭代循环。”

Groq做到了一年迭代一代芯片。V2之后一年是V3,再一年是V4。

他提到了Sarah Hooker的论文《硬件彩票》。核心观点是:人们为现有硬件设计模型。可能存在比注意力机制(attention)更好的架构,但因为attention在GPU上运行良好,所以它成了标准。

“如果你是市场在位者,你拥有巨大优势,因为大家都在为你的硬件做设计。这是一个闭环。”

Ross还讲了一个关于Google的故事。当时AMD还在挣扎期(后来做得很好),Google建设了10000台AMD服务器。他去参观实验室时,看到工程师把服务器从机架上拉出来,拔出AMD芯片,直接扔进垃圾桶。

“有趣的是,大家都知道那一代Intel会赢。那Google为什么还要建10000台AMD服务器?因为他们想从Intel那里拿到更好的折扣。当你到了那个规模,自己设计主板、建造并测试这些服务器的成本,比起能拿到的折扣,完全值得。”

所以,自研芯片的动机,不一定是为了真的使用那颗芯片。

5. 英伟达的真正护城河:不是CUDA,是HBM

许多人认为CUDA(英伟达的软件生态)是其护城河。Ross说这只在训练领域成立,在推理领域则不成立。

“我们现在有220万开发者注册。”当Harry问英伟达CUDA有多少开发者时,Ross说他们宣称有600万。

真正的护城河在于供应链,具体来说是HBM(高带宽内存)。

Ross解释了一个概念:买方垄断(monopsony)。垄断(Monopoly)是卖方垄断,买方垄断则相反——你是唯一的大买家,因此你控制了供给。

“英伟达的GPU本身使用的工艺和手机芯片一样。如果他们愿意,一年可以制造5000万颗GPU核心(die)。但今年大概只造了550万颗。为什么?因为HBM产能有限,中介层(interposer)产能也有限。”

当一家超大厂对英伟达说“给我100万颗GPU”,英伟达回答说“抱歉,还有其他客户”。于是超大厂说“没关系,我自己造”。紧接着,英伟达就“神奇地”找到了货给这家超大厂。

“自研芯片真正带给你的不是芯片本身,而是掌控自己命运的能力。英伟达无法单方面决定你的配额是多少。”

自研芯片可能更贵,且性能可能不如英伟达。但Ross解释了为什么这点性能差距在系统总成本中可能微不足道:

“如果芯片只占系统总成本的20%,芯片性能提升20%,整个系统的价值就提升了20%,但芯片成本只增加了20%的20%——也就是4%。微小的性能优势能带来巨大的价值差异。这就是为什么英伟达即使只比AMD好一点点,也能主导市场。”

HBM供应商也有自己的算计。HBM利润率极高,它们不愿增加产能,因为供给增加会导致利润率下降。同时,产能建设需要提前2年以上下单付款。即使拥有英伟达这样的现金流,也很难押注那么远的需求曲线。

6. Groq的差异化:6个月 vs 2年

这可能是整场访谈中最关键的差异化陈述。

“你向英伟达下单,需要提前两年付款才能拿到货。但向我们下单100万颗LPU,6个月后第一批货就开始交付。”

Ross说他曾与一家超大厂的基础设施负责人开会,阐述了速度、成本等各种优势,对方都反应平平。但当他提到6个月的供应链周期时,“对方直接暂停了对话,只想深入探讨这一点。这是他唯一关心的事。”

为什么存在这种差异?

Groq的LPU架构不依赖HBM,使用的是片上SRAM(静态随机存取存储器)。最常被问到的问题是:SRAM不是比DRAM贵吗?

Ross解释道:SRAM每比特大约比DRAM贵3-4倍(因为需要6-8个晶体管,而DRAM只需要1个晶体管加1个电容)。而且SRAM部署在更先进的制程上(比如3纳米),单位面积成本更高。综合下来可能贵10倍。

“但这是从芯片视角看问题。我们是用系统视角来看。”

当Groq运行一个像Kimi这样的模型时,他们使用4000颗芯片。而用GPU运行同样的模型可能只需要8颗。但这意味着GPU那边有500份模型拷贝,使用了500倍的内存容量。

“即使SRAM每比特贵10倍,他们却用了500倍的内存容量。从系统总成本算下来,我们反而更便宜。”

Ross说他们现在是从全球视角看问题。Groq有13个数据中心,分布在美国、加拿大、欧洲、中东。他们会根据不同地区的需求,在不同数据中心部署不同模型的不同编译优化版本。

“我们是在全球级别做负载均衡,而不仅仅是数据中心级别。”

他讲了一个两周前的真实案例:“有客户来找我们,需要5倍于我们全部产能的算力。他们从任何一家超大厂都拿不到,从任何人那里都拿不到。我们也给不了。没有人能给。”

市场不是“有没有需求”的问题,而是“产能根本不够”的问题。

7. 中美AI路径差异:训练成本与推理成本的取舍

Ross在访谈中谈到了中美AI发展路径的差异,其中一个判断值得关注。

当DeepSeek等国产模型发布时,业界焦点是其训练成本的突破。但Ross认为这背后是不同的优化方向选择。

他的判断是:中国模型的运行成本大约是美国模型的10倍。

“中国模型优化的是训练成本,美国模型优化的是推理成本。”

为什么中国模型的API价格反而更低?Ross认为这是定价策略的差异,不能将价格与成本混为一谈。当你是某个特定模型的唯一提供者时,你在封闭市场(captive market)里可以灵活定价。

训练是一次性投入,需要摊销到每次推理上。如果推理量巨大、算力充裕,降低单次推理成本的收益更高;如果算力受限,先把训练效率做到极致、让模型先跑起来则更为务实。

因此,他的思路是,由于芯片获取受限,中国团队在有限算力下把训练效率做到了极致。这是约束条件下的理性选择。

Ross还提到中国正在建设大量核电站,从能源侧为AI算力做长期准备。当能源不再是瓶颈时,算力约束的逻辑将会发生变化。不同的起点和约束条件,催生了不同的技术路径。当然,国内厂商对于其关于运行成本的判断,或许持有不同的数据。这种在Data Science, Computing Power, Model Training等核心领域的策略分歧,正是当前全球AI竞赛的生动写照。

8. 欧洲的困境:两种风险的选择

Ross对欧洲的诊断非常直接:问题不是资源,是恐惧。

他说了一个让Harry惊讶的判断:“美国实际上比欧洲更厌恶风险(risk averse)。”

但他马上解释道:风险有两种。一种是犯错的风险(commission),即做了某事结果是错的。另一种是错过的风险(omission),即没做某事结果错过了机会。

“美国害怕的是错过的风险。在高增长经济体里,错过比犯错的代价更大。而欧洲害怕的是犯错的风险。”

他说欧洲试图通过立法来竞争——比如数据本地化、隐私保护。但这解决的是“别人控制我”的风险,解决不了“我没有足够算力”的根本问题。

“如果欧洲真想竞争AI,挪威可以部署大量风力发电。挪威风力利用率达80%,配合水电,仅这一个国家就能提供相当于整个美国的电力。”

他说欧洲还有大量潜在能源没有开发。沙特阿拉伯在建设数据中心,拥有千兆瓦(gigawatts)级别的电力。欧洲为什么不和沙特合作,利用它们的“数据大使馆”(data embassy)概念——在主权监管下使用对方的能源?

关于核能,Ross说他在欧洲不提这个,“因为大家会强烈反对”。但日本正在重启核电站。他提到一个数据:“在美国建核电站,许可证费用是电站本身建造成本的3倍。”欧洲的情况可能更糟。

法国知道如何建核电站,韩国也知道(阿联酋的核电站就是韩国建的)。Ross建议欧洲来一个能源领域的“曼哈顿计划”。

Harry问:如果欧洲不行动会怎样?

“那么欧洲经济就会变成旅游经济。人们来看古老建筑,仅此而已。你无法在新经济中竞争,如果你没有新经济所依赖的资源。新经济就是AI,而AI建立在算力之上。”

Ross总结道:“控制算力的国家将控制AI。没有能源,就没有算力。”

9. AI经济学:通缩、劳动力短缺、新工作

Ross对AI经济影响的判断与主流叙事完全相反。

主流观点担心AI导致大规模失业。Ross则认为,AI会导致大规模的劳动力短缺

“将不会有足够的人来填补即将被创造出来的工作岗位。”

他预测了三重效应:

第一,大规模通缩压力。 咖啡会更便宜,住房会更便宜,一切都会更便宜。

Harry问:咖啡怎么会更便宜?

“机器人农业会更高效,供应链管理会优化,甚至可以基因工程改造咖啡豆让每瓦阳光产出更多。整个产业链的成本都会下降。”

第二,人们会退出劳动力市场。 工作时间减少,每周工作天数减少,退休更早。因为维持生活水平所需的工作量下降了。

第三,新工作和新产业涌现。 100年前美国98%的劳动力在农业,现在只有2%。那98%的人去做什么了?他们做了100年前根本无法想象的工作——软件工程师、网红。

“100年后,‘软件工程师’这个职业也会消失。但会以不同的方式消失——因为人人都会自然语言编程(vibe coding)。”

Ross解释了AI经济学与工业革命的本质区别:

“工业革命时期,能源不够用,还需要机器来转化能源。如果我想让更多汽车上路,光挖更多石油不够,还得造汽车。AI不一样。如果我把算力翻倍,我的用户数就能翻倍,产品质量也能提升。直接增加算力就行,没有中间转化环节。”

“经济中最有价值的是劳动力。现在我们可以通过生产更多算力和更好的AI,向经济中‘添加’更多虚拟劳动力。这在历史上从未发生过。”

10. Vibe Coding:从专业技能到基础素养

Ross讲了一个内部案例。

有客户来访,提出了一个功能需求。Ross做了一个非常高层的规格说明(spec),四小时后,这个功能就上线投入生产了。没有一行代码是人类编写的,没有人类进行调试,全是靠提示工程(prompting)完成。他们甚至通过Slack提交代码。

“想想这里的价值。但现在想象一下6个月后,这件事能在客户会议结束前就完成。那是质的不同,不只是省钱的问题。当你能做到那么快,你就能赢得竞争对手赢不了的单子。”

Harry问:自然语言编程是一个持久的市场吗?还是只是过渡期的现象?

Ross用读写能力的发展来类比回答。

“读写曾经是专业技能。如果你是抄写员(scribe),你是少数会读写的人,人们雇佣你就为了记录东西。你比普通人过得好,因为这是稀缺技能。”

“现在人人都会读写,它不再是特殊技能了,而是每份工作的基本要求。编程正在经历同样的转变。以后做市场营销要会编程,做客服也要会编程。”

Ross说他们有些实习生特别擅长自然语言编程。他还提到一个开连锁咖啡店的朋友,从来没写过代码,却用自然语言编程做了一个供应链库存管理工具。

“他发现了我们软件工程师都会遇到的问题——员工反馈说某个功能不工作,某个边界情况没处理好。然后他就用自然语言编程一个个修复。”

11. 利润率哲学:“我希望利润率尽可能低”

Harry问Ross如何看待利润率。

Ross说了一个反直觉的观点:“我希望我们的利润率尽可能低,只要业务能保持稳定。”

他解释了利润率的两个功能。第一,稳定性——如果你的利润率很薄,市场一波动你可能撑不住。第二,竞争壁垒——但反过来说,“你的利润率是我的机会”(Your margin is my opportunity),高利润率会吸引竞争者进入。

Ross说他面试过一个CFO候选人(后来雇佣了另一位很棒的CFO),对方建议定价应该让供给匹配需求——也就是提价直到需求下降为止。

“从经济学角度这很合理。但从逻辑上说,这就像问:为什么不把你的品牌价值变现呢?为什么不利用客户的信任卖给他们不那么好的东西?”

“品牌价值、客户信任是有价值的。信任会产生利息(trust pays interest)。你想让客户知道你在给他们好交易。当你收取高利润率时,你和客户是对立的。你要尽一切可能和客户站在一起。”

他说Groq的策略是:利润率尽可能低,通过增加销量(volume)来获得现金流。

“我喜欢算力生意的一点是,对算力的需求是永不满足的(insatiable)。这就是杰文斯悖论(Jevons Paradox)——如果我们生产10倍的算力,我们会有10倍的销量。只要我们持续降低成本,人们就会买更多。”

12. 芯片市场5年展望

Harry问:5年后的芯片市场会是什么样?

Ross预测英伟达仍将占据50%以上的收入份额,但可能只占10%的芯片销量份额。

“品牌具有巨大价值。你可以收取更多钱。但这会让你变得‘不那么饥渴’(less hungry),你开始收取高利润率,而有些人愿意为品牌付费——因为购买英伟达没人会被开除(fired)。这个生意会继续非常值钱。”

但他也说,当客户集中度像现在这么高时——35-36个客户占据了99%的token消费——这些大客户会基于什么对自己的业务最有利来做决定,而不仅仅是基于品牌。因此,市场上将会有更多其他芯片被使用。

Harry问:英伟达5年后值10万亿美元吗?

“如果不值,我会很惊讶。”

然后Harry问:Groq 5年后值10万亿吗?

“Possible(有可能)。我们没有供应链约束。我们能生产比任何人都多的算力。现在最稀缺的资源就是算力,而我们能生产几乎无限量的算力。”

关于Larry Ellison和甲骨文(Oracle)的崛起,Ross认为是“卓越的商业决策”和愿意快速行动的结合。

“大多数人现在还在问AI是不是过热、要不要加倍投入。他们(甲骨文)就是直接冲了,就是非常进取(aggressive)。这就是赢的方式。当别人恐惧时你要贪婪,当别人贪婪时你要恐惧。现在AI领域有很多恐惧。但你看到的是少数几个聪明的、贪婪的人在赚大钱——只是看起来有很多人在贪婪,其实只是少数人在快速行动。”

13. “我们不做模型”:一个可能被吞并的选择

访谈接近尾声时,Ross谈到了Groq的战略定位。

“我们找到了一个不会与客户竞争的领域——我们不会创建自己的模型。这条界限划在这里,意味着在我们平台上构建是安全的。”

这是互联网平台的经典问题:平台做大后会不会抢你的生意?Sam Altman曾在Harry的节目上说过,如果你只是在OpenAI基础上做小改进,你会被碾压。Ross说他很诚实。

“我们可能被客户吞并。但这也意味着你可以信任在我们上面进行构建。我可能在这个决策上犯了大错。”

Harry问Ross有没有卖过Groq的股票。

“从来没有。”

Harry开玩笑说:“你显然不懂这个游戏怎么玩。别担心,我会教你的。”

三个月后,英伟达用200亿美元给出了它的答案。

14. 回头看:那些意味深长的判断

回顾这期访谈,有几个判断现在看来格外意味深长:

关于被收购的可能性:Ross明确说过“我们可能被客户吞并”。他选择不做模型,是为了让客户信任在Groq上构建。这个选择的另一面是:当一个足够大的“客户”(或者说潜在客户)想要这个能力时,收购就成了自然的结果。

关于供应链的价值:Ross反复强调6个月交付周期是Groq最核心的差异化。对英伟达来说,获得Groq的技术授权不只是消灭一个推理市场的竞争对手,更是获得了一条不受HBM产能限制的算力通道。

关于估值的判断:9月融资时估值69亿美元,12月交易价200亿美元,近三倍溢价。Ross当时说Groq“有可能”值10万亿——这个判断没有机会独立验证了,但200亿美元的价格说明市场高度认可这项技术的战略价值。

关于从未卖股票:Ross说他从来没卖过一股Groq股票。三个月后的这场交易,大概是他第一次“退出”。

英伟达CEO黄仁勋在声明中表示,计划将Groq的低延迟处理器整合进英伟达AI工厂架构,以扩展其平台,服务更广泛的AI推理和实时工作负载。他强调这是“授权IP和雇佣员工”,而非收购公司——但据报道,除了GroqCloud业务外,Groq的所有资产都归属了英伟达。

Ross和Groq总裁Sunny Madra将加入英伟达,帮助推进和扩展这项技术。Groq将继续作为独立公司运营,由CFO Simon Edwards担任CEO,GroqCloud业务继续运行。

这是英伟达历史上规模最大的交易。上一个记录是2019年以69亿美元收购Mellanox。

核心问答

Q1:为什么算力会成为AI的终极瓶颈?
AI与传统软件完全不同。SaaS产品质量由工程师决定,AI产品质量却可以直接用算力购买——运行两个实例选择更好的答案,给高价值客户分配更多算力。Ross判断,如果Anthropic的算力翻倍,其收入在一个月内几乎就能翻倍。Token消费量几乎等于收入,这就是为什么对算力的需求永远无法满足。速度也至关重要:每100毫秒的加速能带来约8%的转化率提升。

Q2:英伟达的真正护城河是什么?
不是CUDA,而是对HBM的买方垄断(monopsony)。英伟达GPU使用的工艺和手机芯片一样,产能本身不是问题,HBM才是关键。英伟达控制着HBM的分配。自研芯片带给你的不是芯片本身,而是掌控自己命运的能力——让英伟达无法单方面告诉你配额是多少。但自研芯片极其困难:首次流片成功率只有14%,从设计到投产最快也要3年,真正的难度递进是:硬件 → 软件 → 跟上市场趋势。

Q3:为什么英伟达要与Groq达成这笔交易?
Groq的核心价值在于其6个月的供应链周期(对比英伟达的2年)以及不依赖HBM的SRAM架构。Ross自己曾说过“我们可能被客户吞并”和“我们不做模型”。当英伟达需要补齐在推理市场的短板、并寻求解决HBM产能限制的方案时,获得Groq的技术授权便成了逻辑自洽的答案。用200亿美元换来的不仅是技术,更是另一条不受HBM限制的产能通道,以及愿意加入英伟达的核心团队。




上一篇:Spring Data JPA 入门教程:掌握核心概念与Spring Boot集成,实现高效数据访问
下一篇:Codon高性能Python编译器:提升百倍性能、摆脱GIL的上手实践
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-11 08:36 , Processed in 0.199096 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表