
这笔交易的悖论在于:英伟达(Nvidia)为市场上内存最小的芯片支付了高额溢价。

在圣诞前夜,当美国联邦贸易委员会(FTC)的办公室一片漆黑时,英伟达悄悄地完成了一笔200亿美元的交易,旨在吞并其最大的威胁。
他们没有收购这家公司,也没有签署合并协议。他们只是购买了技术,雇佣了员工,然后像蜕皮一样将空壳公司抛在身后。
这不是一次合并,而是一场“榨取”。
如果你是一名开发者或科技投资者,这个故事至关重要,因为“Groq 漏洞”刚刚垄断了AI推理(AI inference)的未来。等到监管机构结束假期回来时,英伟达硬件堆栈的唯一替代方案将早已成为其一部分。
你可能想知道,一笔200亿美元的交易如何能在一夜之间完成?或者,英伟达为何要为一款内存比智能手表还小的芯片支付高额溢价。
读完本文,你将完全明白他们为何这么做,以及为了在今天开启的单厂商时代中生存下来,你必须采取的三个步骤。但要理解其动机,你必须着眼于英伟达自身无法打造的那样东西。
如何在不“收购”竞争对手的情况下收购它
在硅谷并购的常规世界里,一笔200亿美元的收购是一场艰苦的拉锯战。它需要长达十八个月的尽职调查、股东投票,以及FTC为确保市场公平而进行的严苛审查。
黄仁勋(Jensen Huang)没有十八个月的时间。
英伟达没有收购 Groq Inc.,而是为 Groq 的知识产权执行了一项“非独占性永久许可”,并同时向其整个工程团队发出了工作邀请。这种结构在法律上等同于一场魔术。因为“Groq”这个法人实体在技术上仍然存在——仍由其原始投资者所有,并持有一大笔现金——所以实际上并没有发生任何合并。
“我们不是在收购 Groq 这家公司,”黄仁勋在一封甚至在火鸡还没凉透时就泄露的内部备忘录中写道。“我们只是在许可他们的突破性技术,以加速我们自己的路线图。”
这是一个聪明而又犬儒的区别。《哈特-斯科特-罗迪诺反垄断改进法》要求公司报告大规模的收购行为,但对于许可协议和大规模招聘,它的约束力就小得多。
那么,你如何能不实际收购一家公司,却在其身上花费200亿美元呢?你买走灵魂,留下躯壳。等到美国司法部反应过来时,专利早已在圣克拉拉归档,而工程师们也已经戴上了绿色的工牌。而他们留下的东西,比他们拿走的更具侮辱性。
留下僵尸公司
如果你下周走进 Groq 位于山景城的总部,会发现那里依旧灯火通明,服务器仍在嗡嗡作响,甚至会有一位CEO坐在角落里。
但凑近一看,你才会发现这其实是一座鬼城。
这笔交易转移的不仅仅是专利,还有人才。乔纳森·罗斯(Jonathan Ross),这位创造了Google TPU并创立Groq旨在终结GPU的人物,如今已是英伟达的副总裁。而打造了他们病毒式传播的开发者平台的总裁桑尼·马德拉(Sunny Madra),现在则负责领导英伟达新成立的“推理部门”。
整个核心工程团队——那些真正懂得语言处理单元(Language Processing Unit, LPU)如何工作的人——都收到了他们法律上无法拒绝的offer。
剩下的,就是一个“僵尸公司”。新任CEO是前首席财务官西蒙·爱德华兹(Simon Edwards),他现在的工作基本上就是管理一个专利组合和一个装满英伟达现金的银行账户。他来这里不是为了创新,而是为了在租约到期时关灯走人。
- 乔纳森·罗斯?去了英伟达。
- 工程团队?去了英伟达。
- 专利?授权给了英伟达。
这是一场核弹级别的人才收购。它瞬间解决了英伟达的人才短缺问题,同时消灭了他们唯一一个拥有可用产品的竞争对手。从技术上讲,Groq这家公司仍然可以继续“竞争”。但在没有创始人、没有工程师、没有路线图的情况下,它只是一个名义上的竞争者。
但英伟达为什么如此迫切地需要他们?答案就在于一块让万亿巨头都感到恐惧的230MB芯片,这直接关系到人工智能的未来架构。
为什么230MB能击败80GB
要理解这次收购背后的恐慌,你必须审视芯片本身。
英伟达的旗舰产品H100 GPU是一个性能猛兽。它搭载了80GB的HBM3显存——容量巨大、价格昂贵,旨在将像GPT-4这样的巨型模型完全装入其“大脑”中。它为吞吐量(throughput)而生:并行处理成千上万的请求。它是训练AI的完美机器。
但在执行AI推理任务时,它却表现糟糕。
当您与ChatGPT聊天时,模型会一次生成一个词(即一个token)。这个过程无法并行化。它必须等待前一个词生成完毕,才能预测下一个词。在GPU上,这个过程的瓶颈在于您能以多快的速度将数据从庞大的80GB显存传输到计算核心。

“内存悖论”:从外部HBM(左)移动数据是瓶颈;将数据保留在片上(右)则解决了这个问题。
正是在这一点上,Groq的LPU颠覆了游戏规则。LPU不使用外部内存。它使用的是SRAM——一种位于芯片本身、体积微小但速度极快的内存。它的容量只有大约230MB。
悖论就在于:英伟达花费数十亿美元购买的芯片,其内存容量甚至比你的智能手表还小。
为什么?因为那微小的内存可以瞬时访问。当H100还在苦等数据通过线路传输时,LPU已经完成了计算。这使得Groq能够以每秒500个token的速度生成文本,而标准的H100配置则难以达到100。
在过去三年里,整个行业都认为“更大的内存”意味着“更好的芯片”。我们都错了。我们一直在为训练(构建大脑)进行优化,却忽略了推理(使用大脑)需要完全不同的架构。Groq证明了,对于实时AI,你不需要一个仓库般庞大但缓慢的内存,你只需要一个小型、超高速的缓存。
五年来,内存大小为王。到2026年,旧王已逝。
速度是新的石油(而英伟达的优势正消耗殆尽)
这件事之所以在现在——而不是六个月前——变得至关重要,是因为我们都看到了2026年即将到来的转变:智能体(Agent)时代。
在2025年,我们主要将AI用作聊天机器人。你输入一个提示词,等待几秒钟,然后得到一个答案。2秒的延迟虽然恼人,但尚可接受。
但智能体则不同。智能体不仅会说话,它们还会行动。它们会协商机票价格,在实时循环中调试代码,并操作语音接口。要让一个语音智能体感觉像“真人”,它的响应时间必须在300毫秒以内。如果超过这个时间,那种“拟人”的错觉就会被打破。你会开始打断它说话。这种体验上的阻力使得产品无法使用。

为什么智能体在GPU上表现不佳:200毫秒以上的延迟会产生体验阻力,打破“拟人”错觉。
正是在这一点上,英伟达的“推理瓶颈”成了一个关乎存亡的威胁。在H100上运行一个智能体,就好比用一列货运火车去送一份披萨。当然,火车很强大,一次能运送一百万份披萨。但如果你只需要在十分钟内把一份披萨送到一栋房子里,那火车就毫无用处了。
Groq的LPU就是那辆摩托车。它载货不多,但能瞬间送达。
英伟达意识到,随着世界从“训练”(构建模型)转向“推理”(运行智能体),市场对其货运火车的需求将趋于平稳。然而,对摩托车的需求即将迎来爆炸式增长。
为什么速度比规模更重要?因为在智能体驱动的经济中,延迟就是收入。如果你的销售机器人需要停顿三秒才能回答客户,你就会丢掉这笔生意。如果你的编程智能体需要十分钟而不是十秒钟来修复一个bug,你就会解雇这个智能体。
英伟达预见到了这一转变,并且他们知道自己的H100并非应对这个任务的合适工具。他们有两个选择:要么花五年时间尝试重新构建整个GPU技术栈来模仿Groq,要么在平安夜开出一张支票。
他们选择了开支票。这不仅是商业策略,更是为了掌控未来的计算力格局。
价值200亿美元的护城河
12月26日市场开盘时,各方反应说明了一切。没有出现恐慌性抛售,也没有任何困惑。英伟达的股价在盘前交易中甚至上涨了0.32%。华尔街完全明白发生了什么。
一位分析师称之为“防御性杰作”,并将其与2012年Facebook收购Instagram相提并论。正如扎克伯格收购Instagram是为了消除一个他自己无法构建的移动端威胁一样,黄仁勋收购Groq也是为了消除一个他无法忽视的推理端威胁。
这构筑了一条完美的护城河。现在,如果你想训练一个模型,你会使用英伟达H100。如果你想快速运行那个模型,你会使用英伟达LPU(也就是换了品牌的Groq芯片)。生态闭环就此形成。
- 英伟达股东(股价上涨)。
- Groq投资者(成功套现)。
- 黄仁勋(垄断地位得以巩固)。
每个人都赢了——除了客户,他们现在要购买高性能AI产品时,只能选择唯一一家供应商。这次整合对英伟达的利润率来说是件好事,但对定价而言却很可怕。没有了Groq的削价竞争,英伟达没有任何动力去降低推理成本。AI token价格的“逐底竞争”就此终结。
但就在股东们庆祝的同时,创始人们开始删除他们的商业计划书了。整个科技趋势正在被重新定义。
硬件初创公司的消亡
这笔交易的冲击波不仅打击了英伟达的竞争对手,更让整个芯片领域的风险投资市场化为乌有。
在过去三年里,像 Cerebras、Tenstorrent 和 Etched 这样的初创公司,凭借一个简单的融资说辞筹集了数十亿美元:“英伟达在推理方面太慢了,我们更快。”
这个说辞在圣诞前夜彻底终结了。
如果连 Groq——这个技术最领先、资金最雄厚、唯一拥有可用的生产级编译器的公司——都无法作为一家独立公司生存下去,那么一个种子轮阶段的初创公司还有什么机会呢?
风险投资家们已经在撤回投资意向书了。“死亡地带”——这个环绕在大型科技公司周围,让初创公司在成长起来之前就被扼杀的区域——刚刚已经扩展到覆盖整个半导体行业。来自沙山路的信息很明确:硬件战争已经结束,英伟达赢了。
如果你是一名硬件初创公司的创始人,你的退出策略刚刚烟消云散。你努力的目标不再是打造一家上市公司,而是为黄仁勋开发一个新功能,好让他在2027年以极低的价格收购。“英伟达杀手”的时代正式落幕。
你可能会想:这不正是反垄断法旨在防止的情况吗?
为什么FTC无法起诉一个“幽灵”
这笔交易的高明之处在于其时间线。反垄断调查以政府的速度进行。一个典型的FTC诉讼需要18到24个月才能获得初步禁令。
但技术却在以光速发展。
等到2026年1月FTC的律师们结束假期回来时,Groq的团队早已被整合进英伟达的“推理部门”。等到2026年底提起诉讼时,Groq的编译器技术将已成为CUDA的原生部分。等到2027年案件开庭审理时,整个市场早已发生了天翻地覆的变化。
FTC能起诉一个“幽灵”吗?因为“Groq”这家公司依然存在,所以并没有可以被撤销的合并案。英伟达只是雇佣了一些员工,并获得了一些技术的授权。想让这一切恢复原状,在法律上是不可能的。
监管机构还在打2024年的战争,而英伟达已经赢得了2026年的胜利。所以,垄断已成定局。现在的问题不再是如何阻止它,而是如何在这种环境下生存。
如何在单一供应商时代生存
那么,面对这种情况,你究竟能做些什么呢?如果你是一名开发者,你需要停止等待某个“救世主”芯片来将你从英伟达的高昂定价中解救出来。援军不会来了。你需要为一个单一供应商的世界重新架构你的技术栈,在这个世界里,延迟是唯一重要的指标。
-
评估首个令牌生成时间(TTFT)
停止优化吞吐量(每秒令牌数)。那是一个训练指标。对于智能体,应该衡量TTFT。如果你当前的技术栈需要超过300毫秒才能开始生成内容,那么你已经过时了。立即将你的工作负载迁移到“批处理大小为1”的架构上。
-
实现推测解码(软件层面的解决方案)
你可能还买不到Groq芯片,但你可以模仿它们的速度。使用“推测解码”——运行一个小型草稿模型,在你的主模型之前预测令牌。这可以在没有新硬件的情况下,将H100的性能提升2-3倍。
-
维护一个ONNX/Triton备用方案(逃生通道)
不要将你的整个管线硬编码到CUDA中。使用像Triton或ONNX这样的抽象层。这是你唯一的筹码。如果英伟达在2026年大幅提高推理价格(他们会的),拥有一个可移植的模型可以让你在AMD或定制ASIC赶上来时,顺利地迁移过去。
反面模式:现在不要签署H100“预留实例”的多年期合同。硬件格局正在向推理芯片转变。将自己锁定在训练硬件上三年,无异于一份自杀式协议。
坦诚的局限:这些步骤无法解决垄断性定价问题。你仍然需要支付“英伟达税”。但它们能确保你的产品足够快,以便在智能体时代中生存下来,而你的竞争对手们可能还在等火车到站。
黄仁勋收购了硬件。别让他也买断了你的路线图。
最终的结论
英伟达究竟是将我们从硬件碎片化中拯救出来,还是将我们困在了一个围墙花园里?答案是:两者皆是。
通过收购Groq,英伟达统一了技术栈。“训练vs.推理”的兼容性难题已不复存在。开发者将拥有一条从H100到LPU的无缝路径,所有这些都运行在相同的CUDA代码上。这将变得更容易、更快、更可靠。
但这也将是无法逃脱的。我们现在生活在一个由一家公司控制着人工智能的大脑(训练)、身体(推理)和语言(CUDA)的世界里。这是一个工程奇迹,是当世界其他地方的人们还在拆礼物时,就已用重金购得的。
黄仁勋在圣诞节买下的不只是一家芯片公司;他买到了金钱通常买不到的唯一东西:时间。
本文旨在分析行业动态与技术趋势。更多深度技术讨论与资源分享,欢迎访问 云栈社区。