
最近AI领域的一级市场融资消息不断,但真正反映市场信心的,还得看二级市场的老股交易情况。这背后,其实是各家公司在技术路线和商业策略上的一次公开较量。
二级市场估值:Anthropic的倍数已超越OpenAI
先看两组一级市场数据:
- OpenAI在今年3月31日完成最新一轮融资,投后估值为8520亿美元。
- Anthropic在2月12日完成融资,投后估值为3800亿美元。
但需要注意的是,一级市场的估值往往由亚马逊、英伟达、软银、GIC这类战略资方定价,其中包含了投资的战略协同价值。更值得参考的,是它们在流动性更好的二级市场的交易价格。
目前,约有6亿美元的OpenAI老股(来自早期机构投资者)在Hiive、Augment等二级市场平台上挂牌,报价相当于一级市场估值的9折,即7650亿美元。这些股份已经挂了数月,即便高盛、摩根士丹利推出零佣金促销,依然处于滞销状态。
相比之下,Anthropic的老股在二级市场异常抢手,目前溢价超过50%(对应估值约6000亿美元),有高达20亿美元的资金在排队抢购。
这意味着,在活跃的交易者眼中,Anthropic的估值实际上只比OpenAI低1000到2000亿美元。
如果再结合收入来看:
- Anthropic当前的年度经常性收入(ARR)约为190亿美元。
- OpenAI的ARR约为250亿美元。
那么,以二级市场的估值计算估值倍数(估值/ARR),结果很有趣:Anthropic的估值倍数约为32倍,而OpenAI是31倍。在更市场化的交易环境中,Anthropic反而略胜一筹。
路线分野:OpenAI为何“押错了宝”?
造成这种分化的核心在于两者选择了不同的商业化路径。
OpenAI的重心在C端订阅服务。要做C端,就必须追求多模态能力,让大模型既能理解文本,也要精通图像、视频和语音。这条技术路线研发战线长,极度消耗资金和人才。
然而,OpenAI在C端的拓展频频受阻。其去年9月尝试的电商、外卖、旅行等业务举步维艰,仅半年后就宣布收缩。同期推出的AI视频模型Sora 2,以及号称“AI版TikTok”的独立应用,也在上个月传出关停退出的消息。
业内有一种观点认为,视频生成这类模型的真正市场在开发者(D端)和企业(B端),而非普通消费者(C端)。有资深从业者指出,任何需要用户主动学习的C端娱乐应用,成功率都很低。
此外,欧美用户的付费意愿或许被高估了。数据显示,ChatGPT的付费用户占比在过去半年仅从4.4%微增至5.6%,增长乏力。
反观Anthropic,它的目标非常清晰:瞄准全球规模高达50万亿美元的“白领生产力”市场,并且定位就是最高端的工具。许多人都低估了高端生产力工具的价值。Claude的定价确实不菲,其中等档次的Sonnet模型价格甚至超过了谷歌最高端的Gemini Pro。
这有点像生活中的某些规律——“免费的往往是最贵的”。选择一个便宜的模型,其运算时间可能是顶级模型的2-3倍,并且可能需要反复尝试多次才能获得可用结果。这不仅浪费了人力时间,因反复试错消耗的Token总量也可能更高。企业主算总账时,实际成本未必比直接使用顶级模型低。
看看增长数据就更明显了:
- 过去半年,OpenAI的ARR从180亿美元增长至250亿美元,增幅70亿美元,增长率约为39%。如果剔除其在编程助手方面的努力,增速可能更低。
- 同期,Anthropic的ARR从70亿美元飙升至190亿美元,半年增长了120亿美元,增速高达171%。
无论是增长的绝对值还是速度,Anthropic目前都处于领先位置。
国内市场的镜像:智谱与快手的对比
类似的路线差异,在国内市场也能找到映照。当前智谱的估值约为3473亿港币,而快手仅为1955亿港币。强行对比或许不尽准确,但两者在大模型赛道的侧重点确实不同。
快手旗下的“可灵”主要聚焦于视频生成模型。根据快手管理层透露的数据,全球视频制作的年总成本大约在600-700亿美元。这个市场规模,与Anthropic瞄准的“数十万亿美元生产力市场”相比,显得小了许多。
关键在于市场规模。在一个足够大的蛋糕里,多几个竞争者问题不大。例如国内的AI编程市场,至少有智谱、Kimi、MiniMax、通义千问、DeepSeek等五家以上主要玩家在竞争。而在视频生成领域,全球的主要竞争者可能不超过5家。
但两者的增速差距显著:
- 过去一年,可灵的ARR从1亿美元提升至3亿美元,增长了2倍。
- 同期,智谱的ARR增长了约60倍(当然其基数较低),目前ARR约为2.5亿美元。
智谱管理层曾表示,当前ARR增长的瓶颈在于算力供给,如果“卡”足够,ARR再增长1-2倍没有问题。他们为2026年底设定的ARR目标是10亿美元。相比之下,快手管理层对可灵今年的收入指引是“翻倍”。两者的增长预期,高下立判。
关于模型能力的冷思考
最后,聊聊如何客观评估模型能力。榜单成绩能信吗?恐怕要打一个大大的问号。有消息称,部分厂商会直接使用榜单测试题的答案进行训练,导致跑分虚高,但实际应用时效果“碎一地”。
那么媒体测评呢?同样存在被商业合作影响的可能性。即便是私人测评榜单,也难以完全排除被“充值”的嫌疑。能传到我们耳朵里的评价,很可能已经过了多轮公关信息的过滤。
那该怎么办?或许最靠谱的方式还是依靠可信圈子内的实际测试。根据一些相对中立的测评反馈,阿里最新发布的通义千问3.6 Plus模型,其能力在国内大致处于第二梯队,次于智谱的GLM-5.1。但考虑到3.6 Plus比Kimi的K2.5晚发布约2个月,也比GLM-5晚约1.5个月,这样的表现只能说符合预期,谈不上惊喜。这与之前传闻的“国内SOTA(当前最优)”水平相比,确实让一部分期待者感到有些落差。
技术的竞争最终会回归商业本质。是铺开战线做“全能战士”,还是聚焦痛点做“专业利器”?OpenAI与Anthropic、快手与智谱的不同境遇,或许正在给出市场的初步答案。对于这场正在进行中的AI大模型竞赛,你怎么看?欢迎在云栈社区的开发者广场分享你的见解。