11亿美元。
不是A轮,不是B轮,是种子轮。
一家成立仅几个月的公司,零产品、零收入、零用户,却拿下这笔巨额融资。估值直接冲到51亿美元。
这大概是人类史上最昂贵的一颗“种子”了。
这家公司叫 Ineffable Intelligence,创始人是 David Silver —— AlphaGo 的核心发明者、DeepMind 联合研究员、强化学习领域的教父级人物。
他正在做的事,和整个 AI 行业的主流方向完全背道而驰。
“反LLM”到底是什么意思?
当前 AI 领域的主流是大语言模型(LLM),GPT、Claude、Gemini、Llama 全都走这条路。核心理念很简单:用海量人类文本训练模型,让它“像人一样说话和思考”。

David Silver 断言:这条路走不远。
在他看来,LLM 的天然天花板在于——它永远无法超越人类数据的质量。喂给它人类写的文章,最多达到人类写作水平;喂给它人类做的决策,最多达到人类决策水平。
想要超越人类,就不能再依赖人类数据。
Ineffable Intelligence 选择的路是 强化学习(Reinforcement Learning)——让 AI 通过试错自主发现知识和技能。就像 AlphaGo 不是靠背棋谱变强的,而是通过自我对弈、在无数次失败中领悟棋道。
AlphaGo 击败人类最强棋手,不是因为它读了更多棋谱,而是因为它发现了人类从未想到的棋路。这就是强化学习的威力。
投资人为什么敢砸11亿美元?
不光是 David Silver 的名气——尽管他的声望已经足够耀眼。更关键的是一个直白逻辑:
如果 LLM 的天花板真实存在,那么谁先找到替代路线,谁就赢下未来。
目前全球 AI 投资几乎全押在 LLM 上。可一旦有人用强化学习做出“不依赖人类数据的通用 AI”,那就瞬间切出一个全新赛道——没有竞争对手,没有存量玩家,眼前是一片蓝海。
Sequoia Capital 和 Lightspeed 愿意领投,Nvidia 和 Google 愿意参投,连英国政府都参与支持。这释放出一个信号:聪明钱都在赌“LLM 之后是什么”。
Silver 在公司博客里写道:“这是我的毕生事业。”他还告诉 Wired:“我在 Ineffable 赚到的每一分钱都会捐给高影响力的慈善机构,尽可能拯救更多生命。”
当一个人把毕生事业和全部身家都押上时,你要么觉得他疯了,要么觉得他看到了别人看不到的东西。
强化学习 vs LLM:两条路线的终极对决
把两种路线放一起对比:
LLM 路线:
- 优势:成熟、生态完善、商业化快
- 劣势:依赖人类数据、幻觉问题、推理能力有上限
- 代表:OpenAI、Anthropic、Google
强化学习路线:
- 优势:可能突破人类认知上限、自主发现新知识
- 劣势:训练成本极高、应用场景不明朗、离商业化很远
- 代表:Ineffable Intelligence(刚刚起步)
David Silver 的核心赌注是:强化学习 + 大规模计算 = 超级智能。

这并非毫无先例。AlphaGo 用强化学习击败人类顶级棋手,AlphaFold 用类似方法破解了蛋白质结构预测难题。DeepMind 的许多突破都脱胎于强化学习。
但要把它从围棋、蛋白质这些“封闭领域”扩展到“通用智能”,难度是指数级增长的。11 亿美元够不够烧到那一天,谁都不敢下结论。
LLM 是“学人类”,强化学习是“自己悟”。前者能快速商业化,后者则可能彻底改写规则。两条路并不矛盾,但最终只有一条能抵达终点。
对普通开发者意味着什么?
短期来看:几乎没有影响。 Ineffable Intelligence 既没产品也没 API,没有任何你能直接使用的东西。这 11 亿美元会用来招人、采购 GPU、铺研究管道,离商业化至少还要 3 到 5 年。
中期来看:这是个信号。 如果你在做 AI 投资或职业规划,别把所有筹码都压在 LLM 上。强化学习、世界模型、神经符号系统……这些“非主流”路线随时可能爆发。
长期来看:可能改变一切。 如果 Silver 的赌注成功,未来的 AI 将不再是“模仿人类”,而是“超越人类”。这对每个行业、每个个体都会造成根本性冲击。
你觉得“不靠人类数据的 AI”能成功吗?还是 LLM 路线已是终局?
在 开发者广场 里,我们常聊这类前沿趋势——有时候不被看好的路线,反而藏着最大的机会。你觉得强化学习这条“逆流”之路,最终会走向何方?