云栈社区»论坛 › 开发者广场「Dev Plaza」 › AlphaGo之父融资11亿美元做强化学习：不靠人类数据的AI能走多远 ...

发回帖发新帖

4293 积分	0 好友	559 主题

发消息

AlphaGo之父融资11亿美元做强化学习：不靠人类数据的AI能走多远

发表于 2026-4-29 03:30:33 | 查看: 181| 回复: 0

11亿美元。

不是A轮，不是B轮，是种子轮。

一家成立仅几个月的公司，零产品、零收入、零用户，却拿下这笔巨额融资。估值直接冲到51亿美元。

这大概是人类史上最昂贵的一颗“种子”了。

这家公司叫 Ineffable Intelligence，创始人是 David Silver —— AlphaGo 的核心发明者、DeepMind 联合研究员、强化学习领域的教父级人物。

他正在做的事，和整个 AI 行业的主流方向完全背道而驰。

“反LLM”到底是什么意思？

当前 AI 领域的主流是大语言模型（LLM），GPT、Claude、Gemini、Llama 全都走这条路。核心理念很简单：用海量人类文本训练模型，让它“像人一样说话和思考”。

David Silver 佩戴耳机，背景为科技感网络结构

David Silver 断言：这条路走不远。

在他看来，LLM 的天然天花板在于——它永远无法超越人类数据的质量。喂给它人类写的文章，最多达到人类写作水平；喂给它人类做的决策，最多达到人类决策水平。

想要超越人类，就不能再依赖人类数据。

Ineffable Intelligence 选择的路是强化学习（Reinforcement Learning）——让 AI 通过试错自主发现知识和技能。就像 AlphaGo 不是靠背棋谱变强的，而是通过自我对弈、在无数次失败中领悟棋道。

AlphaGo 击败人类最强棋手，不是因为它读了更多棋谱，而是因为它发现了人类从未想到的棋路。这就是强化学习的威力。

投资人为什么敢砸11亿美元？

不光是 David Silver 的名气——尽管他的声望已经足够耀眼。更关键的是一个直白逻辑：

如果 LLM 的天花板真实存在，那么谁先找到替代路线，谁就赢下未来。

目前全球 AI 投资几乎全押在 LLM 上。可一旦有人用强化学习做出“不依赖人类数据的通用 AI”，那就瞬间切出一个全新赛道——没有竞争对手，没有存量玩家，眼前是一片蓝海。

Sequoia Capital 和 Lightspeed 愿意领投，Nvidia 和 Google 愿意参投，连英国政府都参与支持。这释放出一个信号：聪明钱都在赌“LLM 之后是什么”。

Silver 在公司博客里写道：“这是我的毕生事业。”他还告诉 Wired：“我在 Ineffable 赚到的每一分钱都会捐给高影响力的慈善机构，尽可能拯救更多生命。”

当一个人把毕生事业和全部身家都押上时，你要么觉得他疯了，要么觉得他看到了别人看不到的东西。

强化学习 vs LLM：两条路线的终极对决

把两种路线放一起对比：

LLM 路线：

优势：成熟、生态完善、商业化快
劣势：依赖人类数据、幻觉问题、推理能力有上限
代表：OpenAI、Anthropic、Google

强化学习路线：

优势：可能突破人类认知上限、自主发现新知识
劣势：训练成本极高、应用场景不明朗、离商业化很远
代表：Ineffable Intelligence（刚刚起步）

David Silver 的核心赌注是：强化学习 + 大规模计算 = 超级智能。

四足机器人与强化学习神经网络示意图

这并非毫无先例。AlphaGo 用强化学习击败人类顶级棋手，AlphaFold 用类似方法破解了蛋白质结构预测难题。DeepMind 的许多突破都脱胎于强化学习。

但要把它从围棋、蛋白质这些“封闭领域”扩展到“通用智能”，难度是指数级增长的。11 亿美元够不够烧到那一天，谁都不敢下结论。

LLM 是“学人类”，强化学习是“自己悟”。前者能快速商业化，后者则可能彻底改写规则。两条路并不矛盾，但最终只有一条能抵达终点。

对普通开发者意味着什么？

短期来看：几乎没有影响。 Ineffable Intelligence 既没产品也没 API，没有任何你能直接使用的东西。这 11 亿美元会用来招人、采购 GPU、铺研究管道，离商业化至少还要 3 到 5 年。

中期来看：这是个信号。 如果你在做 AI 投资或职业规划，别把所有筹码都压在 LLM 上。强化学习、世界模型、神经符号系统……这些“非主流”路线随时可能爆发。

长期来看：可能改变一切。 如果 Silver 的赌注成功，未来的 AI 将不再是“模仿人类”，而是“超越人类”。这对每个行业、每个个体都会造成根本性冲击。

你觉得“不靠人类数据的 AI”能成功吗？还是 LLM 路线已是终局？

在开发者广场里，我们常聊这类前沿趋势——有时候不被看好的路线，反而藏着最大的机会。你觉得强化学习这条“逆流”之路，最终会走向何方？

上一篇：9秒删库惨案复盘：Claude Agent为何"明知故犯"越过护栏？
下一篇：Vibe Coding最赚钱的3条路：卖解决方案，不是写代码

强化学习, 人工智能, DeepMind, AlphaGo, David Silver