近日,中国具身智能领域诞生了新的单轮融资纪录。
4月16日,成立仅一年的它石智航宣布完成Pre-A轮融资,金额高达4.55亿美元。

一年前,它石曾获得行业最大天使轮融资;一年后,这家公司的Pre-A轮融资,直接刷新中国具身智能领域的最高单轮融资额。
更引人瞩目的是此次堪称顶配的投资方阵容:高瓴创投与红杉中国本次联合领投。与此同时,美团战投重额加注并继续领投,北京机器人产业发展投资基金、上海国投先导等国资也联合入局……共计20余家机构,横跨财务、战略、产业、国资四大维度。
据了解,这个豪华的投资方阵容完全是它石主动设计的结果。在技术已经初步交卷的背景下,公司对资本有着清晰的诉求——只欢迎那些具备长期价值、有明确产业赋能意愿的投资方。
这笔近30亿人民币的融资将怎么花?据悉,资金将主要投向两个方向:“大脑”和人才。
“大脑”方面,战略重心在预训练,这部分算力消耗极大。人才方面,公司将持续推进“TARS STAR”全球顶尖人才引进计划,提供行业顶级的待遇。用他们自己的话说就是:已经准备好“有格局地用大钱”了。
这似乎是一家有能力不断“创纪录”的公司。从豪华的创始团队,到技术斩获吉尼斯世界纪录,再到发布全球首个宣称“能干活的”通用具身大模型……如今,潜心钻研“具身大脑”一年有余的它石智航,用最大的单轮融资额,又一次站到了行业聚光灯下。
在两轮重磅融资和技术首次交卷后,它石智航不仅仅稳坐国内具身智能第一梯队,更被视为国产“具身大脑”赛道的头号玩家。
没有大脑的本体,就只是一具躯壳
具身智能行业正在经历一场深刻的转向。
过去两年,行业热闹非凡。市场的喜好出奇地统一:只要哪家公司的机器人能上台翻个跟头、跳段舞,展台瞬间就会被围得水泄不通。本体形态是否酷炫、关节是否灵活、运控是否流畅……这些最“前端”的指标,抢走了所有聚光灯。
然而,自去年年中开始,一个更尖锐、更务实的问题开始反复被提及:机器人到底什么时候能真正进厂干活?到底能创造什么实际价值?
行业风向,开始不可逆地转变。到了今年年初,这股“务实主义”的风,同样刮到了资本市场的最前沿。相比比拼本体硬件和底层运动控制(“小脑”),一批专攻智能上限的“大脑”玩家,如 Skild AI、Sunday、Generalist 等,开始成为新的资本宠儿。
资本市场的嗅觉往往是最灵敏的。当顶级基金集体将目光转向“大脑”,便释放了一个清晰的信号:单纯或重点比拼本体硬件的竞赛阶段,或许已经基本结束了。下半场的胜负手,在于“大脑”。
而这个“大脑”要解决的,正是具身智能必须跨越的下一个阶段——真干活,而不是披着干活外衣的表演。
这同样也是它石对其大脑的期许:一个能干活的通用具身大模型。那么,它石的“大脑”到底什么样?
答案是:AWE 3.0,全称 AI World Engine,即“AI世界引擎”。

这不是一个单纯的视觉-语言模型(VLA),也不是3D资产生成模型。这是一个从底层架构就统一了感知、决策与行动的原生具身大模型,并搭配了全球首个视触觉世界模型 OmniVTA。
在该模型中,视觉、语言、动作三种模态天然对齐,训练时可以在任意模态之间互相转换。例如,“视觉”到“视觉”就是视频预测,“视觉-语言”到“动作”就是端到端控制。
更直观地说,这个模型拥有一项名为 Failure Recovery(自我纠错) 的关键能力。面对柔性操作中层出不穷的突发状况,模型不再简单模仿预设的动作轨迹,而是在隐空间里持续推演未来的多种可能,再据此做出实时决策。
例如,当插接线束的力度或角度出现异常时,机器人会主动把线拔出来,换个角度再试一次——正如人类技工的做法一样。对于真实工业场景而言,这标志着一个关键的应用成熟度信号:“机器人会反思了”。
这一切的实现,还有一个更引人注目的前提:没有用到一秒钟的“遥操”数据。
长期以来,行业有个共识:遥操数据精度最高。但它石却认为,这个结论站不住脚。它石首席科学家丁文超曾直言,在对亚毫米级精度有极致要求的场景下,人工遥操过程中的犹豫、抖动,反而会变成训练数据中的“噪声”。
这也是它石反复强调 “以人为中心”(Human-centric) 数据采集范式的真正原因。以线束装配为例,孔位极窄,容错性非常低,但经验丰富的工人却能完成。虽然人的操作也非零偏差,但其强大的实时纠错能力——通过感受阻力并迅速调整角度和力度——正是智能需要习得的精髓。
从第一性原理出发,想要获得这种能力,最直接的方式就是从真人身上采集数据。如今,这个想法已完全落地,并凝练成一整套以人为本的数据采集套件——SenseHub。

仅需一双轻便的数采手套和一枚第一视角摄像头,劳动者在日常作业中便能“无感”地完成高质量数据采集。
回过头看它石的布局,其逻辑变得非常清晰:数据-本体-模型的全栈自研,并非为了构建封闭生态,而是从“第一性原理”推导出的必然选择。在行业早期,技术路线尚未收敛,产业的每个变量都会直接影响“大脑”能力的上限,因此必须将核心环节掌握在自己手中。
吉尼斯纪录背后,是落地的领先
在具身大脑这条赛道上,无论玩家从哪条路径出发,最终都不可避免地会交叉在同一个目标上:泛化能力。
真实世界是混沌且复杂的。如果一个机器人只能像复读机一样执行预设的单一脚本,那它与传统自动化产线上的机械臂并无本质区别。大语言模型(LLM)让人兴奋的原因正是如此——我们第一次拥有了具备泛化潜力的智能。虽然它在特定单一任务上可能不如硬编码的脚本极致,但真实世界中那些无法用脚本逻辑描述的种种长尾任务,必须依靠智能的“涌现”来解决。
这也意味着,这个领域很可能走向 “赢家通吃” 的格局。而它石智航从成立第一天起,所有的战略重心都在为这个前提做准备。为此,他们选择了一个堪称“地狱难度”的落地场景:线束装配。
线束装配,被称为工业自动化界的“哥德巴赫猜想”。长程操作、柔性物料、亚毫米级精度,这个“不可能三角”全部集齐,是检验具身智能能力的试金石。
大多数具身智能公司在选择初期落地场景时,往往会遵循“易落地、快见效”的路径,比如叠毛巾、搬箱子。但它石偏要反其道而行之。丁文超曾表示:“没有Plan B。”他们的逻辑是:如果连最柔软、最易变形的线束都能实现精准装配,那么工厂里其他常规装配任务,无异于降维打击。
而事实证明,它石不仅做到了,更是直接把这个场景“打爆”——其机器人曾在1小时内,完成百余次亚毫米级柔性线束的完整装配,一举刷新吉尼斯世界纪录。

更令人印象深刻的是,机器人在高速装配中,动作流畅且拟人。在它石发起的业内首个“机器人柔性操作图灵测试”中,超过50%的投票者竟然无法分辨视频中哪个是真人、哪个是机器人。

“以人为中心”(Human-centric)的数据采集方式,其优势在此凸显。这种方式天然具备全场景覆盖的基因,因为它捕捉的是人在真实多样环境中的工作流,不受限于特定硬件或封闭实验室。这意味着,AWE 3.0从诞生之初,便具备了跨场景迁移的潜力。
它石认为,模型层的过拟合只是技术瑕疵,但方法论的过拟合是致命的。因此,他们拒绝了走遥操数据的“捷径”,全力押注Human-centric这条路。一年过去,他们坚守的理念正逐渐化为现实。
目前,它石已手握超十万小时的Human-centric数据,并正式发起“具身数据星火计划”,邀请生态伙伴共建产业级数据共享生态,直指1亿小时级别的数据规模。基于这些可迁移的训练数据,它石内部已有多个落地场景在并发推进。
资本下半场风向标:大脑强,则具身强
踏入2026年,具身智能领域的资本风向已然转变,从“百花齐放”的喧嚣,走向“精准滴灌”。而滴灌的靶心,正是那些全栈布局、以“大脑”为核心的公司。
没有“大脑”的本体公司,本质上是一具精致的躯壳,上限被锁定;而不做本体、只做算法的团队,则难以打通从数据到商业反馈的闭环,容易沦为技术外包商。在残酷的技术收敛期后,市场往往只会记住并需要第一名。
这也是垂直整合在行业早期的必要性所在。想把技术做到极致,目前看来最可靠的解法,就是把影响性能的核心变量握在自己手里。未来,核心零部件和硬件供应链固然会出现专业化分工,但整个产业的定价权与标准制定权,必将向拥有“最强大脑”的全栈企业高度集中。
高瓴与红杉的联手押注,正是对这一行业终局判断最有力的印证。 对于秉持长期主义的顶级投资机构而言,不怕投得晚,但一旦决定出手,就意味着对其未来画像有了笃定的判断。这也是两家机构在经过超过一年的深度跟踪调研后,最终决定联合领投的原因。
具身“大脑”,就是那个正在逐渐收敛的确定性。而在这条新赛道上,它石智航无疑是当下最具竞争力的玩家之一。4.55亿美元,是资本市场用真金白银为这个终局判断投下的抢先票。
具身智能的下半场竞赛,枪声已响。关于人工智能的下一步发展,也引发了开发者社区的广泛讨论。这场以“全栈大脑”为胜负手的淘汰赛,结局令人期待。