
本文内容整理自对光轮智能创始人兼CEO谢晨的专访。谢晨曾在Cruise负责自动驾驶仿真、在英伟达和蔚来搭建数据闭环,目前专注于服务全球顶级具身智能大脑团队。一个显著的趋势是,过去三个月,即便是最坚定的“真机派”机器人实验室,也开始主动寻求仿真评测方案。
这条技术路径上的裂缝,或许正决定谁能真正步入AGI时代。
01 数据的三次进化:从教材到导师
回顾历史,数据角色的演变清晰可见。ImageNet时代,数据如同一次性买断的教材。李飞飞用静态图片集“喂饱”了计算机视觉模型,这好比给学生发放标准答案册:这里是猫,那里是狗,记住即可。
随后,Scale AI将数据变成了工业化流水线。成千上万的标注员在基地里,按规范为传感器数据画框、打标签、做质检。这是一种“量贩式”教育:标准化、可复制、可交付。但其本质仍是被动的——算法团队提出需求,数据商交付成果,循环往复。
到了大语言模型的后训练阶段,数据商的角色发生了根本性转变。以Mercor和Surge为代表的新型数据服务商,开始招募物理学家、数学竞赛金牌得主、顶尖工程师,以每小时100美元以上的薪酬,请他们来评价模型输出、发现问题、并针对性提供改进经验。
传统的标注商对客户算法的内部状态一无所知,只能被动接单。而新型数据商通过主动提供评价与反馈,反过来刺激了客户对更优质、更复杂数据的需求。真正的“评价权”,正从算法团队手中,转移到了数据商那里。
评价权的转移,才是“数据即教育”这一理念的真正支点。 数据不再是静态的信息集合,而是演变成了一个动态的、能够教学相长的教育系统。
02 具身智能的数据金字塔:仿真居于中心
机器人面临的数据问题,与大语言模型截然不同。我们可以用一个金字塔来理解:
- 顶层:真实本体数据。直接从机器人硬件采集,准确性最高,但成本高昂,几乎无法规模化获取。
- 中层:仿真数据。优势在于可以低成本、大规模生成,核心挑战在于“Sim-to-real Gap”,即仿真环境中学到的技能能否有效迁移到真实世界。
- 底层:互联网数据与人类第一视角视频数据。这是“本体无关”的数据,不依赖于任何特定机器人硬件,来源广泛。
然而,这个金字塔的真正运作结构,是一个以仿真为核心的数据闭环。 将真实世界的数据(如人类演示视频、真机执行反馈)引入仿真环境,可以不断提升仿真模型的保真度;再利用高度逼真的仿真环境,生成海量、多样化的训练数据,用以喂养通用大脑。如今,大模型强大的泛化能力,正在有效弥合“仿真到现实”的鸿沟。
过去三个月,一个明显的趋势是,即便是此前坚持真机路线的顶级实验室,也开始转向仿真方案。原因很简单:算法模型的规模化评估与迭代,在物理世界中受到时间、成本和安全的严苛限制,几乎无法实现。可以说,仿真是机器人技术迈向规模化不可或缺的前提,没有它,这件事就做不成。
03 客户需求分化:零样本泛化 vs. 场景落地
大约六个月前,大模型团队和机器人公司在数据需求上还颇为相似。如今,两者已走向完全不同的道路。
- 大模型团队(如字节、阿里、OpenAI、DeepMind、英伟达)追求的是“零样本泛化”能力。他们的目标是训练一个在100种任务上学习后,能够处理5个从未见过任务的大脑,这才是通往通用智能的路径。因此,他们倾向于选择最简单的机器人本体(如机械臂+夹爪),目的是纯粹验证大脑的泛化性。他们信奉Scaling Law(规模定律),相信本体无关数据(仿真+人类数据)的力量,并依赖仿真评测来实现规模化验证。
- 机器人公司则越来越聚焦于具体的落地场景。无论是酒店服务、工厂车间巡检,还是沙漠太阳能板清洁,每个场景都有确定的任务、特定的机器人本体(轮式、足式、灵巧手)和专属的传感器配置。他们最关心的是任务执行的成功率、系统的稳定性以及最终商业化的可行性。
这两条路径的底层逻辑已然不同:一方在锻造通用的“大脑”,另一方在攻克具体的“手脚”应用。 未来的产业分工很可能是:科技大厂提供通用大脑模型,本体制造商(如宇树科技)专注于高性能硬件,而场景方案商则负责最后一公里的部署与优化。
04 中美路径分歧:商业模式如何塑造数据逻辑
中国不少机器人团队是“真机派”,认为真实数据泛化性更好。这背后往往不是纯粹的技术判断,而是商业模式使然。
许多机器人公司的核心盈利模式是销售硬件本体。为了支撑这个商业模式,就必须强调真机数据的独特价值,因为只有真机才能采集到“原汁原味”的真机数据。本质上,这类公司扮演了“数据采集厂”的角色——通过销售和部署机器人来采集数据,再用数据反哺算法优化,形成一个商业闭环。
然而,真机数据存在天然的天花板:极其准确,但难以规模化,且成本高昂。自动驾驶尚可通过车主被动采集数据,而机器人目前远未达到如此规模的部署。没有规模化的部署,何来规模化的数据?
正是商业模式倒逼出的数据逻辑,深刻影响了中美团队在发展机器人技术路径上的不同选择。
05 最有价值的数据:从“完美执行”到“失败纠错”
早期,客户普遍要求“完美数据”。例如,演示机器人做披萨:从冰箱取出面饼、均匀涂抹酱料、依次放置蔬菜和肉类、最后精准送入烤箱,整个过程行云流水,毫无差错。
后来业界发现,最有效的数据往往是“先失败再成功”的数据。
比如,机器人抓取蘑菇切片时没拿稳,蘑菇掉在了桌上,它再次识别并捡起,放回正确位置。这种“纠错数据”或“负样本数据”的价值,常常远超一次完美执行。因为当模型的认知与泛化能力提升后,它能够从错误中学习到更复杂的物理规律和任务逻辑,这更接近于人类的学习过程。
传统数据追求完美、正确、标准答案。而面向智能进化的数据,则需要多样性、逻辑关系,甚至包含错误。智能的本质,或许正是学会如何应对不确定性,而非简单地压缩和复现已知答案。
06 生态三角:霸权难成,共生演进
未来的人工智能世界,通用大脑会形成一家独大的霸权吗?
情况可能类似当前的大模型行业。人们曾以为OpenAI能形成垄断,现在看来并非如此。
关键仍在于数据闭环的掌控权。 如果这个闭环完全绑定在单一机器人本体上,并且该本体能够大规模落地到各种场景,从而回收海量独家数据,用于训练其专属大脑,那么霸权确实可能形成。特斯拉在自动驾驶领域的领先,一定程度上就源于这种“硬件-数据-算法”的垂直整合模式。
但如果是走“本体无关”的数据路线,那么通用大脑厂商就必须与仿真数据商、场景方等生态伙伴共生演化。在这种情况下,任何单一厂商都很难独自形成霸权。
具身智能所需的数据量,可能是大语言模型的成千上万倍。唯一的解决之道在于:从“以人为中心”的数据采集,转向“以系统为中心”的数据生成。 未来的顶级AI数据公司,其核心产品可能不再是数据集本身,而是提供一个高度逼真的“环境”或平台,让AI能在这个环境中通过强化学习等方式自主探索、试错并无限进化。
这类似于爱因斯坦的“思想实验”。对于AI而言,“思想实验室”就是仿真环境。仿真是具身智能实现自我持续进化的先决条件。
最终,是选择依赖“本体相关数据”构建垂直壁垒,还是拥抱“本体无关数据”追求通用智能,将决定技术终局的走向。
当大语言模型在数字世界的语料库中寻找答案时,机器人正在物理世界的荒漠中艰难寻觅数据。这两条路径终将在某一点交汇。到那时,数据将不再主要依赖人类手动采集,而是AI在仿真环境中自主“修炼”而成。
届时,所谓的数据公司,实质上将成为教育公司,只不过它的学生,是不断进化的人工智能。