云栈社区»论坛 › 开发者广场「Dev Plaza」 › 具身智能ChatGPT时刻何时到来？宇树王兴兴GTC2026详解技术瓶颈与 ...

发回帖发新帖

3364 积分	0 好友	444 主题

发消息

具身智能ChatGPT时刻何时到来？宇树王兴兴GTC2026详解技术瓶颈与G1机器人设计

发表于 2026-3-18 07:27:19 | 查看: 63| 回复: 0

王兴兴在GTC2026演讲

机器人能在80%陌生场景完成80%任务，就是“ChatGPT时刻”。

智东西3月17日报道，今天，宇树科技创始人兼CEO、CTO王兴兴在GTC2026上，分享了公司在具身智能领域的最新关键技术进展，并深入剖析了当前行业在任务泛化、数据效率与强化学习规模效应方面面临的核心瓶颈。

王兴兴认为，虽然具身智能已成为全球最受关注的技术赛道之一，但距离真正跨过“ChatGPT时刻”仍有明显距离。当前最大的挑战在于，尚未出现一个具备强泛化能力、能在陌生场景中稳定执行任务的模型。

他预测，这一临界点最快可能在未来1-2年实现，稍长一些则可能是未来2-3年。

王兴兴强调，机器人的运动能力和干活能力必须同步推进，但前者是后者的前提。没有足够丰富的动作表达和高稳定性，机器人就很难真正走进工厂、家庭等真实场景。

然而，在他看来，真正制约行业跨越临界点的，已不只是单一产品的表现，而是模型层面的系统性能力。要迈过“ChatGPT时刻”，行业至少还需解决三件事：

提升模型对任务和动作的表达能力，突破泛化瓶颈。
提高对视频、仿真和真机等多元数据的利用效率，减少对大规模真机采集的依赖。
让强化学习形成可复用、可积累的规模效应。

在技术路线上，他更看好世界模型和视频生成模型，认为其天花板更高，更有机会利用互联网的海量视频和文本数据。

王兴兴提出一个关键的衡量标准：如果未来机器人能在80%的陌生场景中，仅通过语言或文字指令完成80%的任务，那才意味着具身智能真正迎来了自己的“ChatGPT时刻”。

以下是演讲内容的核心整理。

一、二十年后看，G1也依旧是一款经典产品

宇树科技成立于2016年。实际上，我个人从2013年就开始研发四足机器人；而接触人形机器人更早，2009年还在读大学时，就曾制作过一个小型人形机器人。

这些年，公司陆续推出了多款人形机器人。目前比较经典的一款，是2024年5月发布的小尺寸人形机器人G1。从某种意义上说，它已成为全球范围内的一款经典机型。许多国内外用户都在使用它，甚至不少其他公司也在研究、借鉴其设计方案。

宇树科技机器人产品发展路线图

这款机器人的最大特点是小巧、紧凑、性价比高。它身高约一米三，重几十千克，腿部和手部自由度很高，传感器配置完整，整机紧凑度极高。因此，它在易用性和外观美观性上，在全球范围都表现优异。即使再过十年、二十年回头看，它也会是一款经典产品。

去年，我们又发布了一款中型工业级机器狗，各项性能指标强劲，可胜任室内外巡检等工作。同时，我们还发布了身高1.8米的大尺寸人形机器人H1。这款机器人的整体比例更接近真人，灵活度也很好。当然，其尺寸更大，现阶段更适合工厂、农业等场景的体力型工作。

前段时间，我们还发布了小型机器狗As2。它具备基本防水能力，负载能力强，可承载十几千克重量，且续航时间长。从硬指标看，这款产品目前在全球也处于领先水平。

我们之所以继续研发更大尺寸的人形机器人，是因为小尺寸机器人在支撑能力、负载能力和手臂力量等方面，天然存在限制。若要真正进入工厂或家庭，执行更偏体力型的工作，机器人的尺寸、力量和结构都必须更进一步。相应地，大尺寸机器人在能力更强的同时，也带来了更高的安全要求。

目前，这类大尺寸人形机器人已能学习和完成一些相对复杂的工程作业。但由于整机更重、力量更大，近距离接触时必须保持足够的安全距离，至少两到三米会更安全。

二、机器人想要大规模应用，稳定性必须足够好

在运动性能方面，我们做了大量工作。以人形机器人H1为例，其在长跑等运动能力上已取得不错成绩。例如，1500米长跑大约耗时六分多钟，普通人可能已跟不上它。当然，短跑能力仍需继续提升。

除了硬件，去年我们在软件上也进行了诸多升级，例如自动化控制、任意动作下的抗冲击能力、摔倒后自主起身等。这些技术都非常实用。

我们坚信，机器人未来要大规模应用，最关键的一点就是稳定性必须足够好。即便遭遇极端情况，它也应能自我恢复、自主站立。

目前看来，我们机器人的算法对硬件的适配能力较强，因此在不同机型上的泛化表现也相对更好。理论上，现在人类能完成的许多动作，机器人都已可以尝试去完成。

当然，一些特别复杂的动作仍面临挑战，例如包含巨大侧向力的动作，或地面湿滑等情况。但总体而言，我们仍希望不断提升运动能力。

去年，我们在RL（强化学习）控制模型上做了大量升级，涵盖了基础跑步、舞蹈、武术动作，以及机器人在任意动作下受干扰后的快速恢复与稳定控制。去年下半年，我们还实现了比较完整的全身遥操作。

我认为，在全身深度强化学习方面，许多核心问题已基本解决，接下来更多是持续完善。

三、春晚背后，不是单个动作训练，而是整套系统能力

今年2月，我们参与的春晚节目在国内外反响热烈。为了这个节目，我几乎梳理了所有能找到的中国传统功夫动作。最初筛选了上百个动作，最终保留了醉拳、双截棍、舞棍、舞剑等几十个更具表现力、更适合机器人的经典内容。

宇树G1机器人功能特性海报

同时，我们也挑战了一些高难度动作。例如原地连续空翻，这对电机和腿部的负载压力极大。再如上墙动作，我们也不满足于单步，而是尝试了更高、更具视觉冲击力的动作。

在节目的舞棍部分，我们用到了灵巧手，使机器人能够抓握棍子。此外，更大尺寸的人形机器人也在分会场做了特别造型和展示，整体效果充满趣味与意义。

节目中对机器人进行了一些改装。例如，将头部激光雷达升级为128线的3D激光雷达并调整朝向，使其能感知更多周围信息。因为在多人、多机的密集场景中，仅观测下方或侧面的雷达极易被遮挡。

更重要的是，我们使用的是一个预训练的全身RL模型，而非为单个动作单独训练模型。这样做的好处在于其复合能力更强，训练调试更便捷，也更利于快速走位、复杂动作组合以及不同硬件间的兼容。

简单来说，现在我们执行复杂动作时，理论上可以让机器人瞬间停稳，再无缝切换到下一个动作。若采用更早期的技术路线，许多单动作策略无法做到中途暂停和切换，一停就可能导致摔倒。如今能稳定停住再切换，这对调试和组合各类复杂动作至关重要。

此外，我们还开发了全身状态感知模型，使机器人在动作过程中能更好地完成感知与决策；同时也构建了集群控制系统，可调度数十甚至上百台机器人完成复杂走位和编队。

四、运动和干活，必须同步推进

我们始终认为，运动能力和干活能力都至关重要，且必须同步推进。在某种意义上，运动能力仍是干活能力的前提。

机器人要“干活”，首先需满足几个条件：第一，其动作表达必须足够丰富，能做出千变万化的动作；第二，执行这些动作时必须足够稳定。如果连这两点都做不到，就难以谈及真正的干活能力。

这有些类似于动物。例如蚂蚁、老鼠、狗，它们的大脑未必高度发达，但运动能力依然很强。因此，运动智能某种程度上是一个相对更易实现、也必须优先做好的能力。先打造出过硬的身体能力，再优化“大脑”和“干活模型”，这是一条必要的路径。

过去几年，我们一直在推动机器人执行实际任务，但客观而言，这在全球范围内仍十分困难。

我们一直希望机器人能用于生产机器人本身。因此前段时间，我们也在开发相关模型，并尝试将其应用于人形机器人，让它们进入工厂参与生产。我认为这件事非常有趣且有意义。

当然，现阶段面对特别复杂的工位，例如装配关节模组，由于零部件多、工序繁杂，成功率尚不特别高。但对于抓取单个零部件，或由一两个零部件组成的相对简单动作，在训练完成后，基本可达到接近百分之百的成功率。

从全球范围看，涉及多工序、长任务链且包含小零部件的复杂操作，依然极具挑战。

另外，我们去年下半年取得较好进展的一项技术是全身遥操作。这项能力非常实用，尤其适合大规模数据采集。

当然，目前这种遥操作方案在全球范围内仍存在一些共性问题。例如，真正动起来后，动作完成度与真人相比仍有差距；在一些复杂动作中，脚部和身体可能出现抖动，影响整体操作体验。这些方面仍需持续完善。

但从稳定性来看，这套方案已做得比较好。我们公开展示的视频均未加速，是一比一的真实速度。

五、迈过“ChatGPT时刻”，当前至少有三个关键问题要解决

若要讨论具身智能如何迈过“ChatGPT时刻”，我认为首先至少需要解决几个关键问题。

第一，提高模型对任务的表达能力，突破泛化瓶颈。

当前许多模型，连“表达”本身都还不够强。它们可能只能执行一些基础动作，但如果要求其做出任意动作、实时生成动作，或更高级、更复杂的动作，模型本身还很难完整表达出来。

如果模型连动作都无法充分表达，就更不可能高质量地执行。因此，模型的运动表达能力必须更强。这其中，多模态模型、感知能力、模型本身的编码器和解码器，都还需持续改进。

第二，是提升模型对多元数据的利用率。

机器人与语言模型不同，其数据目前仍然非常稀缺。在真实机器人数据极少的情况下，若必须依赖海量真机数据才能训练出模型，我认为这种数据利用率仍然偏低。

因此，我们应尽可能在预训练阶段，充分利用视频数据、互联网数据、仿真数据，先训练出基础模型，再提升对真实机器人数据的利用效率。这样，所需的真机数据可以更少，但系统依然能够有效运行。

即使你真的拥有一万台机器人和一万名数据采集人员，最终效果也未必理想。因为这其中还涉及数据质量、硬件差异、传感器差异等诸多问题。并非机器数量越多，数据效果就一定会线性提升。所以，我一直认为需要进一步提高数据利用率，尽可能多利用视频和仿真数据，尽可能减少对大规模真机采集的依赖。

第三，提高强化学习的规模效应。

目前很多情况下，一个机器人的运动策略训练好后，数据就被丢弃了。下次需要新动作时，又得重新训练。理想状态应该是将这些数据收集起来，重新整合进一个统一模型中二次利用，不断复用、不断累积，让强化学习也能产生类似“越训练越强”的规模效应。如果能做好这一点，强化学习的收益将非常显著。

六、世界模型或视频生成模型，是未来发展方向

近几年，具身智能领域出现了多种技术路线，例如经典的VLA模型，以及基于视频生成的模型、视频世界模型等。

具身智能大模型演进时间线

我个人认为，未来更有希望的方向，还是世界模型或者基于视频生成的模型。因为这条路线的天花板更高，甚至某种意义上，其上限目前还看不到边界。

原因很简单：走这条路线，机器人模型可以更充分地利用互联网上已有的大规模视频和文本数据，而非仅仅依赖自行采集的真机数据。其数据基础天然更庞大，想象空间也更大。

去年到今年，我们也开源了一个基于视频生成的世界模型。简而言之，就是机器人先在“想象”中生成未来要执行的动作，然后将这个想象过程与真实的机械动作对齐，最后再去执行。从展示效果看，视频生成部分已经做得相当出色。

当然，这个方向也存在明显难点。最大的问题是：视频模态与真机模态很难完全对齐。在视频生成中，误差可能微乎其微；但真正落实到机器人执行时，哪怕只差一毫米，效果都可能天差地别。因此，未来可能需要将视频生成与强化学习结合起来，才更有机会真正跑通这条路线。

我们前段时间也开源了自己的VLA模型和训练架构。但就我个人的判断，现阶段VLA模型的天花板相对较低。它确实有其价值，但在许多方面仍存在瓶颈，尤其是泛化能力，目前尚未看到特别理想的结果。

七、80%陌生场景里任务完成率能达80%，就是具身智能“ChatGPT时刻”

如果未来某一天，在80%左右的陌生场景中，仅通过语言或文字指令，机器人就能完成80%左右的任务，那么我认为，具身智能就真正迈过了它的“ChatGPT时刻”。

这里最核心的点是陌生场景。也就是说，你必须将机器人直接带到一个它从未见过、训练集中也未曾出现的环境中，无需重新训练、无需重新采集数据、无需提前扫描地图、无需复杂部署，开机即能开始工作。

从概率上讲，AI的发展多少带有些运气成分。也许某一天，突然有一家公司，或者某个非常厉害的团队、某位天才，就真的把这个模型做出来了。

但我觉得，无论最终由谁实现，这对整个行业都将是巨大的利好。它将真正点燃行业的热情，使具身智能成为一个全球性、历史性的时刻。

因此，要解决上述问题，我认为最重要的仍是全球范围内的共同合作。机器人、AI、具身智能，绝非一两家公司，甚至不是一个国家就能独自完成的事业。更多时候，它需要全球的共同努力。

无论最终谁率先突破，对整个行业都是好事。这个行业本就是新兴行业，我一直相信，大家好，才是真的好。我们也希望有更多人投身这个行业，把东西真正做出来，并且做得更好。

本文内容整理自公开演讲。对前沿AI与机器人技术有更多探讨，欢迎访问云栈社区的人工智能板块，与更多开发者交流。开源实战板块也汇集了众多像宇树这样的优秀开源项目分析。

上一篇：iPhone 5正式停产，初代Lightning接口机型告别官方维修
下一篇：戴尔2026财年裁员约11000人，AI服务器业务成战略重心

具身智能, 机器人, 人形机器人, 强化学习, 多模态模型