云栈社区»论坛 › 开发者广场「Dev Plaza」 › 具身智能“裸考”时代：EAIDC大赛用真实任务终结“刷榜”，揭示 ...

发回帖发新帖

5678 积分	0 好友	731 主题

发消息

具身智能“裸考”时代：EAIDC大赛用真实任务终结“刷榜”，揭示行业真实水平

发表于 2026-4-2 11:15:41 | 查看: 150| 回复: 0

全球首届EAIDC暨「具亮计划」黑客松决赛现场

没有仿真环境，没有预设参数，也没有后期剪辑的空间。

在深圳举办的全球首届具身智能开发者大会（EAIDC）的比赛现场，取而代之的是上百台六轴机械臂、统一的绿色布景，以及——无可辩驳的真实物理世界。

20支顶尖队伍真机上阵，数据现场采集、模型现场训练、系统现场部署。模型与代码不限，但算力、硬件乃至整套AI基础设施，全部由主办方统一提供。目标只有一个：在72小时内，教会真实的机械臂“看懂”环境、“做出”决策并“动手”操作。

这种完全不按套路出牌的赛制，让那些在仿真器Benchmark榜单上取得高分的模型，来到这里恐怕也只能“菜鸟互啄”。而这，正是主办方想要的效果：最好的评测，从来不在榜单上，而在充满随机性、多样性与复杂性的现实世界里。

一次关于“真问题”的集体实验

3月30日，由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届EAIDC暨「具亮计划」黑客松决赛正式收官。这也是全球首个将“真实环境 + 真实任务”同时写入赛制的大规模具身智能赛事。

在过去，具身智能的物理世界里，一直缺少像大模型领域那样统一的评测体系来回答“哪个模型更强”。行业迫切需要能在真实环境中检验技术成熟度的平台，这场比赛，正好是一次大胆的尝试。

“大家取得的成绩，让我有些惊讶。” 自变量机器人创始人兼CEO王潜坦言。这个方向本身技术上手难度极高，办赛之初团队也带着些许忐忑。但最终，参赛团队展现出的能力超出了预期。

自变量机器人创始人兼CEO王潜在现场演讲

集结了来自清华、北大等顶尖高校与科研机构的20支强队，比赛现场堪称“硬核拉满”。一位参赛选手感慨：“从没打过这么富裕的仗。” 要知道，在常规科研环境中，专业实验室搭建一套类似的真机系统至少需要6个月。为了降低参赛门槛，主办方直接打造了一个“顶配考场”：

模型？WALL-OSS、Pi0.5、Dream Zero等开源基础模型，任选；
算力？超过100 PFLOPs，管够；
机械臂？近百台高性能真机；
Baseline、数据集、从数据采集到训练推理的整套Infra，甚至在线评测系统，现场一应俱全。

当所有外部变量被抹平，唯一的核心问题便凸显出来：你的模型，到底能不能在真实世界里快速落地并完成任务？

四道“真题”，拉开能力差距

摆在选手面前的四道决赛任务，是主办方精心设计的“职业资格考试”，难度递增，分别对应着具身智能落地中不同的真实痛点。

决赛现场，参赛队伍围绕真机调试模型与系统

前两题更像是“保底分”。“套圆环”是经典的peg-in-hole问题，考验深度感知、姿态估计、精细对齐和接触力控制，是工业自动化精细操作的分水岭。“分水果”则从“手”转向“脑”，模型需要理解“把水果放进碗里”的语言指令，并完成从语义到动作的映射。这项能力一旦突破，机器人在物流分拣或无人超市补货等场景将大有可为。

将圆环套在柱子上（左）；按指令分类水果（右）

真正拉开差距、且分数权重更高的是后两题。主办方的指向很明确：从传统Robotics迈向真正的Embodied AI，“手活儿好”是基础，“脑力强”才决定上限。

任务三“插电源线”堪称机器人的“噩梦”。线缆是柔性的，姿态随机；机械手可能遮挡视线，插入时还存在物理阻力。这不仅是操作问题，更是在高度不确定性中完成毫米级对齐的挑战。现实世界中，高达80%的操作对象（如线缆、衣物、食材）都是非刚性的，谁能解决柔性物体操作，谁就真正接近了“人类级”的操作水平。

任务四“拼单词”更进一步——几乎不考验“动手”精度，但极难“动脑”。这是一个典型的长程规划任务：字母顺序怎么排？哪些已用？放在哪里？一步出错，满盘皆输。现实世界的家务，如“去厨房拿杯子、倒咖啡、加糖、端到书房”，或收拾餐桌、整理玩具，全是这类长时序、多步骤任务。这要求模型不仅要“会做”，还要“会想”：理解指令、拆解任务、实时规划、分步执行。

插电源线（左），拼写单词（右）

比赛过程中，不同队伍选择了不同的技术路径，有人用Pi0.5、Dream Zero，也有不少团队基于开源的 WALL-OSS 模型在现场复现任务。起初情况并不乐观，很多团队连“跑通”都困难，任务成功率仅20%-30%。但随着紧张的调参、补数据、换策略，成绩快速爬升。像套圆环任务，成功率可提升至60%-70%；更复杂的拼单词任务，也从几乎不可用提升到40%-50%的水平。

这证明，在真实环境里，模型是能被快速迭代并真正干活的。同时，问题也暴露得更加彻底：一上B榜（新场景测试），成绩明显下滑，说明很多模型的泛化能力仍有不足；不少团队为赶时间只用了极少数据，也暴露出训练范式和数据利用效率的短板。

决赛现场的选手们专注调试

为什么开源是具身智能的必由之路？

行业共识是，具身智能不能再“纸上谈兵”。当下缺的不是炫酷的Demo，而是一个能在真实世界里“见真章”的靶场。这块靶场的建设，必须死磕三件事：真问题、真开源、真泛化。

如果说赛题锚定了“真问题”，那么“为什么必须开源？”就成了更深层的行业之问。自变量联合创始人兼CTO王昊表示：“我们一直想把这件事真正做起来，让大家把开源模型用好。” 在当前阶段，不开源，行业很难真正跑起来。

原因很直接。具身智能已非单一模型问题，而是一个从数据采集、模型训练到真机部署、软硬件协同的复杂系统工程。门槛之高，若无开源，绝大多数开发者连“入场”机会都没有，高校也难以培养出能落地的人才，行业只能在少数团队内部缓慢循环。

更关键的是，现阶段根本没有“标准答案”。数据格式、模型架构、训练路径，没有任何一条被验证为最终解。这决定了没有一家公司能独立做完所有事。只有把数据、模型、流程持续释放，让更多人参与试错，行业才可能加速收敛。

从这个角度看，开源的意义已超越技术共享，更是在“制造共识”。谁能吸引更多开发者在同一套体系上迭代，谁就更有机会定义未来的技术路径。

圆桌讨论：具身智能产学研协同创新的体系构建

但具身智能的开源与大模型有所不同。关键数据来自真实世界，涉及隐私与成本；能力常与具体硬件绑定，难以复现；部分推理和系统能力是公司的核心壁垒。因此，现实中的“开源”往往是在寻找一个平衡点。

首届EAIDC率先打了个样：与其只开源代码，不如把“能跑通的能力”开放出来。例如，自变量的WALL-OSS模型在现场已能通过标准工具链快速部署，从模型加载到机械臂执行，几小时内即可打通闭环，方便开发者快速上手，这为人工智能领域的快速实验和验证提供了可能。

“这个事情需要大量开发者参与，不只是科班出身，也希望更多普通开发者加入进来，生态才能真正做起来。” 王潜举了个生动的例子：“小龙虾”之所以能火，并非靠一群专业人士，而是无数个人开发者和小团队共同推动，形成了一个庞大的生态。

告别“孤勇者”，生态驱动真泛化

要实现突破性的泛化能力，具身智能就不能止步于“黑灯工厂”的单点应用，而必须走进家庭与生活，在充满不确定性的场景中大规模采集数据、开展训练。优质的数据“饲料”，才能喂养出具备优秀泛化能力的大模型。

对此，自变量机器人指出，必须从通用基础模型出发，才有可能在不同场景高效迁移，实现规模化落地。这个路径是单向的，不能倒过来。他们一方面持续打磨通用模型的泛化与长程任务能力，另一方面主动进入养老服务、公共服务等相对封闭的真实场景，让模型在运行中持续获得真实数据，反哺和验证通用能力。

圆桌讨论：具身智能的产业化路径

更多样的场景、更海量的真实数据、更多的失败与反馈，恰恰只有在大量开发者共同参与时，才可能出现。这正是这场赛事的“生态价值”所在。

在王潜看来，它的意义不只是一次竞技，更是降低门槛、吸引开发者、加速生态形成的起点。它解决了“让人进门”的问题，通过开源模型与统一基础设施，把高门槛的具身智能“打平”。表现突出的方案可进入WALL-OSS官方示例库，获得行业认可。企业也能站在社区的肩膀上，社区的广泛验证能迅速暴露问题，让依赖Demo、夸大能力的方案无处遁形。

更重要的是，开发者在真实环境中踩坑、优化的经验，将通过开源模型与社区不断回流，推动整个技术体系进化，逐步形成“开源—创新—回馈”的闭环。具身智能的进化，将不再依赖少数公司的单兵突进，而是转向一个由生态驱动的、持续加速的系统。这一过程，也是开源实战精神在硬科技领域的生动体现。

未来，EAIDC赛事将持续举办，并依托开源平台与软硬件开发体系，汇聚更多力量。它不再只是一个比赛，而是在尝试成为具身智能领域的“真实世界评测场”与行业观察窗口。这也正是开发者广场所倡导的，通过技术竞技与交流，推动前沿技术发展的理念。

过去，我们判断一个模型，看的是Benchmark排名；而未来，一个具身模型是否真的能打，答案或许更简单——来EAIDC的现场，看一眼它在真实世界中的表现。

上一篇：弱信号挖掘：DigClaw如何用数十亿Token与AI模型重构B2B商机发现？
下一篇：主流推理平台核心能力与架构全景解析

具身智能, WALL-OSS, 开源, 机器人, EAIDC