找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4684

积分

0

好友

633

主题
发表于 5 天前 | 查看: 23| 回复: 0

全球首届EAIDC暨「具亮计划」黑客松决赛现场

没有仿真环境,没有预设参数,也没有后期剪辑的空间。

在深圳举办的全球首届具身智能开发者大会(EAIDC)的比赛现场,取而代之的是上百台六轴机械臂、统一的绿色布景,以及——无可辩驳的真实物理世界。

20支顶尖队伍真机上阵,数据现场采集、模型现场训练、系统现场部署。模型与代码不限,但算力、硬件乃至整套AI基础设施,全部由主办方统一提供。目标只有一个:在72小时内,教会真实的机械臂“看懂”环境、“做出”决策并“动手”操作。

这种完全不按套路出牌的赛制,让那些在仿真器Benchmark榜单上取得高分的模型,来到这里恐怕也只能“菜鸟互啄”。而这,正是主办方想要的效果:最好的评测,从来不在榜单上,而在充满随机性、多样性与复杂性的现实世界里。

一次关于“真问题”的集体实验

3月30日,由自变量机器人、深圳市人工智能行业协会、广东省具身智能训练场联合主办的全球首届EAIDC暨「具亮计划」黑客松决赛正式收官。这也是全球首个将“真实环境 + 真实任务”同时写入赛制的大规模具身智能赛事。

在过去,具身智能的物理世界里,一直缺少像大模型领域那样统一的评测体系来回答“哪个模型更强”。行业迫切需要能在真实环境中检验技术成熟度的平台,这场比赛,正好是一次大胆的尝试。

“大家取得的成绩,让我有些惊讶。” 自变量机器人创始人兼CEO王潜坦言。这个方向本身技术上手难度极高,办赛之初团队也带着些许忐忑。但最终,参赛团队展现出的能力超出了预期。

自变量机器人创始人兼CEO王潜在现场演讲

集结了来自清华、北大等顶尖高校与科研机构的20支强队,比赛现场堪称“硬核拉满”。一位参赛选手感慨:“从没打过这么富裕的仗。” 要知道,在常规科研环境中,专业实验室搭建一套类似的真机系统至少需要6个月。为了降低参赛门槛,主办方直接打造了一个“顶配考场”:

  • 模型?WALL-OSS、Pi0.5、Dream Zero等开源基础模型,任选;
  • 算力?超过100 PFLOPs,管够;
  • 机械臂?近百台高性能真机;
  • Baseline、数据集、从数据采集到训练推理的整套Infra,甚至在线评测系统,现场一应俱全。

当所有外部变量被抹平,唯一的核心问题便凸显出来:你的模型,到底能不能在真实世界里快速落地并完成任务?

四道“真题”,拉开能力差距

摆在选手面前的四道决赛任务,是主办方精心设计的“职业资格考试”,难度递增,分别对应着具身智能落地中不同的真实痛点。

决赛现场,参赛队伍围绕真机调试模型与系统

前两题更像是“保底分”。“套圆环”是经典的peg-in-hole问题,考验深度感知、姿态估计、精细对齐和接触力控制,是工业自动化精细操作的分水岭。“分水果”则从“手”转向“脑”,模型需要理解“把水果放进碗里”的语言指令,并完成从语义到动作的映射。这项能力一旦突破,机器人在物流分拣或无人超市补货等场景将大有可为。

将圆环套在柱子上(左);按指令分类水果(右)

真正拉开差距、且分数权重更高的是后两题。主办方的指向很明确:从传统Robotics迈向真正的Embodied AI,“手活儿好”是基础,“脑力强”才决定上限。

任务三“插电源线”堪称机器人的“噩梦”。线缆是柔性的,姿态随机;机械手可能遮挡视线,插入时还存在物理阻力。这不仅是操作问题,更是在高度不确定性中完成毫米级对齐的挑战。现实世界中,高达80%的操作对象(如线缆、衣物、食材)都是非刚性的,谁能解决柔性物体操作,谁就真正接近了“人类级”的操作水平。

任务四“拼单词”更进一步——几乎不考验“动手”精度,但极难“动脑”。这是一个典型的长程规划任务:字母顺序怎么排?哪些已用?放在哪里?一步出错,满盘皆输。现实世界的家务,如“去厨房拿杯子、倒咖啡、加糖、端到书房”,或收拾餐桌、整理玩具,全是这类长时序、多步骤任务。这要求模型不仅要“会做”,还要“会想”:理解指令、拆解任务、实时规划、分步执行。

插电源线(左),拼写单词(右)

比赛过程中,不同队伍选择了不同的技术路径,有人用Pi0.5、Dream Zero,也有不少团队基于开源的 WALL-OSS 模型在现场复现任务。起初情况并不乐观,很多团队连“跑通”都困难,任务成功率仅20%-30%。但随着紧张的调参、补数据、换策略,成绩快速爬升。像套圆环任务,成功率可提升至60%-70%;更复杂的拼单词任务,也从几乎不可用提升到40%-50%的水平。

这证明,在真实环境里,模型是能被快速迭代并真正干活的。同时,问题也暴露得更加彻底:一上B榜(新场景测试),成绩明显下滑,说明很多模型的泛化能力仍有不足;不少团队为赶时间只用了极少数据,也暴露出训练范式和数据利用效率的短板。

决赛现场的选手们专注调试

为什么开源是具身智能的必由之路?

行业共识是,具身智能不能再“纸上谈兵”。当下缺的不是炫酷的Demo,而是一个能在真实世界里“见真章”的靶场。这块靶场的建设,必须死磕三件事:真问题、真开源、真泛化

如果说赛题锚定了“真问题”,那么“为什么必须开源?”就成了更深层的行业之问。自变量联合创始人兼CTO王昊表示:“我们一直想把这件事真正做起来,让大家把开源模型用好。” 在当前阶段,不开源,行业很难真正跑起来。

原因很直接。具身智能已非单一模型问题,而是一个从数据采集、模型训练到真机部署、软硬件协同的复杂系统工程。门槛之高,若无开源,绝大多数开发者连“入场”机会都没有,高校也难以培养出能落地的人才,行业只能在少数团队内部缓慢循环。

更关键的是,现阶段根本没有“标准答案”。数据格式、模型架构、训练路径,没有任何一条被验证为最终解。这决定了没有一家公司能独立做完所有事。只有把数据、模型、流程持续释放,让更多人参与试错,行业才可能加速收敛。

从这个角度看,开源 的意义已超越技术共享,更是在“制造共识”。谁能吸引更多开发者在同一套体系上迭代,谁就更有机会定义未来的技术路径。

圆桌讨论:具身智能产学研协同创新的体系构建

但具身智能的开源与大模型有所不同。关键数据来自真实世界,涉及隐私与成本;能力常与具体硬件绑定,难以复现;部分推理和系统能力是公司的核心壁垒。因此,现实中的“开源”往往是在寻找一个平衡点。

首届EAIDC率先打了个样:与其只开源代码,不如把“能跑通的能力”开放出来。例如,自变量的WALL-OSS模型在现场已能通过标准工具链快速部署,从模型加载到机械臂执行,几小时内即可打通闭环,方便开发者快速上手,这为人工智能领域的快速实验和验证提供了可能。

“这个事情需要大量开发者参与,不只是科班出身,也希望更多普通开发者加入进来,生态才能真正做起来。” 王潜举了个生动的例子:“小龙虾”之所以能火,并非靠一群专业人士,而是无数个人开发者和小团队共同推动,形成了一个庞大的生态。

告别“孤勇者”,生态驱动真泛化

要实现突破性的泛化能力,具身智能就不能止步于“黑灯工厂”的单点应用,而必须走进家庭与生活,在充满不确定性的场景中大规模采集数据、开展训练。优质的数据“饲料”,才能喂养出具备优秀泛化能力的大模型。

对此,自变量机器人指出,必须从通用基础模型出发,才有可能在不同场景高效迁移,实现规模化落地。这个路径是单向的,不能倒过来。他们一方面持续打磨通用模型的泛化与长程任务能力,另一方面主动进入养老服务、公共服务等相对封闭的真实场景,让模型在运行中持续获得真实数据,反哺和验证通用能力。

圆桌讨论:具身智能的产业化路径

更多样的场景、更海量的真实数据、更多的失败与反馈,恰恰只有在大量开发者共同参与时,才可能出现。这正是这场赛事的“生态价值”所在。

在王潜看来,它的意义不只是一次竞技,更是降低门槛、吸引开发者、加速生态形成的起点。它解决了“让人进门”的问题,通过开源模型与统一基础设施,把高门槛的具身智能“打平”。表现突出的方案可进入WALL-OSS官方示例库,获得行业认可。企业也能站在社区的肩膀上,社区的广泛验证能迅速暴露问题,让依赖Demo、夸大能力的方案无处遁形。

更重要的是,开发者在真实环境中踩坑、优化的经验,将通过开源模型与社区不断回流,推动整个技术体系进化,逐步形成“开源—创新—回馈”的闭环。具身智能的进化,将不再依赖少数公司的单兵突进,而是转向一个由生态驱动的、持续加速的系统。这一过程,也是开源实战精神在硬科技领域的生动体现。

未来,EAIDC赛事将持续举办,并依托开源平台与软硬件开发体系,汇聚更多力量。它不再只是一个比赛,而是在尝试成为具身智能领域的“真实世界评测场”与行业观察窗口。这也正是开发者广场所倡导的,通过技术竞技与交流,推动前沿技术发展的理念。

过去,我们判断一个模型,看的是Benchmark排名;而未来,一个具身模型是否真的能打,答案或许更简单——来EAIDC的现场,看一眼它在真实世界中的表现。




上一篇:弱信号挖掘:DigClaw如何用数十亿Token与AI模型重构B2B商机发现?
下一篇:主流推理平台核心能力与架构全景解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 18:16 , Processed in 1.033968 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表