找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3355

积分

0

好友

445

主题
发表于 3 小时前 | 查看: 4| 回复: 0

具身人工智能领域,正向着以视觉为中心的感知范式发生全面而深刻的转型。

作为机器人感知世界时信息密度最高、与自然人机交互最契合的模态,视觉是解锁通用机器人智能、实现仿真到真实无缝迁移的核心密钥。但当研究者们试图沿着这条路径向前探索时,却始终需要在“看得真”和“训得快”之间做艰难取舍:高保真视觉渲染带来了巨大的计算与内存开销;人工建模总是陷入耗时耗力的低效循环;现有平台的兼容性缺陷不断限制创新边界,严重束缚了具身智能研究的想象力。

为了攻克这些制约具身智能领域发展的核心难题,清华大学智能产业研究院(AIR)DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了 GS-Playground 通用多模态仿真框架。

作为一套专为视觉中心的机器人学习打造的新一代仿真基础设施,GS-Playground 首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合,在保证物理仿真所需的高精度与强稳定性的同时,提供了大规模视觉驱动策略训练与仿真到现实迁移所需的渲染效率与环境支撑。该成果已被机器人领域国际顶级学术会议 RSS 2026(Robotics: Science and Systems)录用。

通用全场景原生兼容:打造统一的具身智能仿真训练底座

GS-Playground 设计之初便定位于通用型全场景具身智能仿真平台,其核心搭载了团队自研的跨平台并行物理引擎,原生支持 CPU/GPU 双后端与 Windows/Linux/macOS 全系统运行,可无缝适配全品类机器人形态,包括市面上常见的四足机器人、全尺寸人形机器人、多自由度工业机械臂,全部实现开箱即用的原生适配,无需额外的二次开发工作。

在此基础上,平台全面覆盖机器人运动控制、自主导航、高接触精度操作三大核心任务场景。

在接口设计上,平台 API 全面兼容行业通用的 MuJoCo MJCF 格式,可实现现有仿真项目的零摩擦快速迁移,最大程度降低研究者的适配成本。

自研高性能并行物理引擎:为接触密集型机器人学习提供稳定底层动力学

对于视觉中心的机器人学习而言,“看得真”只是第一步,真正决定策略能否迁移到真实世界的,是仿真系统能否在复杂接触、摩擦、碰撞与多刚体耦合中持续给出稳定、可信的物理反馈。

针对这一核心瓶颈,GS-Playground 从底层自研了一套高性能并行物理引擎,采用广义坐标下的速度‑冲量动力学公式,将接触与摩擦统一建模为混合互补问题(MCP),并通过投影高斯‑赛德尔(PGS)求解器实现稳定求解。

相比依赖软接触正则化的传统方式,这一设计更强调静摩擦保持、高刚度约束与大时间步稳定性,尤其适合足式运动、机械臂抓取和密集多体接触等高动态任务。

为了支撑大规模并行训练,团队进一步引入约束岛并行化接触流形热启动机制:

前者将彼此独立的刚体交互系统拆分为多个约束岛并行求解,后者利用上一帧已收敛的接触冲量作为当前帧初值,将稳定堆叠场景中的 PGS 迭代次数从 50 次以上降低到 10 次以内,大幅提升复杂接触场景下的收敛效率。

实验结果充分验证了这一自研物理引擎的稳定性与吞吐优势。

在 Franka Panda 动态抓取摇晃测试中,GS-Playground CPU 后端在 0.002s 与 0.01s 两种时间步下,均实现 90/90 的完整保持成功率,显著优于 MuJoCo、IsaacSim 与 Genesis 等主流方案; 在 27 自由度人形机器人复杂多体交互基准中,当单环境扩展到 50 个机器人时,GS-Playground CPU 后端仍能保持 1015 FPS 的稳定吞吐,相比 MuJoCo 实现 32 倍加速,相比 MjWarp 实现约 600 倍提升。

自研内存高效 Batch 3DGS 渲染技术:打破保真与效率的行业不可能三角

数千个高保真 3DGS 场景同时渲染带来的内存与算力挑战,一直是制约视觉驱动机器人大规模训练的核心卡点。

针对刚体仿真环境,团队首先设计了专属优化的高效剪枝策略。该策略可将高斯点数量减少 90% 以上,同时峰值信噪比(PSNR)下降幅度不足 0.05,视觉差异几乎无法被视觉运动策略感知。这一技术在大幅降低显存占用的同时,几乎无损地保留了场景的视觉质量,为大规模高保真并行仿真奠定了核心基础。

在此基础上,团队研发了面向批处理深度优化的批量 3DGS 渲染器,实现了多场景大规模高斯渲染的并行处理。在单张 NVIDIA RTX 4090 GPU 上,渲染器在 640×480 分辨率下可实现最高 10000 FPS 的突破性吞吐量,最多可同时渲染 2048 个场景,不仅显著提升了单位算力的渲染效率,更能完美适配大批次强化学习的训练工作流,让大规模并行训练不再受限于渲染性能。

此外,团队还提出了刚性连杆高斯运动学(RLGK)机制,将 3D 高斯簇与物理引擎中的对应刚体进行精准绑定,确保视觉表征与物理对象的位姿能实时同步更新,实现了零额外开销的状态同步。即便是在机器人快速运动、频繁接触交互的动态场景中,渲染器依然能够实现无伪影的动态画面输出,从根源上解决了动态场景中的渲染时间一致性与视觉伪影问题,保障了训练数据的稳定性与可靠性。

自动化“Sim‑Ready”Real2Sim 工作流:降低 Real2Sim 门槛

传统仿真场景的构建,始终是机器人研发流程中效率最低、成本最高的环节之一。无论人工建模多么精细,始终无法完全复刻真实环境的视觉细节与物理特性,感知与物理的双重鸿沟成为了制约 sim‑to‑real 跨域迁移的核心卡点。

针对这一行业痛点,GS-Playground 设计了一套全自动化的“图像到物理”Real2Sim 工作流,仅需输入单张 RGB 图像,即可在数分钟内完成仿真就绪(Sim‑Ready)数字资产的全流程创建,实现了真实场景到数字孪生的快速转换,同时保证视觉真实感与物理一致性。

  • :自动化图像到物理仿真管线,通过目标分割、背景补绘、三维高斯溅射 / 网格重建,从 RGB 输入构建可直接用于仿真的资源。
  • :物理与渲染仿真核心,包含 CPU/GPU 物理后端、集成传感器与激光雷达仿真,以及经过剪枝优化与刚性连杆运动学适配的批量三维高斯溅射渲染。
  • :下游应用,包括操作任务、导航任务以及大规模并行强化学习。

基于这套成熟的自动化工作流,团队还构建了 Bridge‑GS 数据集,在 Bridge‑v2 数据集的基础上补充了场景与物体级的 3DGS 表征、物体级网格模型、6D 位姿数据与校准后的相机参数,为行业提供了标准化的高质量仿真数据集。同时团队在 InteriorGS 数据集上完成了完整的泛化性验证,充分证明了该管线对不同室内场景的强适配能力与泛化性能。

全链路端到端验证:实现零微调的无缝仿真到真实迁移

基于三大核心技术的深度协同,GS-Playground 完整构建了从真实场景重建、大规模并行训练,到真机部署的全链路端到端闭环,真正实现了“重建即训练、训练即部署”的研发流程革新。

在策略训练与真机迁移的核心能力上,平台可稳定支持数千个并行环境同时运行,为四足机器人、人形机器人、工业机械臂等全品类机器人提供大规模视觉强化学习训练支撑。仅在 GS-Playground 仿真环境中完成训练的视觉驱动策略,无需任何额外的微调与适配,就能直接部署到真实机器人上稳定运行:

  1. 四足和人形机器人的运动策略均可 zero‑shot 部署到真机;
  2. 视觉导航任务实现了零样本的真机直接部署;
  3. 机械臂抓取任务在零微调的前提下,真实场景成功率达到 90%。

开源赋能:与全球社区共同推动具身智能创新

GS-Playground 作为行业内首个实现高吞吐量并行物理仿真与高保真批量 3DGS 渲染深度融合的全栈仿真框架,从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。其自动化 Real2Sim 工作流大幅降低了高保真仿真环境的构建成本;全维度的实验验证也充分证明,平台在足式运动、自主导航、机器人操作等机器人主流任务中,能够同时弥合物理与感知层面的仿真到现实鸿沟,实现真正的零微调真机部署。

未来,GS-Playground 还将持续迭代优化,不断拓展能力边界。清华大学智能产业研究院 DISCOVER Lab 始终致力于推动具身智能领域的前沿研究与技术创新,我们将正式开源 GS-Playground 的全栈框架,提供一套高性能、易使用、高泛化性的核心基础设施,助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。

项目主页: https://gsplayground.github.io
论文链接: https://arxiv.org/abs/2604.25459
仓库链接: https://github.com/discoverse-dev/gs_playground




上一篇:马斯克当庭承认xAI蒸馏OpenAI模型,硅谷互揭老底像村口吵架
下一篇:LABUBU冰箱一夜溢价4000元,谁在抢藏?谁在炒卖?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-2 20:51 , Processed in 0.632657 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表