找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3024

积分

0

好友

401

主题
发表于 4 小时前 | 查看: 3| 回复: 0

戴机械手套的手捏着一根白色羽毛,展示复杂的手部关节与力反馈技术

如何在硅基“大脑”中重建碳基经验?数据采集是第一步。

当前,关于通用人工智能的讨论正逐渐从文本与图像领域转向物理世界。具身智能——旨在赋予AI以物理身体,使其能感知、理解和交互真实环境——正成为全球科技竞赛的下一个关键战场。

然而,与语言模型时代“数据天然存在”的繁荣景象不同,具身智能的“大脑”模型正陷入一场前所未有的“数据饥渴”。要训练一个能在复杂、长时序任务中泛化的具身智能大脑,需要的已不再是万亿级的文本Token,而是高质量、多模态、时空对齐的“人类行为数据”。这背后,是一场从硬件架构、数据采集到处理范式的系统性革命。

资本热追,但仍不“完美”

据国务院发展研究中心预测,中国具身智能市场规模在2030年将达到4000亿元人民币,2035年更有望突破万亿元。与此同时,中国信通院在《具身智能发展报告(2025年)》中,首次将具身智能纳入国家未来产业重点,预计2025年全球市场规模为195.25亿元人民币。

资本市场的反应更为热烈。2026年仅前三个月,国内具身智能赛道融资规模已近300亿元,融资事件同比增长63%。光轮智能、逐际动力、星海图等公司相继获得大额融资,资本正加速涌入这条赛道。

但与赛道火热相对的,是具身智能在真正走进生活、融入产业过程中的诸多不顺。英特尔研究院副总裁、英特尔中国研究院院长宋继强曾明确指出,当前具身智能的发展正处于“提升能力上限”与“保障能力下限”的双重攻坚期。大家都在展示机器人的智能能力,但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟。

虽然宇树科技、银河通用等机器人本体制造商已经能造出完成翻跟斗、跳舞等复杂动作的机器人,但这些技术背后更多依赖的是预先编辑好的程序。换句话说,当前的具身智能“小脑”(运动控制)或许足够发达,但在“大脑”(认知与决策)层面,如何让机器人具有更强的自主思维和“活人感”,仍是产业关注的焦点。

对此,简智新创联合创始人朱雁鸣表示:“今天大家看到的所有具身智能公司,其实它们真正模型化的能力,仍然停留在一些非常短时序的简单任务上,比如叠衣服、倒水、拿杯子。” 这揭示了当前产业的普遍现状:演示惊艳,但实用尚远。这些在受控环境下精心设计的演示,距离应对家庭、工厂等真实场景中复杂多变的长链条任务要求,还有巨大差距。

朱雁鸣认为,当前具身模型在学术上仍需突破,而在产业化和商业化上的差距更大。这种差距的核心在于,现有模型缺乏对物理世界的深刻理解和鲁棒交互能力。去年行业推崇的VLP(视觉-语言-规划)路径,其底层是语言模型,擅长基于文本指令规划,但其生成的行动“本质上只是基于语言规划出的轨迹和行为”,与真实物理世界中“认知-行动-获得物理反馈-产生新认知”的持续闭环相去甚远。

因此,产业共识正在转向构建 “世界模型” 。世界模型的核心是让AI理解底层的物理规律,如摩擦力、刚体动力学等,而不仅仅是进行语言描述下的轨迹规划。这标志着具身智能的发展从“模仿语言逻辑”进入了“学习物理法则”的深水区。

有趣的是,大量智能驾驶(智驾)领域的人才正涌入具身智能赛道。朱雁鸣指出,这种迁移并非偶然,因为两者在技术栈(如VLA模型、环境模拟)和产品方法论上存在共鸣。更重要的是,智驾领域锤炼出的 “数据驱动闭环” 产品迭代架构,即通过真实数据持续训练、测试和优化模型,正是当前具身智能从演示走向实用所亟需的工程化能力。

然而,无论是追求世界模型的理论突破,还是借鉴智驾的工程经验,都指向同一个核心瓶颈:高质量训练数据的极端匮乏

具身智能的“数据困境”

如果说算力是引擎,算法是蓝图,那么数据就是燃料。没有合适的燃料,再强大的引擎和精妙的蓝图也无法驱动具身智能驶向现实的彼岸。这促使一批创业公司转向了为行业提供“数据基座”这一更具差异化价值的基础设施赛道。

拓斯达具身智能业务线-矩阵智拓CMO王琪曾表示,数据采集的挑战主要体现在三个方面:一是数据标准不统一,不同机器人构型产生的数据难以互通;二是数据采集难、成本高,尤其在复杂工业场景中;三是数据隐私与安全问题,企业担心核心工艺泄露,不愿开放产线数据。

训练一个强大的具身智能大脑,尤其是世界模型,对数据提出了近乎苛刻的要求,可概括为三个关键维度:多模态、高精度、强因果。而当前主流的数据采集方案,在这三个维度上均面临显著痛点。

  1. 多模态层面:人类通过与世界的交互来学习,这个过程融合了视觉、听觉、触觉、力觉等多种感官。同样,具身智能模型需要重建这套多感官输入。朱雁鸣强调,触觉等非视觉模态的价值“更多是作为监督,或者作为结果的校验与反馈”。然而,当前许多采集方案严重依赖单一视觉,导致关键模态数据缺失或质量低下。

  2. 高精度层面:模型训练需要数据在时间和空间上高度对齐。时间上,如何确保触觉信号与视频画面中的接触帧严格对应?空间上,如何将手部动作精确还原到绝对坐标系中?传统方案存在固有缺陷:柔性手套因佩戴差异导致精度不稳;纯视觉方案在手被遮挡时立刻“失明”。这些精度漂移和遮挡问题,会导致采集到的低质量数据向模型注入“物理幻觉”。

  3. 强因果层面:最终用于训练的数据,必须是一条条完整的、可解释的“行为链”。它需要包含“做了什么”(动作)、“为什么这么做”(决策)以及“结果如何”(反馈)的完整闭环。传统采集方式只能记录动作和部分视觉,因果链是断裂的。后期若依靠大量人工进行标注和串联,成本极高且难以规模化。据透露,以每周处理超2万小时数据的需求估算,若全靠人工,需要近5000人的标注团队,完全不现实。

显然,相对于具身智能硬件“本体”的快速发展,数据瓶颈,已成为锁住具身智能大脑进化速度的那把最沉重的锁

传统方案满足不了“新需求”

面对模型训练的严苛需求,数据采集技术本身必须进行一场深刻的范式转移。传统方案在精度、抗遮挡、数据对齐和采集效率等方面的问题,严重制约了高质量数据的规模化生产。

硬件革新:从“柔性估算”到“刚性测量”

针对手部姿态捕捉的精度问题,主流柔性手套+IMU方案是通过算法估算关节角度,存在物理形变带来的固有误差。新的思路是将采集设备迭代成与人类骨骼更相似的刚性结构。朱雁鸣表示,通过外骨骼式刚性结构结合磁编码器的方式,直接从物理上测量关节的相对位移,消除了柔性变形误差。

例如,简智机器人的Gen DAS Dex设备采用外骨骼设计,覆盖全自由度,并依托自研磁编码器实现超高精度检测。其磁编码器尺寸仅3mm,整体设备重量约210g,穿戴感接近普通手套,不影响正常操作。同时,通过实时校准、温度漂移补偿以及多特征(振动、触觉、视觉)反馈融合,将整体漂移量降至极低水平,确保数据精度的长期稳定性。

在触觉层面,为了超越简单的“有无接触”感知,一些方案开始自研高分辨率磁触觉传感器,旨在实现面阵式的三维力感知,以捕捉滑动、纹理、硬度等丰富信息。这对于模型学习摩擦力等物理规律至关重要。

软件与系统:解决遮挡与对齐难题

为解决视觉遮挡问题,出现了“端侧定位+头手协同”的解决方案。在手部集成IMU和独立摄像头,通过单手SLAM技术,结合头与手的相对位置信息,进行时空坐标还原。这种方式能在短时或部分遮挡下维持毫米级的定位能力,确保数据采集不中断。

在更底层的系统同步上,通过自研SoC和通讯协议,可以实现硬件的严格时钟同步,将多设备间通讯延迟控制在毫秒级。在软件层面,则利用“触觉接触”等高置信度事件作为“真值”,对多模态数据进行动态校准与因果对齐,形成“端侧双循环动态校准”机制。

数据处理:从“人工标注”到“自动化流水线”

采集只是第一步,将原始数据加工成模型可用的“人类数据”是更大的挑战。新的处理流程试图打造一个端到端的自动化系统:输入是原始多模态数据流,输出即是时空对齐、因果闭环、带有语义解释的标准化数据包。

这套系统通过多个环节提升效率:首先,在采集端通过算法进行实时质检,过滤无效动作;其次,利用自研压缩算法大幅降低视频流数据体积;最后,通过云端的数据基础模型进行自动化处理。这使得原本需要数千人年的标注工作,能够压缩到一个小型团队即可管理,让大规模、多样化的数据采集成为可能。

当行业集体意识到“世界模型”需要高质量数据来喂养时,一场围绕数据基座的深度创新已然展开。从刚性仿生硬件到端侧智能融合,再到数据基础模型驱动的自动化处理,这些系统性突破正在试图回答那个根本问题:如何高保真地记录人类在物理世界中的经验,并将其转化为训练机器人的燃料。这场“数据基座”的革命,或许正悄然奠定着具身智能真正融入物理世界的基石。

对这类前沿技术议题的深入探讨和技术实践分享,欢迎在云栈社区与更多开发者和研究者交流碰撞。




上一篇:在iPhone上本地运行Google Gemma 4开源模型:教程与模型选型指南
下一篇:极简主义私宅设计解析:赫设计上海150㎡与160㎡案例的纯粹居住场域
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-9 06:53 , Processed in 0.774010 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表