云栈社区»论坛 › 回收站「 Recycle Bin 」 › 机器人Scaling Law的验证者：Generalist如何用27万小时数据打造 ...

发回帖发新帖

4470 积分	1 好友	617 主题

发消息

机器人Scaling Law的验证者：Generalist如何用27万小时数据打造通用机器人模型

发表于 2026-1-31 02:52:52 | 查看: 73| 回复: 0

机器人领域是我们长期关注的赛道，而 Generalist 是当前领域中极少数具备长期竞争潜力的公司。其核心优势集中在数据规模、团队能力与清晰的技术路径上。

高质量真机数据是行业公认的核心稀缺资源。凭借 27 万小时的训练数据，Generalist 可能是全球首个在数据规模上达到 GPT-1 量级的机器人团队，建立了领先其他团队 6-12 个月的时间窗口。更引人关注的是，其在机器人领域首次验证了类似语言模型的 Scaling Law。
团队核心成员来自 OpenAI、Boston Dynamics、Google DeepMind 等机构，是 PaLM-E、RT-2 等具身智能里程碑项目的主要贡献者，技术实力扎实。
清晰的研究路径。团队通过一系列 Demo 展示出了模型出色的灵巧性和明确的技术演进思路。

我们认为，虽然目前机器人的数据依然匮乏，但如果模型性能可通过混合人类视频与真机数据持续提升，竞争焦点或将从数据规模转向数据配比。率先跑通并工程化最优数据配比的团队，可能不仅能在性能上领先，还能对整个行业产生示范效应。

为什么看好 Generalist？

领先的数据规模与时间窗口

目前机器人数据采集方式大致可以分为三类：

真机数据采集，即需要与真实世界交互。
- 遥操作：数据精度最高，但成本高，受机器人数量和场景限制。
- 无本体数据采集：人直接操作夹爪或穿戴设备采集，更高效、成本更低，但对算法要求高。
纯视频数据采集：仅依赖视频学习，成本低，但数据效率不高。
合成数据：通过仿真环境生成，可控性强，易于规模化。

主流观点认为，要训练出可用的机器人模型，真机数据仍是关键。真实数据的扩展无法像仿真那样轻易倍增。

若将 LLM 的 Token 量换算为数据时长来类比：假设 1 小时人类语言数据约等于 1.9 万 Token，那么 GPT-1（约 50 亿 Token）相当于 27 万小时 数据，GPT-3 则上升到约 1580 万小时。

目前行业主流真机训练数据量级在 1 万小时左右，绝大多数玩家仍处于“前 GPT 时代”。因此，自称训练数据达到 27 万小时的 Generalist，可能是目前全球唯一一家在数据规模上刚刚达到 GPT-1 门槛 的机器人公司。

复刻这种规模的数据不仅是资金问题，更是时间问题。据业内估算，仅制造专用采集硬件就需要 4-6 个月，要复刻 27 万小时数据，至少需要大量人力持续采集近一年。这为 Generalist 带来了 6-12 个月 的领先时间窗口。

高密度的顶尖团队

团队技术实力扎实。三位联创兼具 MIT、Princeton 顶尖学术背景与 Google DeepMind、Boston Dynamics 的业界研发经历，是 PaLM-E、RT-2 等里程碑项目的主要贡献者。核心成员间拥有长期合作与共同创业经历，信任基础深厚，降低了初创期的内部磨合风险。

此外，Generalist 将 scaling 视为公司 DNA。其工程负责人 Evan Morikawa 曾是 OpenAI 工程负责人，领导了 ChatGPT、GPT-4 等产品的工程团队，拥有从 0 到 1 再到大规模扩展的丰富经验。

出色的灵巧性与清晰的研究展示

Generalist 在机器人领域最关注灵巧性。从 2025 年 6 月实现的高频动态抛掷，到 9 月攻克亚毫米级精度的乐高组装，再到 GEN-0 在工具使用、柔性物体处理及高精度装配方面的能力，展示了一条解决物理交互难题的有效路线。

其模型具备 Low-level 动作生成能力，在端到端控制下能输出丝滑且精准的操作策略，这种让机器人在复杂环境中表现出近似生物本能的灵巧度，是当前市场上非常稀缺且极难模仿的能力。

潜在风险与不确定性

Scaling Law 在机器人领域是否成立？

去年 11 月，Generalist 发布 GEN-0 模型时，声称首次在机器人领域验证了类似语言模型的 Scaling Law，即随着预训练数据和计算量的增加，下游任务性能呈现可预测的幂律提升。

如果 Scaling Law 不成立，意味着深度学习在物理世界存在根本性瓶颈，整个具身智能赛道的估值逻辑都可能需要重估。目前主流观点倾向于其成立，这意味着智能的上限将部分取决于大规模数据的收集能力。

关键在于需要什么样的数据。如果基础模型可以通过混合人类视频数据和真机数据来提高性能，那么竞争要素或许不再是数据规模本身，而是谁能率先跑通数据的最优配比。率先验证并工程化这一配比的团队，可能不仅能在模型性能上领先，还将实质性推动机器人训练范式的演进。

目前来看，即便引入人类视频数据，模型可能仍需要等量甚至更多的真机数据配合才能取得理想效果。如果未来机器人训练必须依赖大量真机数据，那么本身具备硬件能力的公司（如 Tesla、Figure）可能会更具优势。

达到“GPT-3 时刻”的数据鸿沟

虽然 Generalist 达到了 GPT-1（27 万小时）的数据门槛，但要达到 GPT-3 的水平（1580 万小时），按照其目前的采集速度（每周 1 万小时）线性外推，可能还需要 30 年。对于初创公司而言，单纯依靠真机采集达到这一量级在经济上可能不可行。

这反过来增加了用合成数据或人类视频数据训练模型的迫切性。如果未来发现仅通过合成数据或人类视频数据就足以训练模型，那么 Generalist 建立的物理采集护城河可能会被绕过。

商业化场景的缺失

目前整个机器人行业普遍缺乏明确的商业化落地场景。Generalist 在自建数据采集硬件并与 Scale AI 合作标注的前提下，成本投入更高。其对外展示的 Demo 仍主要停留在叠乐高、叠衣服等层面，相比之下，专注家庭场景的 Sunday 等公司在落地应用上似乎走得更快。

机器人领域到底有没有 Scaling Law？

早期，Google 发布的 PaLM-E 和 RT-2 等模型有“随着模型参数增大，模型在具身任务上的表现/泛化越好”的结论，但并未公开宣称验证了机器人领域的 Scaling Law。

2024 年，MIT 和慕尼黑工业大学的研究人员通过对 327 篇论文进行元分析后认为，机器人基础模型存在 Scaling Laws，且随着模型规模扩大，新的机器人能力会不断涌现。

arXiv论文《Neural Scaling Laws in Robotics》截图

去年 11 月，Generalist 声称首次验证了类似语言模型的 Scaling Law。海外社媒普遍认为这是一个重大突破。前 Google DeepMind 科学家 Ted Xiao 在推特上称这个结果非常惊人。

Ted Xiao 称赞实验结果的推文截图

也有评论认为，Generalist 的技术路线依然依赖深度学习，真正的突破应是通过少样本掌握未知任务的能力。但实际上，这是一个非常困难的问题，目前的 LLM 也未能完全实现。

关于深度学习局限性的讨论截图

Generalist 的关键结论

结论一：模型到 7B 会发生相变

团队研究了模型参数量对学习能力的影响，发现了明显的相变现象：

当模型参数较小（如 1B）时，投入海量数据后 Training Loss 会停滞，模型出现“僵化”。
6B 模型开始受益于预训练，并展现出强大的多任务处理能力。
当模型扩大到 7B 以上时，发生了相变。大模型能够持续吸收数据，Training Loss 持续下降。只有跨越这个参数门槛，模型才能真正通过预训练获得通用能力。

GEN-0 模型大小对预测误差影响的折线图

结论二：预训练数据量与下游任务成功率存在幂律关系

在足够的模型规模下，预训练数据的规模与下游任务的最终表现之间存在显著的幂律关系。

在模型指标上，团队使用不同预训练数据量的模型节点，在 16 个任务集上进行多任务监督微调。结果显示，预训练数据越多，下游模型在所有任务上的验证损失和下一步动作预测误差均下降。

预训练数据比例与验证损失的关系图

在实践中，通过盲测 A/B 实验，这种趋势被证实可转移到物理机器人上。实验确保预训练与后训练数据不重叠，结果显示，增加预训练数据能提高任务成功率。当全量预训练数据与充足的下游数据（550+小时）结合时，任务成功率最高，部分场景峰值达 99%。

真机任务成功率随预训练数据量增加的柱状图

团队将这种性能趋势总结为可预测的数学模型。基于幂律关系，可以回答“达到特定误差需要多少预训练数据”等问题。

任务集7（衣物处理）的Scaling Law拟合图

结论三：数据质量与多样性比数据量更重要

团队对比了不同数据源对模型性能的影响，发现数据质量和多样性比数据量本身更为重要。来自不同来源的预训练数据在不同组合下，会训练出具有不同特征的模型。

例如，一些数据配置训练出的模型预测误差和反向 KL 散度都较低，更适合监督微调；另一些配置预测误差较高但反向 KL 散度低，表明模型输出分布具有更高的多模态性，这对强化学习更有利。

Physical Intelligence 的新研究：人类与机器人数据协同微调

过去，由于形态差异，机器人很难直接通过人类第一视角视频学习。

2025 年 12 月，Physical Intelligence 的研究表明，只要扩大机器人基础模型的预训练规模，模型就会涌现出从人类第一视角视频中学习的能力：

在按颜色分鸡蛋、整理梳妆台等任务中，引入相关人类数据后，机器人的性能提升了约 2 倍。
随着预训练中机器人数据多样性的增加，模型内部对人类和机器人的特征表示会自动对齐，从而能“听懂”人类演示。

为了实现这一点，研究团队采用了人类数据和机器人数据协同微调策略：

微调并非简单混合所有数据，而是将人类数据与最相关的真机数据混合。例如，真机数据提供基础动作能力，人类数据补充高级逻辑演示。
PI 在论文中采用的数据混合比例为 1:1，认为此比例可保留原有能力并有效引入新演示，但未给出其他配比的对比结果。

人类-机器人协同微调实验描述截图

训练数据混合比例的说明截图

Google 的经验：PaLM-E 与 RT-2

Generalist 的 CEO Pete Florence 曾在 Google 主导或参与了 PaLM-E、RT-2 等项目。

PaLM-E与RT-2模型特性对比图

PaLM-E 验证了随着参数规模增大，模型在具身任务上的整体表现持续提升，且不会出现灾难性遗忘。同时展现了正向迁移：训练语言与视觉任务反而能提升机器人执行能力。在足够大的模型规模下，还涌现出了多模态思维链能力。
RT-2 进一步展示了泛化能力的提升。依托数百亿参数的 VLA 架构及多模态与机器人数据的联合微调，RT-2 能在未见具体指令的情况下展现泛化能力，例如理解“捡起那个已灭绝的动物”并推断出“恐龙”。

Generalist 的技术展示与壁垒

Generalist 成立于 2024 年，目标构建通用机器人模型。公司最关注灵巧性，认为这需要在数据、模型和硬件层面都有突破。2025 年 3 月，其完成由 Nvidia 和 Boldstart Ventures 领投的种子轮投资。

Generalist的投资方展示图

GEN-0 模型展示

2025 年 11 月发布的 GEN-0，用一个长序列任务展示综合能力：

把清洁布放入盒子
折叠纸质托盘
从塑料袋中取出相机并去掉保护套
将相机精准放入托盘
盖上盒盖（需对齐微小插片）
处理垃圾

在此过程中，模型未接受分步指令，而是在单一神经网络流中完成所有步骤，展示了工具使用、柔性物体处理及高精度装配能力。此外，GEN-0 已成功部署在多种不同自由度的机器人上。

社交媒体上对 GEN-0 的灵巧度和任务精细程度普遍表示赞叹。

社交媒体上对GEN-0演示的称赞截图

数据、硬件与模型架构壁垒

1. 数据采集与处理

GEN-0 在预训练上使用了超过 27 万小时的真实世界机器人操作数据，且数据以每周 1 万小时的速度新增。

GEN-0数据量与其他数据集的对比图

采集方式：使用 UMI 进行数据采集，在全球部署数千个设备。Reddit 有评论称其使用类似机器人夹爪的手套设备，让人类佩戴进行日常任务采集，佩戴者头部和手套装有摄像头。
合作与评估：与多家数据工厂合作采集多样化数据，通过持续 A/B 测试评估数据质量并调整采购比例。
处理能力：构建了专用硬件、处理管线甚至专用网络线路，支持高带宽数据上传，每天能处理相当于 6.85 年人类操作经验的数据。
采集成本：据估算，即使在中国，收集同等规模的数据也可能花费 200-300 万美元。

2. 硬件支持

2025年9月，Generalist 入选由 MassRobotics、AWS 和 NVIDIA 发起的 Physical AI Fellowship 项目，可获得技术支持、云服务额度、硬件软件资源及生态网络接入。

3. 模型新架构：谐波推理

GEN-0 摒弃了传统“慢思考”（规划）与“快反应”（控制）分离的架构，采用 Harmonic Reasoning（谐波推理） 机制。

该架构将感知 Token 和动作 Token 融合在同一个 Transformer 流中处理，让模型能一边做一边想，以极高频率（100Hz+）生成连续、流畅且智能的动作。

竞争格局分析

用场景复杂度作为纵轴，交付形态作为横轴，可粗略画出机器人产业象限图。随着 LLM 发展，市场关注点向上半区（非结构化场景）集中。

美国机器人产业象限分析图

第一象限（右上）：消费级通用机器人。代表如 Sunday，注重实用性，用低成本手套采集数据，目标家庭场景。
第二象限（左上）：通用具身大脑。代表如 Physical Intelligence 和 Generalist。其假设硬件将商品化，因此专注于解决最难的“大脑”问题以赋能任何硬件。
第三象限（左下）：垂直场景的机器人大脑。代表如 Covariant，从物流领域出发做通用大脑。
第四象限（右下）：垂直场景的软硬件极致整合。代表如 Amazon Robotics，为自家仓库效率做极致定制。

Generalist 的优劣势对比

Generalist 最大的护城河依然是大量端到端的真机数据和顶尖的团队技术实力，但也面临巨大竞争压力。

Generalist与主要竞争对手对比表

VS Physical Intelligence:
- 技术上，PI 的 Flow Matching 技术可直接输出连续平滑的电机信号，其 Recap 算法赋予模型自我进化能力。Generalist 目前缺乏这种“越用越强”机制。
- 生态上，PI 积极构建开放合作生态，团队为全明星阵容且更全面。PI 在融资进度上也更领先（2025年11月完成6亿美元融资）。
VS Google:
- 生态上，Google 采取“Android for Robots”式开放策略，通过 Open X-Embodiment 联盟连接全球资源，生态掌控力强。Generalist 需在数据质量和灵巧操作上建立更高壁垒。
- 这是一场资源不对等的持久战，Google 拥有巨量 TPU 算力和资金支持。
VS Sunday:
- Generalist 凭借高质量数据和精密控制，能完成精密的装配任务；Sunday 受限于低成本采集方式（缺乏力反馈），暂时聚焦容错率较高的家务。
- 商业化落地上，Sunday 走得更快，已明确将在2026年启动真实家庭测试计划。

结语

Generalist 凭借其在大规模真机数据上的先发优势和对机器人Scaling Law的早期验证，在通用机器人模型的竞赛中占据了有利位置。其技术路径清晰，团队实力突出。然而，行业仍处于早期，数据配比的优化、商业化场景的探索以及与资源更雄厚对手的竞争，都是其需要持续面对的挑战。对于关注人工智能和前沿科技创新的开发者而言，机器人领域的这些进展无疑值得在像云栈社区这样的技术平台上持续交流和深入探讨。未来，谁能率先找到数据、算法与硬件的最佳结合点，并成功推向市场，谁就更有可能定义通用机器人的未来。

上一篇：Istio Gateway 深入解析：如何补足K8s Ingress的边缘流量治理短板？
下一篇：Java线程池原理与实践深度解析：生产环境避坑指南

机器人, 规模法则, 深度学习, 通用人工智能, 具身智能