当一个行业发展到一定阶段,精细化内卷就开始了。之前跟着同事去了家涂胶机器人的生产工厂,客户的需求是每分钟点涂胶 55 次及以上,而业内常规上限在 30-45 次之间。这个点涂的运动频率不仅和气动结构、出胶量有关,还和胶的粘度有关。正好提供的胶和点型是那种不好处理的,非标基板有好几个批次,要求多,失败率高,当时不少定制厂家都没敢接单。后来有个聪明人想了个办法,从原本的单臂流水线改成双臂和四臂聚合式,把工序拆分成最小单元,不同的基板进不同的线,交错式点胶,从而提高点涂次数和成功率。这个案例给我留下了极为深刻的印象。有时候策略研究,不在于工具和单元模块,而是工程化集成思维,完成目标就行。
人类视角与上帝视角的争议
最近索尼 AI 团队在 Nature 上发布了一个自主打乒乓球机器人系统 Ace,在社区里引发讨论和争议。一方面是说这个机器人设计思路有点东西,一方面是说这个机器人有作弊嫌疑。
争议点来自 Ace 系统的核心模块:感知层用了 9 个 APS Camera 和 3 个 Event Camera 进行数据融合。前者用于球位置的三角定位,后者用于球旋转估计。咋一看可能还好,但事实上,这个 Event Camera 的旋转估计更新率高达 400Hz-700Hz(约 1.4ms),而人类视觉处理延迟大约在 100ms-200ms。这完全是超人级别的状态(也就是人无法达到的上帝视角),和人类选手打比赛时,这纯属作弊。
同时,机器人不需要像选手那样观察动作,而是在球飞出后的一瞬间,通过 Logo 轨迹(事件流观测球表面纹理运动)极其精确地算出旋转,从而达到实时精准测量。
还有全方位的传感器布局和视野,可以让机器人获得比人类选手更优的全局高清视野,属于信息不对等。另外,机器人打乒乓球的手不会感到疲劳,不会微微颤抖,其物理一致性也是问题。

doi.org/10.1038/s41586-026-10338-5
开了上帝之眼,也并未全胜
即使用了这么多 Buff,机器人也没有达到全胜状态。在与真人实验当中,采用 ITTF 标准规则、奥运规格场地、官方裁判,跟精英组(5 位 10 年以上经验的选手)PK,获得了 3 胜 2 负的成绩。但和专业组(2 位职业球员)对阵时,Ace 输了,在 7 局中仅胜 1 局。
Ace 的优势在于极高的回球稳定性和多变的旋转球。在 450 rad/s 以下的旋转球,回球率超过 75%。它的反应速度很快,能够处理擦网球等意外情况,展现出比人类更早的击球时机。

Ace 机器人在面对擦网球这种突发情况时的实时反应能力
为乒乓球比赛场景定制的软硬架构
当然,除了这些争议以外,还是有些创新点值得借鉴。
- 全栈系统集成:Ace 集成了高速度的感知系统、基于强化学习的控制系统以及定制化的机器人硬件。这个集成结构大概率是接下来具身智能机器人的常态。
- 控制算法创新:击球控制用的是策略决策(Model-free RL)+ 动作执行(轨迹优化)的混合架构。首先是异步 Actor-Critic 架构,在仿真训练中,Critic 观察全局真实状态,而 Actor 仅通过带噪声的传感器历史数据学习,实现了从 Sim2Real 的零样本迁移;接着是动作空间映射,将强化学习产生的抽象动作映射到凸优化问题的硬约束中,保证了机器人动作的无碰撞性和敏捷性。另外,针对技能学习方面,采用策略库 + 采样器。每个策略对应不同技能,随机采样策略 -> 形成多样打法。这就是人类无法完全捕捉其多变的旋转球的原因。
- 一网打尽的硬件模块:为乒乓球场地定制了具有 8 个自由度(2 个移动副 + 6 个转动副)的机器人,1kHz 控制频率,工作空间达到 3.6m×3.6m,最大速度满足职业级击球需求,足以覆盖专业比赛区域。

Ace 机器人系统的全架构流图
下一步研究方向
从这篇论文的研究局限出发,可以延展到下一步方向,如下所示:
- 人类行为建模:当前的系统不预测对手的落点和发球策略,下一步可以研究针对人类策略进行建模。
- 在线学习:当前完全处于仿真学习阶段,下一步可引入在线学习机制,使机器人能在真实比赛中通过交互不断自我改进。
- 战术优化:当前关注的是对手单次击球技能,下一步可研究其连续回合策略和战术规划。
- 方向拓展:同理可鉴,下一步拓展到更复杂的人机协作任务,比如制造业机器人、高速人机交互系统等。
Link: doi.org/10.1038/s41586-026-10338-5
|