找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3471

积分

0

好友

481

主题
发表于 2026-2-14 08:32:29 | 查看: 33| 回复: 0

具身没有统一路线,在山脚分开,终会在山顶汇合。

范浩强说话很幽默。当被问及下一个十年具身智能要解决什么问题时,他半开玩笑地说,可能机器人会觉醒并消灭人类,那样就没有下一个十年了。

这当然是句玩笑。不过,探讨行业未来发展时,总免不了进行一些科幻式的想象。在他看来,AI 是他一生的事业——毕竟他高一时就获得了国际信息学奥赛金牌,从高二起,就已经是一位真正的 AI 研究员了。

原力灵机这个名字或许有些陌生,但来头不小。它是一家脱胎于旷视科技的具身智能公司,创始团队包括了旷视的联合创始人以及最早期的几名核心成员。公司成立时间不长,但两轮融资金额已接近 10 亿元。

我们对原力灵机的好奇主要集中在几个方面:他们究竟想做模型还是做机器人本体?有什么独特的商业模式?作为从旷视出来的新公司,他们有哪些优势?在目前激烈的竞争中,又该如何突围?

作为一名在旷视时期就和无数客户打过交道的“老兵”,范浩强对具身智能的理解也带着浓厚的“旷视”风格。

从创业的第一天起,范浩强就真切地感受到了客户对具身智能的强烈需求。但令他感到遗憾的是,很多需求目前还无法满足。机器人的能力尚极其有限,而生产线的精度和效率要求却高得不可思议。

过去在旷视,人脸识别的误识率能做到小数点后11个9。而现在呢?哪怕是一次最简单的抓取,机器人的成功率可能都不到一半。

在这次访谈中,我们对原力灵机最深的印象是,这家公司不讲资本故事,不炒 AI 噱头。范浩强跟我们深入探讨了 DFOL(原力灵机具身原生量产工作流) ,也分享了具身智能如何迈出落地的第一步,其原生应用应该从哪里挖掘。关于实用场景,他又如何看待从“百里挑一”到“百里挑十”,最终走向无限泛化的过程。

范浩强在原力灵机技术发布日上介绍 DFOL

通用机器人固然是我们追求的终极目标,但究竟该如何通往“通用”?当技术本身还无法达到完美状态时,我们又该怎么办?不够通用的具身智能,会不会因为满足不了市场的期待而饱受质疑,最终成为明日黄花?

范浩强给出了他们的答案:历史上绝大部分技术的发展规律,就是达到“刚好够用”的状态。它可能处处看起来都不完美,甚至有些地方不太合理,但只要能用起来,最终就会被推广开来。

能用,即为合理。对于“通用化”,所有做过工程的人都明白,期待值不宜设定过高。

这篇访谈将告诉你,一家致力于寻找真实场景、解决实际问题的具身智能公司是如何思考和行动的。你将读懂一位创业者的困惑与努力,更能听到他对模型、本体、应用及商业模式最真实的思考。

以下是访谈全文,内容在不改变原意的基础上经过了优化整理。

01 | 要做就做到 SOTA,这是对自我的定位和自信

AI 科技评论:我第一次听说你,是有人跟我提起:他刚进旷视时,旁边坐着一位天才少年,竟然还是高中生,把他吓了一跳。一问名字,叫范浩强。

范浩强:对,我2012年就加入旷视了,是公司的六号员工。当时我的信息学奥赛教练是唐文斌,他找到我,说有件事既能保送大学,还能发工资。我问他,具体是做什么的?靠谱吗?他回答我说,做人脸识别。我当时还在读高中,对行业一无所知,就这么加入了。

范浩强在旷视时的照片

AI 科技评论:你从什么时候开始想做机器人的?

范浩强:确切地说,应该是2016年。那时我大四,去斯坦福的一个实验室访问了两个月。那个实验室里都有谁呢?有苏昊、卢策吾、王鹤、弋力、邵林。

苏昊是大师兄,当时带着我们做 3D 生成。我问他为什么要研究 3D?他告诉我,做好了 3D 生成,就能做 3D 判别,然后可以进一步做机器人仿真,最终目标是在十年后投身机器人领域。

AI 科技评论:果然,十年之后你们都在做机器人了!谈谈原力灵机是怎么成立的吧?

范浩强:我当时就觉得,将 AI 应用到机器人上,是一个极具挑战性的宏大叙事。

但那时缺一味关键的“佐料”——真正强大的 AI。虽然大模型已经出现,但具体如何与机器人深度融合?路径并不清晰。幸运的是,2024年从美国诞生了几个重要的研究工作,比如 Action TransformerDiffusion Policy,以及一个集大成者 Pi。这些工作一下子划清了技术路线,清晰地展示了 Transformer 这项技术该如何应用到机器人矩阵上,勾勒出了未来的发展蓝图。那时我认为时机已经成熟,是时候组建团队了。

我首先想到需要一位 CEO。刚好唐文斌当时处于“自由人”状态,我就邀请他来担任 CEO。他看到这些技术进展后,半夜两点给我发了条微信消息:“this is once in a lifetime 的机会去做 general robotics。”我回复他:“你怎么比我还激动?”

随后,我们又找到了硬件合伙人周而进和汪天才。加上唐文斌负责客户场景,我负责 AI,我们组建了一个在国内都相当少见的、集 AI、硬件、客户场景三方能力于一体的团队。

AI 科技评论:公司正式成立是在什么时候?

范浩强:大约在2025年3月,第一轮融资完成后,公司主体正式成立。

AI 科技评论:进入具身智能行业这一年,你的感觉如何?

范浩强:我感觉事态的发展速度已经完全失控了,整个行业可谓一日千里。我们以前写论文时,常常会说“传统方法”如何如何。现在呢?在具身智能领域,两个月前的方法就可以被称为“经典方法”了,变化速度快得惊人。

2025年公司刚组建时,其实有点“两眼一抹黑”。不是不知道要做什么,而是想法太多了。有人想做人形机器人(humanoid),“分离式采集”的概念也很火,触觉传感同样备受关注……太多可能性和概念飘在眼前。

我们也是经过了2025年完整一年的摸索才看清——模型仍然是这一切的主轴。模型的水平决定了哪些场景能够适用;哪些场景能用,又反过来决定了最终硬件应该长什么样;硬件形态再进一步决定数据该如何采集和处理。模型能力本身,是整个事情发展的自变量。想明白这一点后,核心任务就清晰了:把模型做好,用最好的算法、最优的数据、顶尖的工程去实现。那么,公司接下来该做什么?答案自然就铺陈开来。这就是我在创业过程中,逐渐找到主线逻辑的过程。

AI 科技评论:做出最好的模型,这件事本身就极具挑战。

范浩强:的确如此。但我们团队里很多人都有一股傲气,当年搞计算机视觉的时候就没当过第二。大家很难想象,一件事努力搞清楚了,把该做的都做了,最终测出来的分数或效果却不是 SOTA(当前最优)?!我们认为研发是有科学性的,一旦把问题搞清楚了,就应该得到好结果。这也算是一种对自我的定位和自信吧。

AI 科技评论:模型是我们目前手中最大的“王牌”?

范浩强:我们有两个开源项目。一个是训练框架 Codebase,叫做 Dexbotic(内部简称 DB)。第二个是我们搭建的一个测评框架,叫 RoboChallenge(内部简称 RC)。

这些工作在技术上都非常“硬核”,不好做。做出来之后选择开源,展示每一行代码,也是展示我们整个团队的战斗力和技术水平。有不少公司都宣称开源了 Codebase,但很多是“README 式开源”,只有一个空白的 README 文件。

开源之后确实引发了一系列关注。RoboChallenge 目前已经有五六家公司申请做测试了。截至现在,我们手里有两张牌:第一张是强大的基建能力,第二张是模型实力。这既是团队整体实力的展示,也是向外界同步我们努力的方向。

Hugging Face 联合创始人 Thomas Wolf(左 3)与 Dexmal 原力灵机联合创始人范浩强(右 2)在 IROS 2025 现场交流 RoboChallenge

AI 科技评论:模型领域强手如云,你不担心竞争吗?

范浩强:目前最强的那批人,还在集中精力搞 LLM(大语言模型)呢。这为专注于机器人的公司提供了一个宝贵的机会窗口。

02 | 真实场景的真实问题,可能是最难的挑战

AI 科技评论:除了模型,你们也做机器人本体吗?

范浩强:对,这一点我们想得很清楚,机器人本体我们也一定要自己做。

AI 科技评论:这和你们的商业模式相关?

范浩强:我们之前卖软件卖了十几年,非常清楚一件事:要顺应市场对公司的期望。绝大部分用户或客户想要的还是完整的解决方案(total solution)。在中国,也不太有那种由大厂通过收购进行垂直整合的商业习惯。

所以我们认为,最终还是要端到端地为客户创造价值。只有对每一环都有足够的掌控力,整个产品的品质和可服务性才能做到最好。虽然可能很多团队成员之前没碰过电机这类硬件,但也得从头学起,努力跟上课题的要求。

AI 科技评论:既做模型又做硬件,听起来难度倍增。

范浩强:我之前就说过,我们很多人都在“手搓”机器人。现在公司里还放着不少大家亲手搭建的机器人原型。我们坚持让搞算法的同学自己先搭一遍机器人,只有这样他们才能深刻理解将来会遇到多少问题。以后做算法时,脑海里自然会带着这些问题去思考。

AI 科技评论:这不是在“折磨”算法工程师吗?

范浩强:干得好的话,他们会特别开心,很有成就感。

AI 科技评论:你自己也“手搓”过机器人吗?

范浩强:全公司应该就我搓得最多。最早我在家自己做了一个叠被子的机器人,成本大概两三千块,所有零件都是从淘宝买的。

它不是一个机械臂,更像是一根可以升降的杆子,带一个夹子。接下来的挑战全在于算法设计:如何用这么一个小夹子,通过一系列动作把被子叠起来?这里面全是巧思。

AI 科技评论:“手搓”机器人的经历,让你对算法有什么新的感悟?

范浩强:我当时就深刻感受到,硬件设计充满了取舍。你可以花20万造一个,也可以花2000块造一个。但最终决定东西好不好用的,还是里面的算法——也就是机器人运动的轨迹。认识到这一点,我就觉得还有机会。只要把算法做好,一切美好的愿景都能实现。

AI 科技评论:在设计从软件到硬件的整体闭环时,你们最初瞄准了哪些场景?

范浩强:当时想得还挺简单。因为旷视当年有500多家优质客户,很多公司都有前瞻性的技术改造部门,每年都会有人来问我们:“有什么新的科技?你们公司有吗?”以前人脸识别是 AI,后来大模型是 AI,现在机器人也被认为是 AI。

所以我们从第一天起,就感受到了客户强烈的需求。但遗憾的是,很多需求我们现在还满足不了。哪怕是最简单的仓库分拣,面对几万个 SKU,直到今天很多算法仍然搞不定。客户每年都会让我们汇报一次 AI 的最新进展,问能不能立项上线。所以我们对于应用场景没那么担心,AI 化改造我们已经做了很久,非常清楚这件事该怎么推进。

AI 科技评论:那你们目前面临的最大挑战是什么?

范浩强真实场景的真实问题,可能是最难的挑战。在整个 AI 1.0 时代,我们看得很清楚:所有公司在实现真实营收之前,都在讲自己的技术有多好。一旦产品真正卖出去了,就不再是自己说了算,而是客户来评价你的东西到底能不能用。

这是一个非常客观、毫无造假可能的指标,也是让整个行业氛围从浮躁逐渐沉淀下来的关键

现在大家都在夸自己的模型多有洞见,但说实话,这是不可证伪的。测评指标太多了,总能挑一个对自己有利的。所以,真实客户的真实使用是唯一的评判标准。有一次交流,有人问机器人该测什么指标?大家罗列了一堆:成功率、稳定性等等。但我认为只有一个指标最核心:一台机器人需要多久才能自己把钱挣回来。就这一个指标,其他都 don't care。

AI 科技评论:那现在能达到这个指标吗?

范浩强:我们一边在做模型,一边也在陆续做一些应用测试。然后我观察到一个神奇的现象:最难测试的任务,并不是当下 table30(一个包含30个标准化桌面操作任务的数据集)中成功率为 0% 的任务,而是——我们专门建立了一个“客户场景最简单问题集”。从每个客户那里挑一个他们觉得最简单的问题,结果发现,这里面最简单的问题,比我们在实验室测的最难的问题还要难得多。

以前计算机行业有句玩笑话:最难的测试叫“正常用户正常使用”。你做再多回归测试,一到真实场景可能完全顶不住。机器人领域也是一样,基本上每一个有价值的任务,总会有一个细小的环节,无论是在精度还是智能性上,都对我们构成了真正的考验。

所以,下一步的突破一定要去挑战更真实、更硬核的事情。当大家都有了些客户和落地案例后,整个行业的格局才会更加清晰。

AI 科技评论:你现在遇到的“客户场景最简单问题”,具体是什么样的?

范浩强:我收集了几个样本,其中一个让我印象很深。可以理解为,机器人要把两个扣在一起的东西翻个面。

AI 科技评论:为什么会存在这种需求?

范浩强:这就是人家的工艺要求,这就叫“真实问题”。you don't ask why。人家干了十年,说必须这么翻,你得相信他,对吧?

AI 科技评论:OK。

范浩强:然后我们发现,机器人做这件事简直难到爆炸,根本夹不起来。所以最后我们拍演示视频(Demo)时,其实是专门设计了一整套机器人动作流程:先夹到这里,再从那里铲进去,搬到另一个位置,再进行下一步。从机械角度来看,这套动作是可以实现的。但问题在于,这套动作太复杂,模型根本学不出来。

你看,这就是真实问题的特点,它们往往是一环扣一环的。真正要去落地,就会发现这是块硬骨头。你啃了一口,发现里面还有一层。只有最后真的“吃”到内核,并且消化掉了,才会明白为了把这个东西做落地,竟然需要解决这么多问题。在最终落地之前,你只能不断发现,原来这里还有个问题是之前没意识到的。

AI 科技评论:那岂不是要干上十年才能落地?

范浩强:不是说难度高就代表解决不了。难,就需要动脑筋。不光模型是基础,产品设计、业务和客户的配合,都得加入巧思,最终才能把事做好。

我觉得一个很好的迹象是,现在陆陆续续有同行开始拿出真正的落地项目了。很可能客户给了100个需求,最终能找到一个需求恰好“天时地利人和”,所有的问题,都能用现有的解决方案绕过去,然后把机器人部署进去使用。

但这只是第一步。原本只有“百里挑一”的优质任务才能完成。未来随着模型能力增强,希望能扩展到“百里挑十”,最终实现“来一个任务就能完成一个任务”的目标。

AI 科技评论:最近还看到一些机器人被工厂“赶出来”的新闻,你怎么看?

范浩强:这很正常。从做概念验证(POC)到真正上业务,中间隔着一条巨大的鸿沟。这一点我们在做非标视觉智能化改造时就有非常深刻的体会了。客户通常欢迎我们来做 POC,但只要你的产品可能影响到他的主线业务,他在正式上线前一定会对你进行极其严苛的考验。

AI 科技评论:听起来你们对这种“被折磨”的经验很丰富。

范浩强:最终,这些“折磨”都会反过来驱动技术定义。比如当年做人脸识别,行业外的人可能不知道,最终我们做到了误识率 11 个 9(即 99.999999999% 的正确率)。所以你平时用人脸识别,几乎感觉不到它会出错。这就是被客户“逼”出来的极致算法。

机器人如果 24 小时连轴转一年,论出错帧数,那可多了去了,因为这是一个实时的视频处理过程。但在生产环境下,一秒钟的出错都可能造成无法挽回的灾难。所以机器人算法也一定会经历一个被“逼”得越来越可靠的过程,才能真正落地。

具身智能相当于另一种形式的“自动驾驶”。自动驾驶要解决感知和决策问题,没有太多秘密,就是采集海量数据(比如 1 亿公里行驶数据),进行最扎实的模型训练,最终模型会回报你以可靠性。机器人也一样,只不过和车相比,机器本体小一点,要执行的任务种类可能更多一些。

AI 科技评论:具身智能的任务可能是无穷多的,这岂不是比自动驾驶难多了?

范浩强我个人的观点是,这波具身智能的革命,也不会解决掉机器人的所有问题。 因为 10 年前大家在吹捧 AI 时,已经把所有的好故事都讲了一遍。最终具体的落地方向,其实也就那么几个。

现在 LLM 的落地方向也一样,写代码算一个,智能对话算一个,其实也是个有限集合。所以我们认为,AI 一定是个更长期、甚至终身的事业。在这波浪潮里,我们可以把机器人的能力推到一个比原来好一大截的水平,这可能就是这十年的“版本答案”了。

AI 科技评论:那下一个十年呢?

范浩强:(笑)也可能没有下一个十年了,对吧?机器人觉醒了,把人类给“灭”了,那就不用考虑了。

AI 科技评论:希望不要面临这样的情况。

范浩强我觉得最终技术一定会发展到一个虽然不完美,但“刚好够用”的状态。 历史上绝大部分技术的发展规律就是如此:刚好够用。它可能哪里看着都不太合理,但就是能用,最终就会被推广开来。

03 | 根据机器人的属性,去寻找合适的应用场景

AI 科技评论:我看到原力灵机最近在做 DFOL,并称其为世界上首个具身智能应用量产工作流。能解释一下“具身智能应用”具体指什么吗?

范浩强:比如传统的工业六轴机械臂,它当然也是一种应用,但你肯定不想叫它“具身智能”,对吧?

AI 科技评论:对,它更像是一种自动化硬件设备。

范浩强:没错。我认为“具身智能应用”其实是一整套体系。 现在大家做的具身硬件,一般都会设计成准人形的样子,这本身就赋予了它一定的通用性。同时,你会期望它的动作是灵巧、复杂的,而不是像传统自动化那样简单地定点拿、定点放。

具身硬件,搭配上更好的传感器和一个更强大的模型,就形成了一个与原来的工业自动化迥然不同的新体系。大家建立这个体系的初衷是认为它最终能完全通用化。但现在我们走在了“通了一半”的路上,还没达到最完美的状态。那么,在这个阶段,它擅长干什么?

我觉得这个时候就要找出“具身原生应用”。 这就像问,为什么 LLM 擅长写代码?

AI 科技评论:因为 LLM 的架构和训练方式,让它天然适合处理编程语言这类序列化、逻辑性强的任务。

范浩强:所以你可以把“写代码”理解为 LLM 的原生应用。具身机器人也是一样的。 你不能随便丢给它任何问题都指望它解决,或者都指望它擅长。也得根据它的属性去寻找,什么样的应用场景是适合它干的。

AI 科技评论:那会不会不同模型的“原生应用”也不一样?

范浩强:有可能。现在的大模型领域就在分化,这家适合做智能体(Agent),那家适合写代码,大家存在口碑上的差距。目前具身模型还没分化到这么细。所以我们更倾向于对比:比如,我原来做的是基于传统视觉引导的机械臂,现在想升级到基于 VLA(Vision-Language-Action,视觉-语言-动作模型)的具身体系。那么首先就得讲清楚,VLA 比之前的方法好在哪?凭什么要用新方法。

最大的优势在于“柔性输入”。 以前处理一个零件分解任务,工件必须严格按照预设的样子来。只要外形稍有变化,整套方案就得推倒重来。现在 VLA 具备了泛化性。哪怕要分解的东西从“可口可乐”换成了“百事可乐”,模型也能适应,不需要再重新部署一遍。 这就是客户想要的特性。

另外,工厂原来搭建一套快速换线的非标自动化机台,从接单到最后上线可能需要 5 个月。现在的客户都希望 5 天后就能开始生产交付,这用传统方式是不可能的。这类任务就是给具身智能准备的,换成其他方案都会遇到很多难以解决的致命问题。

具身虽然也会带来新问题,比如使用具身工业臂时外面可能需要围上两米的围栏,禁止人员进入。 但只要具身智能解决了以前完全没有思路的问题,行业就会努力去解决具身带来的新问题。所以,“具身原生应用”就是把具身的核心价值最大化发挥出来的应用。

AI 科技评论:你们现在是处于寻找“原生应用”的阶段,还是说已经找到了?

范浩强我们现在的确有一些客户案例了。 但这些案例我们不太想公开讲,担心讲完之后,友商就一拥而上了。因为这是真能挣钱的东西,所以就不开源了(笑)。

AI 科技评论:你们在探索和构建 DFOL 的过程中,遇到的最大困难是什么?

范浩强:我觉得第一大难点真的是 找场景、找客户

AI 科技评论:是你亲自去跑的客户吗?

范浩强:我和文斌一起跑的。我们俩之前在旷视时就经常一起跑客户。前段时间也密集地走访了各种工厂,跑完之后再回来思考,机会究竟在哪里。

另一个难点,我觉得是真的要去理解这些模型擅长什么、不擅长什么。 有些你以为非常难的动作,模型一下就学会了;而有些你觉得非常简单的动作,训了半天就是搞不定。到最后,其实是“人”学会了模型的“脾气”。所以,如何为模型设计动作(motion design)非常重要。

AI 科技评论:能讲讲你们在动作设计方面的具体案例吗?

范浩强:比如让机器人去叠衣服。直接从衣服上方捏取,就不如从侧面捏取成功率高。要把这些细节都搞清楚,我觉得需要一批专业人才。那些非常有天赋的数据采集员,他们可能就是未来的专家“种子”。

AI 科技评论:他们就像是把人类动作“翻译”成机器人动作的“翻译官”。

范浩强:是的。他不能再把自己当成一个人,他得把自己“带入”到机器人的视角,去思考和理解:什么样的动作是机器人容易做、容易学的? 最终,必须有一批人专注于 DFOL 这个领域。

很多行业里有个职位叫 FAE(现场应用工程师)。说实话,大多数定制化软件都是靠 FAE 撑起来的。

在具身智能的初级阶段,DFOL 是非常关键的一环,整个系统都需要围绕它来设计。所以在画系统架构图时,不能像别人那样简单地画个“大脑指挥小脑,然后机器人就干了”,而是要画成一个带反馈的闭环。当任务执行不成功时,机器人现场反馈的数据必须能够传回来,这样机器人才能迭代进化,最终达到客户的要求。

AI 科技评论:也就是说,你们的数据采集是当场执行动作,然后获得反馈,形成一个闭环?

范浩强:这也是 Pi 0.6 那篇工作里提到的一个核心算法,叫做 RECAP。现在还有很多别的叫法,比如叫 DAG,上海的智元又叫 SOP。

其实原理都是一样的。 比如机器人快要做错了,人赶紧给它手动纠正一下,然后把纠正的信号记录下来,让神经网络再去学习。神经网络很“聪明”,基本上掰它几回,它就不往错误的方向去了。这就是我说的神经网络“令人感动”的地方——它还挺“听话”。

AI 科技评论:那这种数据回来后,还需要对模型进行后训练(post-train)吗?

范浩强:当然了。相当于在产能爬坡的阶段,其实是两个过程并行:这边一直在采集数据,那边也一直在训练模型。 直到监测发现,机器人的平均无干预时间已经达到预设的指标了,才会停止模型更新。之后它就进入被动收集模式,模型参数固定下来。但如果后续出现 Bad Case(错误案例),数据依然会传回来,为未来模型版本的迭代提供参考。

AI 科技评论:那现在你们已经出货了一些机器人本体了?

范浩强:我们公司是2025年3月成立的,有一些项目款性质的产品。现在部分客户的试点项目中已经在使用。至于我们说的主力硬件产品,时间上抓抓紧,预计在2026年能推出一款给客户用的、比较统一的硬件平台。

AI 科技评论:既然要针对具体的工厂客户提供服务,还有必要去做一个统一的硬件产品吗?

范浩强:像夹具或者末端执行器这类部件,可能这个客户需要硬的,那个客户需要软的,会有定制化需求。但是机器人的整体平台(platform),还是得尽快稳定下来为好,这样才便于数据的持续积累和模型的学习。所以我们公司的战略上肯定还是期望能尽快收敛到我们的主力机型上。

AI 科技评论:那以后会不会去做一些面向更 C 端(消费者)的机器人,或者说更通用化的产品?

范浩强:在我们的长远愿景里是想做的。只不过感觉这件事更需要从长计议,等时机更成熟一些。

AI 科技评论:那你们会单独为某些本体公司提供“大脑”(算法模型)吗?

范浩强:目前暂时不会。那个生态链条上已经很拥挤了,而且这也不是我们最擅长的事情。

AI 科技评论:那从你的角度看,原力灵机在整个行业中的生态位是什么?

范浩强:我希望它能成为技术的引领者、应用的先行者

04 | 在山脚分开,在山顶汇合

AI 科技评论:模型和硬件之间,应该是什么样的关系?

范浩强:硬件本身也是一门科学,里面没有魔法。比如可靠性、结构、刚度这些问题,大家其实都有对应的方法论。只要在设计时把所有问题都考虑到,并验证透彻,最终的产品一定是可靠的。

我觉得现在的硬件难点,和模型类似。移动能力(locomotion)大家基本都有解决办法了。但机器人运动中的操作能力(manipulation),在硬件上仍然存在明显的瓶颈。

我可以举个很细节的例子,比如手腕。人的手腕很容易伸进桌斗里,但机器人的手腕就伸不进去。我们遇到过很多客户提出这类需求,结果发现“死”在了第一环——根本就伸不进去。如果连第一步都做不到,后面也就没有讨论的资格了。

所以我们认为,在硬件方面也必须从应用需求出发,才能达到真正可落地的状态。

我们有一个口号,叫“模型决定场景,场景定义硬件”。在这一代模型技术的能力范围内,能做什么事情搞清楚了,那么各种实现硬件的方法,也就随之清晰、具体地呈现出来了。

AI 科技评论:你们的基模(base model)训练算快的吗?

范浩强:如果纯粹算显卡实际跑起来的时间,可能就几周。但是,要先搞清楚跑什么、怎么跑,做好前期的验证和数据准备工作,这需要花费大量的时间去迭代和建设基础设施。

AI 科技评论:“跑什么、怎么跑”具体指什么?

范浩强:比如,Base Model 的训练参数如何设置?数据的分布如何处理才合理?这些决策才真正决定了模型的最终能力上限。我们在模型里加入了数千小时的自采数据,这些数据很多都是“一小时前”、“一分钟前”刚刚采集出来的。

AI 科技评论:你们的数据采集做得很扎实。

范浩强:这倒是。不过还好,搞人脸识别时我们已经积累了十年的数据采集经验。有些采集员非常有“技术信仰”,最积极的甚至会主动来问:“我采的数据用到模型上效果怎么样?”他自己还会琢磨下一批数据该怎么采集会更好。

联合开发的首款数据采集机器人 DOS-W1 量产出货合影,范浩强在现场

AI 科技评论:他已经从职业上升到“专业”乃至“信仰”的层面了,是吧?

范浩强:是的,非常神奇。我觉得这也是这个工作中的乐趣之一。我们公司有个“参观景点”,里面有块大看板,上面有个“功勋榜”,列着谁为我们的整个数据集贡献了最多时长的数据。“后世”一定要铭记这些当年的功臣。

AI 科技评论:那他们是硅基生命的“大功臣”。

范浩强采集员也要做到“人机合一”啊。 因为我们的任务很难,有些需要零点几毫米的对准精度,采集员要苦练两天才能熟练掌握。

AI 科技评论:下一代的具身模型会和这一代有什么区别?会朝着哪些方向发展?

范浩强:我觉得模型能力一般有四大核心指标:泛化性、智能性、灵巧性,还有效率。这一代我们更多关注它的灵巧性和一定的泛化性。下一代,我认为这些指标必须实现数量级的增长才行。

现在很多任务可能也就做到百分之八九十的成功率。但未来要真正进入客户的生产场景,对于简单任务,成功率必须朝着 99%、99.9% 去努力。另外在动作序列的长度上,现在大部分自测任务可能是在 10 秒内完成“一拿一放”。未来需要能做到分钟级甚至小时级的长程、复杂任务。

AI 科技评论:目前具身模型的训练路径也很多样,有搞仿真的,有搞 VLA 的,有搞世界模型的。你觉得这是好事吗?

范浩强:每个人坚持自己的技术路线挺好的。如果大家技术路线太同质化,反而浪费了宝贵的试错机会。我们大概率会坚持“预训练模型+真机数据”的技术组合。大家最好路子不太一样,这样也能相互看看对方干得怎么样,有个参考。如果大家都一模一样,那最后比什么呢?

AI 科技评论:最终不会都收敛到同一条技术路线上吗?

范浩强应该不会。更可能是“在山脚分开,在山顶汇合”。 比如,搞仿真的人天天在研究 3D 资产,搞真机数据采集的人天天在研究数据增强。其实到最后你会发现,他们要解决的根本问题是相通的。做实(真机)的人天天想怎么引入虚(仿真)的手段,做虚(仿真)的人天天想怎么加入实(真机)的数据。因为底层面对的技术挑战是一样的,无论出发点是什么,手段是什么,最终在宏观格局上一定能找到对应的映射关系。

所以我真心觉得,这些技术路线的分歧本身并不本质。区别完全取决于你在实现过程中,有没有解决那些核心的、绕不开的问题。你解决了,那就一定能做好。

这种思想我们称之为“还原论思想”,其实挺有“旷视风格”的。比如当年张祥雨有几篇很重要的文章,其中一篇是 ConvNeXt。他就是想说:别管其他人天天用 Transformer 刷视觉任务的榜单,我用改进后的卷积网络照样能刷出顶级效果。

AI 科技评论:但后来大家不还是被统一到 Transformer 架构上了吗?

范浩强:现在 Transformer 已经被改得“面目全非”了。大家说的 Dswin(滑动注意力窗口)结构,你说那东西和卷积有本质区别吗?我觉得区别不大。搞 Transformer 的人最后把某些结构优化得越来越像卷积,搞卷积的人最后也借鉴了 Transformer 的思想。其实殊途同归。

我不喜欢做这种概念上的“站队”或对立。我们相信,世间关于技术的真相只有一个,但通往真相的方法却有很多种。


访谈后记:

在这篇对原力灵机联合创始人范浩强的深度访谈中,我们看到了一个技术型创业者对具身智能的务实思考。从旷视的“天才少年”到具身智能领域的探索者,范浩强将“解决真实问题”和“创造商业价值”视为衡量成功的唯一标尺。他的观点——“能用,即为合理”、“模型决定场景,场景定义硬件”、“在山脚分开,在山顶汇合”——清晰地勾勒出一家技术公司在宏大愿景与落地现实之间的平衡之道。具身智能的道路充满挑战,但正是这些专注于“啃硬骨头”的团队,在推动着技术一步步走向可用、好用,并最终汇向那个“通用”的山顶。

你是否也对具身智能的真实挑战与商业逻辑感兴趣?欢迎在 云栈社区开发者广场 板块,与其他开发者一起探讨机器人技术的未来趋势、分享行业观察,或是“吐槽”技术落地中的那些坑。




上一篇:PyDracula:基于PySide6/PyQt6快速构建现代化深色GUI界面
下一篇:ShardingJDBC分表实战:订单系统从2分钟到200毫秒的性能优化之路
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 14:20 , Processed in 0.733416 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表