找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1888

积分

0

好友

264

主题
发表于 2025-12-25 03:38:41 | 查看: 33| 回复: 0

图片

近期,因成功采访到Ilya Sutskever与Andrej Karpathy等顶尖人物而备受关注的AI领域播客主Dwarkesh,在其最新节目中分享了对当前人工智能发展态势的深刻见解。这些观点围绕大语言模型的核心突破方向、通用人工智能(AGI)的现实距离以及技术乐观论的潜在误区展开。本文对其核心判断进行了梳理与解读,并在文末附上了来自其博客的精选读者评论,以提供多角度的思考。

图片

核心判断:当前AI发展的七个关键观察

1. “中训练”的兴起揭示了泛化能力的不足
以强化学习为核心的“中训练”正成为前沿公司的重点。这种模式旨在将大量具体技能预先“灌输”给模型。Dwarkesh认为,这恰恰说明AGI尚远。若模型具备强大的泛化与在岗学习能力,则无需为操作浏览器或Excel等任务构建大量独立的强化学习环境。人类无需预先练习所有未来软件,而AI目前仍需依赖这种“预烘焙”技能,暴露了其核心学习能力的短板。

2. 人类劳动力的价值在于灵活、低成本的技能习得
针对特定场景(如识别某实验室特制的细胞切片)训练专用模型,成本效益很低。真正的价值在于智能体能够像人一样,从语义反馈或自主经验中灵活学习并泛化。日常工作中的上百项任务都依赖情境判断与背景知识,仅靠预置固定技能集,连自动化一份完整工作都困难,更不用说所有工作。

3. 经济扩散滞后是能力不足的体现,而非过程缓慢
有一种观点认为AI在经济中的渗透需要时间。但Dwarkesh指出,若AI真达到“服务器上的人类”水平,其扩散将极其迅速。招聘人类员工存在鉴别成本与风险,而一个经过验证的AI实例可以无损、无限复制。企业有极强动机采用AI劳动力。当前未发生,根本原因在于模型能力距替代人类知识工作者还相差甚远。

4. 调整评估标准是认识深化的合理过程
过去十年,AI在通用理解、少样本学习、推理等曾被视作瓶颈的能力上取得突破,但AGI仍未到来。这促使我们调整对智能与劳动复杂性的认知。当模型已超越旧有AGI定义却未产生预期经济价值时,合理的反应是承认原有定义过于狭隘。这种标准的迭代在未来可能继续。

5. 预训练的规模定律未必适用于强化学习
预训练阶段的Scaling Law(规模定律)清晰可靠:算力指数级增长,损失函数稳定下降。但人们将这种乐观经验套用到强化学习的规模化上,却缺乏依据。有研究指出,强化学习要达到类似GPT的进步幅度,所需算力规模可能需要提升百万倍。

6. 与人类对比:先高估,后低估
知识工作的价值分布极不均匀,顶尖人才创造绝大部分价值。若将AI能力与“中位数人类”对比,会系统性高估其经济价值。反之,一旦AI真正达到顶级人类水平,其影响力将是爆炸式的。O-ring理论(乘法效应)在此语境下尤为贴切:任何环节的微小缺陷都可能导致整体价值归零,因此顶级能力的价值被极度放大。

7. 持续学习将是AGI后的核心驱动力
AGI之后,能力提升的主要动力将来自持续学习——从实际部署与经验中学习,如同人类在工作中成长。Dwarkesh预计明年会有实验室发布持续学习的雏形功能,但达到人类水平可能还需5-10年。这个过程将是渐进式的,而非一蹴而就的“奇点”,因此单一实验室难以借此获得失控的领先优势。


深度探讨:我们在扩展什么?

一种矛盾的观点是:既认为AGI临近,又对在大模型上大规模扩展强化学习(RLVR)极度乐观。如果模型已接近类人学习者,这种依赖“可验证结果”的训练路径本身可能就不成立。

当前,一个完整的产业正在形成,专门构建环境来教模型操作浏览器或使用Excel。Beren Millidge指出,这像是专家系统时代的大规模重演——专家不再编写规则,而是提供海量标注的推理样本供模型“行为克隆”。这暗示前沿系统仍缺乏AGI关键的学习内核。

机器人难题是另一个例证。这本质是算法问题,而非硬件问题。若拥有类人学习者,机器人问题便已大体解决。正因没有,我们才需进入成千上万户家庭去收集端盘子、叠衣服的数据。

一种反驳称,当前笨拙的强化学习是为了先制造出“超人类AI研究员”,再让其自我改进。这如同“每单都亏,但靠走量赚钱”。一个连儿童级基础学习能力都不具备的“研究员”,能解决人类百年未解的AGI算法问题?这令人难以信服。

另一种反驳是,即便模型能在工作中学习,预先集体掌握通用技能(如用浏览器)也更高效。这固然有理,但人们严重低估了大多数工作对公司特定、情境特定技能的依赖程度,而AI目前尚无稳健高效的方法习得这些技能。

精选评论

Will Michaels
人类学习快的原因之一,是其可能的误解空间受限且可预测(如学微积分时的常见错误点)。而AI所犯的错误既不可预测(同一模型在不同情况下出错不同),又不直观(我们难以判断其何时可靠)。这使得构建一个能识别并惩罚所有可能错误的学习环境异常困难。这与持续学习的挑战直接相关。若我们能设计出使AI失败模式可预测的架构,那将是迈向持续学习的一大步。

Argos
文章论点有力,但可能过于自信。OpenAI雇佣华尔街人士生成数据,可能只是为了给高付费客户提供短期专业化模型,而非其AGI通用路径。AI部署缓慢,对于那些能力不错但尚不完全可靠、无法完全自主的智能体来说,是一个合理的论据。以Claude Code为例,它非常有价值,但让其成为自主员工则无用。许多经济价值的释放,正受制于需要投入大量资源搭建类似的“支撑体系”。

Daniel Kokotajlo

  1. 持续学习将逐步解决。初期是对现有范式的增量改进(如提高模型更新频率),随后因研发自动化加速,会变得更系统、更类人。
  2. 现有范式确实需要比人类更多的RLVR数据才能在特定任务上表现良好。但一旦足够强大,上下文学习也可能成为一种持续学习形式?通过足够多样化的RL环境,或许能培养出可直接投入新环境、在行动中自行摸索的通用智能体。
  3. 可以考虑由智能体组成的“集体”。未来,这样的集体或许能自主管理一个庞大的流程(包括数据收集、问题识别、RL环境生成等),这个流程本身就构成了集体的持续学习机制。集体学习单项技能可能需要比人类多1000倍的数据,但它能调动成千上万个复制体智能地收集数据,从而总体上比人类学得更快。

图片

图片




上一篇:Ansible自动化补丁管理实践:零停机构建大规模服务器安全更新方案
下一篇:PEB遍历技术解析:实现无导入表API调用与银狐免杀初探
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-11 20:14 , Processed in 0.210296 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表