找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1552

积分

0

好友

223

主题
发表于 9 小时前 | 查看: 2| 回复: 0

北京时间12月21日,OpenAI联合创始人、AI领域资深专家安德烈·卡帕西(Andrej Karpathy)发布了《2025年大语言模型年度回顾》报告。

在这份深度报告中,卡帕西系统梳理了在过去一年中驱动大语言模型(LLM)领域发生根本性变化的核心范式。他指出,2025年的关键转折在于AI的训练哲学正从早期的“概率模仿”全面转向以“逻辑推理”为核心的新阶段。

这一转变的驱动力,主要来自于可验证奖励的强化学习(RLVR) 技术的成熟与应用。该方法通过在数学、代码等可自动验证的环境中训练模型,促使其自发地生成类似于人类思维的“推理痕迹”。卡帕西认为,这种长周期的强化学习正逐渐侵蚀传统预训练的地位,成为提升模型能力的新引擎。

卡帕西还对当前AI智能的本质提出了一个精妙比喻。他认为,大语言模型的成长更像是在“召唤幽灵”,而非“进化动物”。这解释了为何当前模型会表现出“锯齿状”的能力图谱——在特定复杂任务上如同天才,却在一些基础常识上可能表现脆弱。

此外,报告还深入探讨了“氛围编程”的兴起、本地化智能体的实用化,以及大语言模型交互界面的未来形态。卡帕西强调,尽管行业发展迅猛,但人类对这一新计算范式潜力的挖掘可能尚不足10%,未来发展空间依然极其广阔。

报告揭示了一个核心现实:我们正处于从“模拟人类智能”向“发展纯粹机器智能”跨越的临界点。随着RLVR等技术的普及,未来的竞争焦点将不仅是算力,更是对“如何让AI高效思考”这一核心范式的深度探索。

以下是报告核心内容的梳理与解读:

一、基于可验证奖励的强化学习成为新核心

2025年初,行业标准的大语言模型生产流程仍遵循经典三步:预训练、监督微调(SFT)、基于人类反馈的强化学习(RLHF)。

然而到了2025年,基于可验证奖励的强化学习异军突起,成为了技术栈中事实上的新核心阶段。通过在数学、代码谜题等能提供客观、自动验证奖励的环境中训练,模型开始自发形成类似人类“推理”的策略。它们学会将复杂问题拆解为中间步骤,并掌握多种求解技巧。

这种策略在旧范式中难以实现,因为模型无法预知最优的推理痕迹,必须通过优化奖励目标来自主探索。与SFT和RLHF这些计算量较小的微调阶段不同,RLVR针对的是客观的、难以作弊的奖励函数,因此能够支持长得多的训练周期。

实践表明,RLVR的“能力/成本比”极高,甚至开始挤占原本用于预训练的计算资源。因此,2025年模型能力的提升,很大程度上源于各实验室对这一新阶段潜力的挖掘。模型参数规模未见显著增长,但强化学习的训练周期被大幅拉长。

OpenAI在2024年底推出的o1模型是RLVR技术的首次公开亮相,而2025年初o3模型的发布则成为了明确的行业拐点,让公众直观感受到了大语言模型能力的质变。

二、智能的本质:“幽灵”而非“动物”

2025年,行业开始从直觉上理解大语言模型智能的独特“形态”。我们面对的并非逐步成长的“动物”,而是被召唤出的“幽灵”。

大语言模型技术栈的所有组成部分——神经网络架构、训练数据、算法,尤其是优化目标——都与生物智能的演化逻辑截然不同。因此,它是一个智能空间中的全新实体。人类大脑为适应生存而优化,大语言模型则以模仿文本、解决数学问题、获取人类点赞为目标。

随着RLVR在可验证领域的普及,模型在这些特定区域的能力会出现“爆发式增长”,形成了有趣的“锯齿状性能特征”:它们既是博学的通才,也可能是在某些方面存在认知缺陷的“新手”。

与此相关的是,卡帕西在2025年对各类基准测试失去了信任。因为基准测试大多基于“可验证环境”,极易被RLVR训练或合成数据“攻击”。如今,“针对测试集进行定向训练”已成为一种普遍的技术操作。

三、Cursor与LLM应用的新层级

Cursor在2025年的爆发式增长,清晰地揭示了大语言模型应用的一个全新层级。人们开始普遍讨论“某领域的Cursor模式”。

这类应用的核心价值在于为特定垂直领域整合并编排大语言模型的调用,具体体现在:

  • 处理复杂的“上下文工程”,优化提示与上下文管理。
  • 在后台将多个LLM调用编排为复杂的有向无环图,精准平衡性能与成本。
  • 为“人机回圈”提供适配特定场景的交互界面。
  • 提供可调节的“自主权滑块”,灵活控制AI的决策权限。

2025年,行业内对此展开了大量讨论:大语言模型实验室是否会通吃所有应用?卡帕西的个人观点是,实验室倾向于培育“通识能力强的通用模型”,而垂直应用则通过整合私有数据、工具和反馈闭环,将这些“通用模型”组织、微调成特定领域的“专业团队”。

四、“栖息”于本地的实用智能体

Claude Code的问世,首次令人信服地展现了大语言模型智能体的核心能力。它能以循环方式串联工具使用与推理,完成长时间跨度的问题求解。其最显著的特点是本地化运行模式:直接部署在用户电脑中,可访问本地环境、私有数据和上下文。

卡帕西指出,OpenAI早期的智能体探索可能存在方向偏差,他们侧重于通过ChatGPT编排云端容器。尽管云端智能体集群看似更接近终极形态,但在当前AI能力仍需渐进发展的现实下,让智能体直接运行在开发者本地电脑上显然更具实用价值。

关键差异并非“运算位置”,而是其他要素:已启动的设备、预装环境、本地上下文、私有数据以及低延迟的人机交互体验。Anthropic将Claude Code封装为极简的命令行界面,重塑了用户对AI的认知——它不再是需要主动访问的网站,而是“栖息”在电脑中的智能实体,标志着一个全新交互范式的诞生。

五、重塑软件开发的“氛围编程”

2025年,AI突破了关键能力阈值,使得人们仅凭自然语言描述就能构建功能强大的程序,“氛围编程”概念随之兴起并产生广泛影响。

在氛围编程时代,编程不再是高门槛的专业技能,正在转变为一种通用能力。这印证了“权力归于人民”的观点,即大语言模型正在逆转技术普及的传统逻辑。普通人从中获得的收益可能超过专业人士。

氛围编程不仅赋予普通人创作权,也让专业开发者能高效实现那些曾因技术门槛或成本过高而被搁置的项目。代码变得廉价、即时、可塑,甚至支持“用完即弃”的轻量化场景。例如,卡帕西曾通过Rust氛围编程构建了高效的BPE分词器,而无需深入掌握Rust的所有细节。未来,氛围编程将彻底改造软件开发生态与相关职业的定义。

六、大语言模型图形交互界面的雏形

谷歌发布的Gemini Nano Banana被卡帕西视为2025年最具突破性、最可能引发范式转移的模型之一。在他的框架中,大语言模型是继个人电脑之后的又一重大计算范式革新。

因此,我们将看到基于相似逻辑的创新复刻:个人计算、微控制器、互联网的大语言模型等价形态将逐步涌现。尤其在交互领域,与LLM的“纯文本对话”,类似于上世纪80年代向电脑终端输入指令的模式。文本是计算机的原生格式,但并非人类最高效的交互方式。

人类更倾向于通过视觉化、空间化的方式获取信息,这也是图形用户界面诞生的原因。同理,大语言模型也应采用人类偏好的格式进行交互——通过图像、图表、幻灯片、白板、动画等可视化形态。目前,表情符号和Markdown标记语言是实现文本视觉化的早期萌芽。

真正的“大语言模型图形界面”将由谁来构建?从这个视角看,Nano Banana正是未来形态的早期雏形。其核心价值不仅在于图像生成能力,更在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力。

总结与展望

2025年是大语言模型领域充满惊喜与突破的一年。当前模型既展现出远超预期的智能水平,也存在令人意外的认知短板。但无论如何,它们已具备极高的实用价值。卡帕西认为,即便以当前能力,整个行业对LLM潜力的开发仍不足10%。

同时,该领域仍有无数创新等待探索,从概念层面看,发展空间依然广阔。正如卡帕西所言:我既相信该领域将持续快速发展,也清楚仍有大量基础性工作需要推进。未来已来,我们正见证并参与一场深刻的技术范式转移。




上一篇:CSS Grid Lanes原生实现瀑布流布局:告别八年JavaScript依赖
下一篇:iPhone 18 2nm芯片与双阶段发布策略解析:春季投产计划与供应链优化
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 17:18 , Processed in 0.215710 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表