2025年是大语言模型领域发展迅猛且充满变革的一年,出现了一些引人注目、甚至略带惊喜的“范式转变”:
- RLVR训练:通过可验证奖励让LLM自主“演化”出推理能力,显著改变了训练算力的分配。
- 锯齿状智能:在数学、代码等特定领域表现卓越,但在常识领域却表现欠佳,呈现出有趣且不均衡的特征。
- 应用层崛起:Cursor等工具的成功证明了面向垂直领域的编排方案比通用模型更能兑现商业价值。
- 本地Agent范式:Claude Code以“生活在电脑上的精灵”形式出现,提供了比云端方案更务实、更个人化的AI交互方式。
- 氛围编程(Vibe Coding):代码成为一种“免费、临时、可塑”的媒介,编程正从专业技能演变为大众创作。
- GUI革命:纯文本交互逐渐过时,LLM开始学习以图像、信息图等更丰富的视觉形式进行输出。

核心洞察:LLM更像是被“召唤的幽灵”而非被“培育的动物”,其能力具有内在的矛盾性。目前,整个行业可能仅挖掘了其潜力的10%。
1. 基于可验证奖励的强化学习
2025年初,主流实验室训练LLM的流程主要包括三个阶段:预训练、监督微调以及基于人类反馈的强化学习。这是一个稳定且经过验证的配方。而在2025年,基于可验证奖励的强化学习作为一个新增的主要阶段崭露头角。
该方法通过在数学、代码谜题等具有自动可验证奖励的环境中对LLM进行训练,使得模型自发地发展出了类似于人类“推理”的策略。与监督微调和RLHF这两个相对轻量的微调阶段不同,RLVR阶段针对客观的奖励函数进行长时间优化,甚至吞噬了原本用于预训练的大量算力。
这一新阶段的独特之处在于,它为开发者提供了一个新的控制旋钮,可以通过生成长推理链和增加“思考时间”来动态调节模型在推理时所消耗的计算资源。
2. 幽灵与动物的比喻 / 锯齿状智能
2025年,业界对LLM智能的“形态”有了更直观的理解:我们并非在“培育动物”,而是在“召唤幽灵”。LLM的训练目标与人类为生存而进化的心智完全不同,这导致其性能呈现出一种有趣且不均衡的锯齿状特征:它既是某些领域的博学天才,也极易在另一些领域被欺骗,表现得如同“小学生”。
与此同时,传统的基准测试正逐渐失去公信力。因为这些基准本质上是可验证的环境,容易被RLVR或合成数据等技术针对性优化,从而形成局部的能力尖峰,而非衡量通用智能的有效标尺。即便一个模型能够在所有基准测试中取得碾压性成绩,也未必意味着它接近了通用人工智能。
3. Cursor与LLM应用新范式
Cursor在2025年的飞速崛起,最值得关注的并非是工具本身,而是它揭示了一个“LLM应用”的新范式。人们开始谈论“X领域的Cursor”,即像Cursor一样,为特定垂直领域深度捆绑和编排LLM调用:
- 它们执行复杂的“上下文工程”;
- 它们在后台将多个LLM调用编排成越来越复杂的任务执行图,精细地权衡性能与成本;
- 它们为用户提供领域特定的图形化交互界面;
- 它们提供可调节的“自主性滑块”。
这种模式证明,垂直、深度的编排方案比通用的基础模型更接近实际的商业价值。
4. Claude Code:生活在你的电脑上的AI
Claude Code作为首个令人信服的LLM Agent示范而出现,它以循环方式串联工具使用与推理,从而解决更复杂的问题。其最值得注意的一点在于它运行在你的个人电脑上,直接利用你本地的私有环境、数据和上下文。
这里的关键区别不在于“AI运算”发生在云端还是本地,而在于一切交互的上下文——已经启动并运行的电脑、安装的软件、现有的数据、密钥配置以及极低的交互延迟。Anthropic将Claude Code打包成一个极简的命令行工具,改变了AI的面貌:它不再是需要你去访问的网站,而是“生活”在你电脑上的小助手。这代表了一种与AI互动的全新、独特的范式,对整个AI Code赛道都产生了深远影响。
5. 氛围编程
2025年是AI能力跨越关键门槛的一年,仅凭自然语言描述就能构建出各种令人印象深刻的程序。有趣的是,“氛围编程”这一术语被创造出来,并迅速流行。
氛围编程意味着编程不再严格局限于高度训练的专业人士,而成为任何人都可以尝试的事情。它不仅能赋能普通人接近编程,还能让专业开发者以更高的效率编写出大量本不会被创建的(临时性)软件。人们甚至可能为了解决一个bug而用氛围编程临时编写一个完整的小工具——代码突然变得免费、可塑且可以是一次性的。氛围编程正在重塑软件开发的形态,并将改变相关的工作描述。
6. Nano banana与LLM的GUI革命
谷歌的Gemini Nano banana是2025年最具范式转变意义的模型之一。LLM是继个人计算机、互联网之后的下一个核心计算范式。正如计算机从命令行演进到图形用户界面,LLM的交互也必将从纯文本对话,转向人类更偏好的视觉化与空间化交流方式,如图像、信息图、动态演示乃至交互应用。
在这一世界观下,nano banana是对未来形态的早期暗示。其显著之处不仅在于图像生成能力,更在于文本生成、图像生成与世界知识的联合建模与涌现能力,所有这些都在模型的权重中被交织在一起。
总结
2025年是LLM领域令人兴奋且充满惊喜的一年。大语言模型作为一种新型智能正在涌现,它同时比我们预期的更聪明,也比我们预期的更“笨拙”。无论如何,它们已经变得极其有用。但就目前而言,整个行业即使在其现有能力基础上,也远未实现其潜力的10%。
原文链接:https://karpathy.bearblog.dev/year-in-review-2025/