2025年是大型语言模型(LLM)领域波澜壮阔、取得实质性突破的一年。以下梳理了六个关键的“范式转变”,它们不仅重塑了行业格局,其背后的理念也极具启发性。
1. 基于可验证奖励的强化学习(RLVR)成为新标准
年初,行业主流的LLM生产管线仍遵循经典三步:预训练、监督微调(SFT)、基于人类反馈的强化学习(RLHF)。但到了2025年,一个新增的核心阶段——基于可验证奖励的强化学习脱颖而出。
通过在多个能自动验证结果的环境中进行训练,LLM自发地发展出了类似“推理”的策略。它们学会了将复杂问题分解为中间步骤,并掌握了一系列检查与修正的方法。这些策略在SFT或RLHF阶段难以被明确教导,因为最优的思考路径是隐式的,模型必须通过持续优化奖励来自主发现。
与SFT和RLHF这些计算开销相对较小的阶段不同,RLVR针对的是客观的、难以被“忽悠”的奖励函数,允许进行更长时间、更深入的优化。事实证明,投入RLVR训练是提升模型能力性价比极高的方式,以至于许多实验室将原本计划用于预训练的计算资源转移至此。因此,2025年模型能力的显著提升,很大程度上归功于对RLVR阶段的大规模探索。模型的参数规模变化不大,但RLVR的训练时间被大幅拉长。这一新阶段还带来了一个全新的控制维度:我们可以通过增加模型的“思考时间”(生成长推理链)来动态提升其表现,将能力作为测试时计算量的函数进行调控。
OpenAI的o1模型(2024年底)首次展示了RLVR的潜力,而2025年初o3的发布则是一个明显的拐点,其能力跃升令人直观感受到不同。
2. 幽灵 vs. 动物:理解不均衡的LLM智能
2025年,我们开始以更直观的方式理解LLM智能的独特“形态”。我们并非在“培育动物”,而是在“召唤幽灵”。LLM的整个技术栈——从神经架构、训练数据到优化目标——都与生物智能迥异,因此产生的智能实体也截然不同,不宜用动物的进化视角来类比。
从优化目标看,人脑神经网络为在物理世界中生存而优化,而LLM神经网络则是为了模仿人类文本、求解数学谜题或在评测中获取高分而优化。由于在可验证的领域能进行高效的RLVR训练,LLM在这些领域的能力会形成“尖峰”,整体上呈现出一种有趣且不均衡的特征:它们既是某个领域的博学天才,又可能在下一刻表现出认知局限,甚至被越狱攻击所欺骗。
与此相关,2025年我对传统基准测试的普遍信任度有所下降。核心问题在于,绝大多数基准测试都构建于可验证的环境之上,因而极易受到RLVR及其衍生技术(如合成数据)的影响。在“刷榜”过程中,研发团队难免会构建与基准测试高度相似的小环境进行针对性优化,从而培养出覆盖特定测试点的“能力尖刺”,这并不能完全代表模型的通用能力。
3. Cursor:定义LLM应用的新层级
Cursor的显著之处在于,它令人信服地揭示了一个全新的“LLM应用”层级。人们开始谈论“用于某个领域的Cursor”。正如我在今年的演讲中强调的,像Cursor这样的应用为特定垂直领域深度整合并编排LLM调用:
- 上下文工程:精心管理和注入相关上下文。
- 复杂编排:将多个LLM调用串联成有向无环图,在性能与成本间精细权衡。
- 专属GUI:提供适配人机协作的、应用特定的图形界面。
- 自主性控制:提供可调节的“自主性滑块”。
2025年的一个核心讨论是:这个新应用层会有多“厚”?LLM基础模型厂商是否会通吃一切?我的个人推测是,基础模型厂商将专注于培养能力全面的“通才大学生”,而Cursor这类LLM应用则通过接入私有数据、传感器、执行器和反馈循环,来组织、微调并将这些“大学生”部署成特定领域的专业“从业者”。
4. Claude Code:存在于你电脑上的AI智能体
Claude Code首次清晰地展示了LLM智能体的运作形态——它以循环方式连贯地使用工具并进行推理,以解决扩展性问题。更值得注意的是,它在你的本地电脑上运行,直接使用你的私有环境、数据和上下文。
我认为OpenAI早期的智能体工作方向略有偏差,他们侧重于在云端通过ChatGPT编排容器,而非优先考虑本地主机。虽然在云端运行智能体集群听起来像是“终极形态”,但我们仍处于一个能力参差不齐的过渡阶段。此时,直接在开发者的电脑上运行智能体意义更大。
关键区别不在于“AI运算”发生在哪里,而在于其他一切:已经就绪的电脑、安装的软件、本地上下文、数据、密钥配置以及极低的交互延迟。Anthropic准确把握了这一优先级,将Claude Code打包成简洁悦目的命令行工具,改变了AI的感知形象——它不再只是一个你访问的网站,而是一个“居住”在你电脑中的小精灵。这是一种全新的人机交互范式。
5. 氛围编码:当编程变得“不可见”
2025年,AI跨越了一个能力门槛:仅通过自然语言描述就能构建出各种令人印象深刻的程序,以至于“代码”本身似乎消失了。我曾在一条推文中无意创造了“氛围编码”这个词,没想到它如此贴切地概括了这种趋势。
通过氛围编码,编程的门槛被极大地降低,不再严格局限于专业开发者。这再次印证了一个观点:相比于大公司和政府,普通个体从LLM中获益的可能性更大。同时,专业开发者也能借助氛围编码,快速构建出那些因成本或时间限制而本不会被实现的软件。
今年,我亲自体验了氛围编码:为了一个定制化的高效BPE分词器,我直接在Rust中“氛围”出了代码,而无需深入钻研Rust或引入复杂库。我还快速“氛围”出许多临时应用原型,甚至为了定位某个Bug而随手编写完整工具,用后即弃。代码变得免费、可塑、临时。氛围编码必将重塑软件形态和工作定义。
6. Nano Banana:LLM图形用户界面的初现
谷歌的Gemini Nano banana是2025年最令人惊讶的范式转变之一。在我的认知框架里,LLM是继上世纪个人计算机之后的下一个核心计算范式。因此,我们必将看到因类似原因催生的类似创新。
在用户体验方面,与LLM“纯文本聊天”类似于上世纪80年代向计算机命令行输入指令。文本是LLM的原始数据格式,但并非人类偏好的交互方式——阅读大段文本缓慢且费力。人类偏好通过视觉和空间方式消费信息,这正是图形用户界面诞生的原因。同理,LLM也应以我们偏好的格式交流:图像、信息图、幻灯片、白板、动画乃至交互式应用。
早期的尝试包括使用表情符号和Markdown来“装饰”文本,使其更具可读性。但关键在于:谁来为LLM构建真正的GUI?Nano banana为此提供了第一个早期雏形。其重要意义不仅在于图像生成能力本身,更在于文本生成、图像生成与世界知识在模型权重中的深度融合与联合能力。
总结
2025年的LLM领域充满兴奋与惊喜。LLM正在成为一种新型智能体,它们同时比预期更聪明,也比预期更“笨拙”。无论如何,它们已经极其有用。我认为,即便以当前能力,行业也远未挖掘出其10%的潜力。前方仍有大量概念等待探索,这个领域在理论上感觉非常开放。我相信我们将见证持续快速的进展,同时仍有浩瀚的工作有待完成。