2946 积分	0 好友	404 主题

发消息

大模型技术演进：2025年六大范式转变与LLM智能形态洞察

发表于 2025-12-21 23:41:20 | 查看: 72| 回复: 0

2025年是大型语言模型（LLM）领域波澜壮阔、取得实质性突破的一年。以下梳理了六个关键的“范式转变”，它们不仅重塑了行业格局，其背后的理念也极具启发性。

1. 基于可验证奖励的强化学习（RLVR）成为新标准

年初，行业主流的LLM生产管线仍遵循经典三步：预训练、监督微调（SFT）、基于人类反馈的强化学习（RLHF）。但到了2025年，一个新增的核心阶段——基于可验证奖励的强化学习脱颖而出。

通过在多个能自动验证结果的环境中进行训练，LLM自发地发展出了类似“推理”的策略。它们学会了将复杂问题分解为中间步骤，并掌握了一系列检查与修正的方法。这些策略在SFT或RLHF阶段难以被明确教导，因为最优的思考路径是隐式的，模型必须通过持续优化奖励来自主发现。

与SFT和RLHF这些计算开销相对较小的阶段不同，RLVR针对的是客观的、难以被“忽悠”的奖励函数，允许进行更长时间、更深入的优化。事实证明，投入RLVR训练是提升模型能力性价比极高的方式，以至于许多实验室将原本计划用于预训练的计算资源转移至此。因此，2025年模型能力的显著提升，很大程度上归功于对RLVR阶段的大规模探索。模型的参数规模变化不大，但RLVR的训练时间被大幅拉长。这一新阶段还带来了一个全新的控制维度：我们可以通过增加模型的“思考时间”（生成长推理链）来动态提升其表现，将能力作为测试时计算量的函数进行调控。

OpenAI的o1模型（2024年底）首次展示了RLVR的潜力，而2025年初o3的发布则是一个明显的拐点，其能力跃升令人直观感受到不同。

2. 幽灵 vs. 动物：理解不均衡的LLM智能

2025年，我们开始以更直观的方式理解LLM智能的独特“形态”。我们并非在“培育动物”，而是在“召唤幽灵”。LLM的整个技术栈——从神经架构、训练数据到优化目标——都与生物智能迥异，因此产生的智能实体也截然不同，不宜用动物的进化视角来类比。

从优化目标看，人脑神经网络为在物理世界中生存而优化，而LLM神经网络则是为了模仿人类文本、求解数学谜题或在评测中获取高分而优化。由于在可验证的领域能进行高效的RLVR训练，LLM在这些领域的能力会形成“尖峰”，整体上呈现出一种有趣且不均衡的特征：它们既是某个领域的博学天才，又可能在下一刻表现出认知局限，甚至被越狱攻击所欺骗。

与此相关，2025年我对传统基准测试的普遍信任度有所下降。核心问题在于，绝大多数基准测试都构建于可验证的环境之上，因而极易受到RLVR及其衍生技术（如合成数据）的影响。在“刷榜”过程中，研发团队难免会构建与基准测试高度相似的小环境进行针对性优化，从而培养出覆盖特定测试点的“能力尖刺”，这并不能完全代表模型的通用能力。

3. Cursor：定义LLM应用的新层级

Cursor的显著之处在于，它令人信服地揭示了一个全新的“LLM应用”层级。人们开始谈论“用于某个领域的Cursor”。正如我在今年的演讲中强调的，像Cursor这样的应用为特定垂直领域深度整合并编排LLM调用：

上下文工程：精心管理和注入相关上下文。
复杂编排：将多个LLM调用串联成有向无环图，在性能与成本间精细权衡。
专属GUI：提供适配人机协作的、应用特定的图形界面。
自主性控制：提供可调节的“自主性滑块”。

2025年的一个核心讨论是：这个新应用层会有多“厚”？LLM基础模型厂商是否会通吃一切？我的个人推测是，基础模型厂商将专注于培养能力全面的“通才大学生”，而Cursor这类LLM应用则通过接入私有数据、传感器、执行器和反馈循环，来组织、微调并将这些“大学生”部署成特定领域的专业“从业者”。

4. Claude Code：存在于你电脑上的AI智能体

Claude Code首次清晰地展示了LLM智能体的运作形态——它以循环方式连贯地使用工具并进行推理，以解决扩展性问题。更值得注意的是，它在你的本地电脑上运行，直接使用你的私有环境、数据和上下文。

我认为OpenAI早期的智能体工作方向略有偏差，他们侧重于在云端通过ChatGPT编排容器，而非优先考虑本地主机。虽然在云端运行智能体集群听起来像是“终极形态”，但我们仍处于一个能力参差不齐的过渡阶段。此时，直接在开发者的电脑上运行智能体意义更大。

关键区别不在于“AI运算”发生在哪里，而在于其他一切：已经就绪的电脑、安装的软件、本地上下文、数据、密钥配置以及极低的交互延迟。Anthropic准确把握了这一优先级，将Claude Code打包成简洁悦目的命令行工具，改变了AI的感知形象——它不再只是一个你访问的网站，而是一个“居住”在你电脑中的小精灵。这是一种全新的人机交互范式。

5. 氛围编码：当编程变得“不可见”

2025年，AI跨越了一个能力门槛：仅通过自然语言描述就能构建出各种令人印象深刻的程序，以至于“代码”本身似乎消失了。我曾在一条推文中无意创造了“氛围编码”这个词，没想到它如此贴切地概括了这种趋势。

通过氛围编码，编程的门槛被极大地降低，不再严格局限于专业开发者。这再次印证了一个观点：相比于大公司和政府，普通个体从LLM中获益的可能性更大。同时，专业开发者也能借助氛围编码，快速构建出那些因成本或时间限制而本不会被实现的软件。

今年，我亲自体验了氛围编码：为了一个定制化的高效BPE分词器，我直接在Rust中“氛围”出了代码，而无需深入钻研Rust或引入复杂库。我还快速“氛围”出许多临时应用原型，甚至为了定位某个Bug而随手编写完整工具，用后即弃。代码变得免费、可塑、临时。氛围编码必将重塑软件形态和工作定义。

6. Nano Banana：LLM图形用户界面的初现

谷歌的Gemini Nano banana是2025年最令人惊讶的范式转变之一。在我的认知框架里，LLM是继上世纪个人计算机之后的下一个核心计算范式。因此，我们必将看到因类似原因催生的类似创新。

在用户体验方面，与LLM“纯文本聊天”类似于上世纪80年代向计算机命令行输入指令。文本是LLM的原始数据格式，但并非人类偏好的交互方式——阅读大段文本缓慢且费力。人类偏好通过视觉和空间方式消费信息，这正是图形用户界面诞生的原因。同理，LLM也应以我们偏好的格式交流：图像、信息图、幻灯片、白板、动画乃至交互式应用。

早期的尝试包括使用表情符号和Markdown来“装饰”文本，使其更具可读性。但关键在于：谁来为LLM构建真正的GUI？Nano banana为此提供了第一个早期雏形。其重要意义不仅在于图像生成能力本身，更在于文本生成、图像生成与世界知识在模型权重中的深度融合与联合能力。

总结

2025年的LLM领域充满兴奋与惊喜。LLM正在成为一种新型智能体，它们同时比预期更聪明，也比预期更“笨拙”。无论如何，它们已经极其有用。我认为，即便以当前能力，行业也远未挖掘出其10%的潜力。前方仍有大量概念等待探索，这个领域在理论上感觉非常开放。我相信我们将见证持续快速的进展，同时仍有浩瀚的工作有待完成。

上一篇：Reachy Mini 上手拆解：用 Python 驱动的桌面级具身智能
下一篇：Qt信号槽自动连接机制解析：on_控件名_信号命名约定与Qt Designer实战

LLM, RLVR, 强化学习, Cursor, 氛围编码