5267 积分	0 好友	694 主题

发消息

强化学习技术演进：从Bellman方程到PPO如何塑造大模型RLHF

发表于 2026-3-5 14:56:39 | 查看: 118| 回复: 0

当我们最初接触强化学习时，往往会从 Bellman 方程、价值函数、动态规划这些经典概念学起，然后是时序差分、Q-learning 乃至 DQN。如今，随着强化学习走进大模型时代，它的核心角色与形态发生了微妙却深刻的转变。今天围绕大模型展开的强化学习（如 RLHF、RLAIF），其理论基石已经悄然发生了变化。

下面，我们就来梳理一下这场从数学基础到工程实践的演变历程。

一、Bellman：强化学习的数学原点

一切都要从 Bellman 方程这个“第一性原理”开始：

贝尔曼方程公式

它揭示了一个核心的递归结构：

最优价值函数是 Bellman 算子的不动点。

这构成了强化学习最坚实的数学骨架。其内涵包括：

价值递归：当前状态的价值依赖于后续状态的价值。
期望结构：需要对环境转移和奖励取期望。
不动点性质：最优解满足自我一致性条件。
收缩映射：保证了迭代求解的收敛性。

可以说，如果说强化学习有一条“物理定律”，那就是 Bellman 方程。

二、动态规划：模型已知的精确求解

当环境模型（转移概率、奖励函数）完全已知时，问题简化了。我们可以通过迭代来逼近这个不动点：

动态规划迭代公式

这就是动态规划（DP）的思想：不断应用 Bellman 算子，直至收敛到最优值函数。然而，现实世界给我们出了一个难题：我们通常无法获知精确的环境模型。于是，强化学习必须回答一个根本问题：

在不知道模型的情况下，如何逼近 Bellman 不动点？

三、TD 与 Q-learning：用采样替代期望

时序差分（Temporal Difference, TD）学习带来了关键突破：用一次采样（样本）来替代 Bellman 方程中的期望计算。

时序差分更新公式

Q-learning 在此基础上更进一步，直接学习状态-动作对的价值，其更新规则为：

Q-learning更新公式

这意味着：

无需模型：通过与环境的交互采样来学习。
在线更新：可以实时、增量式地改进策略。
收敛保证：在理想条件下仍能逼近 Bellman 最优不动点。

至此，强化学习正式迈入了主流的“无模型”时代。

四、DQN：函数逼近进入深度学习时代

当状态空间变得巨大甚至连续时，传统的表格（Tabular）方法彻底失效。Deep Q-Network（DQN）的诞生解决了这个问题，它主要做了三件事：

函数逼近：用深度神经网络来拟合 Q 函数。
经验回放：存储并随机抽样过往经验，打破数据间的相关性。
目标网络：引入一个更新较慢的目标 Q 网络，稳定训练目标。

这一步的意义在于：

它将“求解 Bellman 不动点”这个数学问题，转变成了“用神经网络进行函数拟合”的工程问题。

强化学习与深度学习实现了深度融合。

五、另一条路线：策略梯度

几乎在价值函数方法发展的同时，另一条技术路线——策略梯度方法也在演进。其核心思想不是间接地学习价值函数再导出策略，而是直接对策略函数进行优化。

REINFORCE 算法给出了策略梯度的核心公式：

策略梯度公式

这一思想转变至关重要：

它将强化学习问题，重新定义为对策略参数空间的概率分布进行梯度优化的问题。

至此，一条新的主线出现了，它不再围绕 Bellman 不动点展开，而是围绕目标函数的梯度展开。

六、Actor-Critic：两条路线的融合

Actor-Critic 架构巧妙地将价值函数和策略梯度两条路线结合起来：

Critic（评论家）：学习价值函数（通常使用 TD 方法），评估状态或动作的好坏。
Actor（演员）：根据 Critic 的评价，使用策略梯度更新策略，做出更好的决策。

Critic 提供了更低的方差估计，Actor 则负责直接优化策略。这成为了现代强化学习中最主流的算法框架之一。

七、TRPO 与 PPO：稳定性革命

随着策略网络变得更深更复杂，一个新问题凸显出来：策略更新步长如果过大，可能导致性能剧烈下降甚至训练崩溃。为了解决这个稳定性问题，TRPO（Trust Region Policy Optimization）引入了信赖域约束，严格限制新旧策略之间的 KL 散度。

而 PPO（Proximal Policy Optimization）在此基础上提出了一个更易于实现的工程化简化：

PPO目标函数公式

它通过裁剪概率比来隐式地约束策略更新，实现了：

稳定更新：避免破坏性的策略更新。
易于实现：相比 TRPO 省去了复杂的二阶优化。
可扩展性强：非常适合大规模分布式训练。

PPO 迅速成为深度强化学习领域事实上的默认算法。

八、关键转折：大模型时代的强化学习

当强化学习进入大语言模型时代，其应用场景发生了结构性变化。LLM 的训练环境具有以下特点：

没有明确的状态转移模型：对话的“状态”是生成的文本序列，转移难以定义。
没有长时间序列奖励：通常每个回复得到一个即时的人类偏好反馈。
更接近上下文赌博机：每个提示（prompt）下选择一个完整的回复序列作为“动作”。

因此，强化学习在大模型对齐（如 RLHF）中的角色转变为：

在预训练模型生成的语言分布上，进行基于人类反馈的策略优化。

一个典型的目标函数是最大化奖励的同时，约束新策略不要偏离原始参考模型太远：

带KL约束的策略梯度目标

这本质上就是：

策略梯度：使用人类反馈作为奖励信号。
加上 KL 约束：防止过度优化导致模型退化。
使用 PPO 实现：利用其稳定性和效率来完成优化。

九、Bellman 在 LLM 时代的地位

这里有一个非常关键的区别：在现代大模型的强化学习训练中，几乎不再显式地使用 Bellman 递归或求解价值函数。

它不再求解 $V = T V$ 这样的不动点方程，而是在求解：

最大化期望奖励目标

这是一个带约束的策略分布优化问题。换句话说：

以 RLHF 为代表的大模型强化学习，其技术血脉主要继承自策略梯度和约束优化理论，而非经典的 Bellman 不动点迭代体系。

十、整条演化脉络

我们可以将强化学习数十年的发展压缩成一条清晰的主线：

Bellman 方程（奠定递归结构与不动点理论基础）
↓
动态规划（模型已知下的精确求解）
↓
时序差分 / Q-learning（用无模型采样替代期望）
↓
DQN（用深度神经网络进行大规模函数逼近）
↓
策略梯度（绕过价值函数，直接优化策略分布）
↓
Actor-Critic（融合价值评估与策略优化）
↓
TRPO / PPO（引入约束，实现大规模稳定训练）
↓
RLHF / RLAIF（应用于大模型对齐，完成最终形态转变）

十一、最核心的总结

如果说 Bellman 方程奠定了强化学习的数学结构，那么：

TD 学习让它能够在未知环境中进行学习。
DQN让它能够处理高维、复杂的状态空间，实现规模化。
策略梯度让它能够直接优化复杂的行动分布。
PPO让它能够稳定、高效地训练参数量巨大的模型。

正是这一系列关键的范式演进与技术突破，共同推动着强化学习走进了今天波澜壮阔的大模型时代。想了解更多前沿技术讨论与实践分享，欢迎访问云栈社区，与广大开发者共同交流成长。

上一篇：OpenClaw实战：AI助手自动化运营Twitter、Notion与知识星球工作流
下一篇：网易《漫威争锋》地编年终奖60万？聊聊游戏大厂的“玄学”奖金与生态

强化学习, PPO, RLHF, 大语言模型, 深度学习