找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3970

积分

0

好友

522

主题
发表于 2 小时前 | 查看: 5| 回复: 0

当我们最初接触强化学习时,往往会从 Bellman 方程、价值函数、动态规划这些经典概念学起,然后是时序差分、Q-learning 乃至 DQN。如今,随着强化学习走进大模型时代,它的核心角色与形态发生了微妙却深刻的转变。今天围绕大模型展开的强化学习(如 RLHF、RLAIF),其理论基石已经悄然发生了变化。

下面,我们就来梳理一下这场从数学基础到工程实践的演变历程。

一、Bellman:强化学习的数学原点

一切都要从 Bellman 方程这个“第一性原理”开始:

贝尔曼方程公式

它揭示了一个核心的递归结构:

最优价值函数是 Bellman 算子的不动点。

这构成了强化学习最坚实的数学骨架。其内涵包括:

  • 价值递归:当前状态的价值依赖于后续状态的价值。
  • 期望结构:需要对环境转移和奖励取期望。
  • 不动点性质:最优解满足自我一致性条件。
  • 收缩映射:保证了迭代求解的收敛性。

可以说,如果说强化学习有一条“物理定律”,那就是 Bellman 方程。

二、动态规划:模型已知的精确求解

当环境模型(转移概率、奖励函数)完全已知时,问题简化了。我们可以通过迭代来逼近这个不动点:

动态规划迭代公式

这就是动态规划(DP)的思想:不断应用 Bellman 算子,直至收敛到最优值函数。然而,现实世界给我们出了一个难题:我们通常无法获知精确的环境模型。于是,强化学习必须回答一个根本问题:

在不知道模型的情况下,如何逼近 Bellman 不动点?

三、TD 与 Q-learning:用采样替代期望

时序差分(Temporal Difference, TD)学习带来了关键突破:用一次采样(样本)来替代 Bellman 方程中的期望计算

时序差分更新公式

Q-learning 在此基础上更进一步,直接学习状态-动作对的价值,其更新规则为:

Q-learning更新公式

这意味着:

  • 无需模型:通过与环境的交互采样来学习。
  • 在线更新:可以实时、增量式地改进策略。
  • 收敛保证:在理想条件下仍能逼近 Bellman 最优不动点。

至此,强化学习正式迈入了主流的“无模型”时代。

四、DQN:函数逼近进入深度学习时代

当状态空间变得巨大甚至连续时,传统的表格(Tabular)方法彻底失效。Deep Q-Network(DQN)的诞生解决了这个问题,它主要做了三件事:

  1. 函数逼近:用深度神经网络来拟合 Q 函数。
  2. 经验回放:存储并随机抽样过往经验,打破数据间的相关性。
  3. 目标网络:引入一个更新较慢的目标 Q 网络,稳定训练目标。

这一步的意义在于:

它将“求解 Bellman 不动点”这个数学问题,转变成了“用神经网络进行函数拟合”的工程问题。

强化学习与深度学习实现了深度融合。

五、另一条路线:策略梯度

几乎在价值函数方法发展的同时,另一条技术路线——策略梯度方法也在演进。其核心思想不是间接地学习价值函数再导出策略,而是直接对策略函数进行优化

REINFORCE 算法给出了策略梯度的核心公式:

策略梯度公式

这一思想转变至关重要:

它将强化学习问题,重新定义为对策略参数空间的概率分布进行梯度优化的问题。

至此,一条新的主线出现了,它不再围绕 Bellman 不动点展开,而是围绕目标函数的梯度展开。

六、Actor-Critic:两条路线的融合

Actor-Critic 架构巧妙地将价值函数和策略梯度两条路线结合起来:

  • Critic(评论家):学习价值函数(通常使用 TD 方法),评估状态或动作的好坏。
  • Actor(演员):根据 Critic 的评价,使用策略梯度更新策略,做出更好的决策。

Critic 提供了更低的方差估计,Actor 则负责直接优化策略。这成为了现代强化学习中最主流的算法框架之一。

七、TRPO 与 PPO:稳定性革命

随着策略网络变得更深更复杂,一个新问题凸显出来:策略更新步长如果过大,可能导致性能剧烈下降甚至训练崩溃。为了解决这个稳定性问题,TRPO(Trust Region Policy Optimization)引入了信赖域约束,严格限制新旧策略之间的 KL 散度。

PPO(Proximal Policy Optimization)在此基础上提出了一个更易于实现的工程化简化:

PPO目标函数公式

它通过裁剪概率比来隐式地约束策略更新,实现了:

  • 稳定更新:避免破坏性的策略更新。
  • 易于实现:相比 TRPO 省去了复杂的二阶优化。
  • 可扩展性强:非常适合大规模分布式训练。

PPO 迅速成为深度强化学习领域事实上的默认算法。

八、关键转折:大模型时代的强化学习

当强化学习进入大语言模型时代,其应用场景发生了结构性变化。LLM 的训练环境具有以下特点:

  • 没有明确的状态转移模型:对话的“状态”是生成的文本序列,转移难以定义。
  • 没有长时间序列奖励:通常每个回复得到一个即时的人类偏好反馈。
  • 更接近上下文赌博机:每个提示(prompt)下选择一个完整的回复序列作为“动作”。

因此,强化学习在大模型对齐(如 RLHF)中的角色转变为:

在预训练模型生成的语言分布上,进行基于人类反馈的策略优化。

一个典型的目标函数是最大化奖励的同时,约束新策略不要偏离原始参考模型太远:

带KL约束的策略梯度目标

这本质上就是:

  • 策略梯度:使用人类反馈作为奖励信号。
  • 加上 KL 约束:防止过度优化导致模型退化。
  • 使用 PPO 实现:利用其稳定性和效率来完成优化。

九、Bellman 在 LLM 时代的地位

这里有一个非常关键的区别:在现代大模型的强化学习训练中,几乎不再显式地使用 Bellman 递归或求解价值函数

它不再求解 $V = T V$ 这样的不动点方程,而是在求解:

最大化期望奖励目标

这是一个带约束的策略分布优化问题。换句话说:

以 RLHF 为代表的大模型强化学习,其技术血脉主要继承自策略梯度和约束优化理论,而非经典的 Bellman 不动点迭代体系。

十、整条演化脉络

我们可以将强化学习数十年的发展压缩成一条清晰的主线:

Bellman 方程(奠定递归结构与不动点理论基础)

动态规划(模型已知下的精确求解)

时序差分 / Q-learning(用无模型采样替代期望)

DQN(用深度神经网络进行大规模函数逼近)

策略梯度(绕过价值函数,直接优化策略分布)

Actor-Critic(融合价值评估与策略优化)

TRPO / PPO(引入约束,实现大规模稳定训练)

RLHF / RLAIF(应用于大模型对齐,完成最终形态转变)

十一、最核心的总结

如果说 Bellman 方程奠定了强化学习的数学结构,那么:

  • TD 学习让它能够在未知环境中进行学习。
  • DQN让它能够处理高维、复杂的状态空间,实现规模化。
  • 策略梯度让它能够直接优化复杂的行动分布。
  • PPO让它能够稳定、高效地训练参数量巨大的模型。

正是这一系列关键的范式演进与技术突破,共同推动着强化学习走进了今天波澜壮阔的大模型时代。想了解更多前沿技术讨论与实践分享,欢迎访问云栈社区,与广大开发者共同交流成长。




上一篇:OpenClaw实战:AI助手自动化运营Twitter、Notion与知识星球工作流
下一篇:网易《漫威争锋》地编年终奖60万?聊聊游戏大厂的“玄学”奖金与生态
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 17:55 , Processed in 0.389829 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表