找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3133

积分

0

好友

417

主题
发表于 昨天 22:53 | 查看: 6| 回复: 0

小红书 AI 平台团队正式开源了 Relax —— 一款专为全模态与 Agentic 场景设计的大模型强化学习训练引擎。Relax 基于 Megatron-LM 和 SGLang 高性能后端构建,以协同设计为核心,致力于系统性地解决全模态数据支持、服务化容错架构和异步训练流水线这三个维度的挑战。在 Qwen3-Omni-30B 模型上,Relax 验证了对图像、文本、音频和视频四种模态进行 RL 训练时的稳定收敛能力;在 16 台 H800 GPU 的多机环境下,其全异步训练模式相比传统的 Colocate 方案端到端提速 76%,相较于 veRL 的全异步方案,端到端速度也提升了 20%

资源链接

核心痛点:全模态 RL 训练的三重挑战

在将 RL 训练从纯文本扩展到全模态、Agentic 场景的过程中,开发者们普遍面临三大困境:

困境一:数据异构。高质量的图片和音视频原始数据体积庞大,CPU 预处理开销高,编码后 token 数量激增,现有的多模态编码器难以与并行策略高效协同。面对小红书内部丰富的多模态应用场景,亟需一个深度定制优化的框架。

困境二:系统脆弱。多模态训练本身就伴随着更高的显存溢出(OOM)风险,叠加千卡规模的长时间训练任务,硬件故障或 NCCL 通信超时等问题随时可能出现。传统方案缺乏分钟级别的故障恢复能力,以及针对单一角色的弹性伸缩支持。

困境三:角色耦合。在 Colocate(同址部署)方案中,RL 训练的不同角色(如 Rollout、Trainer)共享同一组 GPU,只能串行执行。Trainer 必须空闲等待最慢的 Rollout 完成才能开始工作。现有的全异步方案虽然将 Rollout 和 Train 拆分到不同 GPU 组,但仍然缺少细粒度的流水线调度能力,资源利用率仍有提升空间。

技术架构:服务化异步 CO-DESIGN

上述三个挑战紧密耦合,一个局部的优化可能会引入新的瓶颈。因此,协同设计往往比逐个击破更为有效。多模态数据的低效与不稳定,倒逼系统走向服务化隔离与全异步架构,而这又催生了统一的数据总线设计,该总线的结构恰好能天然地适配多模态数据流,从而形成一个自洽的技术闭环。

服务化容错架构:所有角色皆服务

Relax 将每个 RL 角色(如 Actor、Critic、Rollout)都封装为独立的 Ray Serve 部署。每个服务拥有独立的故障域、资源配额和健康监控,由此获得了三个核心能力:

  • 故障隔离:某个 Serve 服务故障(例如 OOM)不会波及其他角色。系统采用两级恢复策略,区分无状态角色(原地重启)和有状态角色(全局恢复),避免因单一角色问题导致整个训练任务重启。
  • 独立伸缩:可以根据需求单独增加某个角色(如 Rollout)的副本数量,而不会影响其他角色集群(如 Critic)的稳定性。
  • 生命周期管理:每个角色从初始化、保存检查点到重启,都在服务级别进行统一管理,不再与全局训练循环的逻辑纠缠不清。

Relax 系统架构图

此外,Relax 提供了 分布式 Checkpoint 服务(DCS) —— 一个独立部署的权重同步服务。DCS 能够以极低的延迟将更新后的模型权重分发给所有推理引擎,使得故障恢复无需回退到磁盘中读取检查点文件。它支持 NCCL(集群内 GPU 到 GPU 直连传输)和 TCP(跨集群传输)双通道,以适应不同的硬件部署拓扑。

分布式检查点服务(DCS)架构图

异步训练流水线

Relax 集成了 TransferQueue(TQ) 作为所有服务之间的异步数据总线。TQ 的字段级存储特性,使得同一个样本的不同字段(如生成结果、log-probs、奖励值)可以在不同时间点独立地写入和读取。这完美匹配了 RL 训练中,不同阶段在不同时间产生不同字段的多阶段计算模式。

基于 TQ,Relax 仅需通过一个 max_staleness 参数即可在 On-Policy 和 Off-Policy 训练模式间自由切换。在全异步模式下,On-Policy 训练相比 Colocate 性能提升 12%,而 Off-Policy 训练则实现了高达 76% 的性能提升。

三种GPU资源调度策略时序图

训练模式性能对比表

这一显著的性能优势主要由两项关键机制驱动:

  1. 流式微批调度(Streaming Micro-Batch Scheduling):传统框架采用全局批次同步,即 Rollout 必须生成完整个批次的所有数据后,才能交付给下游的 Trainer。这就意味着,一个包含 20k token 的长尾样本可能会阻塞整个训练步骤。Relax 将全局批次拆分为多个微批次,每个微批次一旦完成就立即写入 TQ,供下游角色消费,有效消除了瓶颈。
  2. Actor Train 资源分离:将 log-probability (logp) 和 reference log-probability (ref_logp) 的计算部署在独立的 GPU 资源上并行执行。通过异步数据传输,将这部分计算时间完全“掩盖”在主要的训练时间内,实现了零额外等待开销。

全模态与 Agentic 场景原生支持

Relax 原生支持图像、音频、视频等多种模态输入的统一处理与灵活接入。它结合了模态感知的并行策略与端到端的异步流水线,显著提升了多模态训练的效率与可扩展性。在 Qwen3-Omni-30B 模型上的实验表明,无论是基于图文音频混合数据(AVQA-R1-6K)还是纯视频数据(NextQA)进行 RL 训练,奖励都能稳定收敛,其中视频数据持续训练超过 2000 步依然保持稳定。

全模态奖励收敛曲线图

针对 Agentic RL 中的多轮推理、工具调用和搜索增强等复杂场景,Relax 将底层基础设施与上层算法逻辑解耦,支持业务侧灵活敏捷地接入:

  • 自定义 Rollout 与 Reward:支持多轮 Agentic 工作流(例如,每一轮推理都可能接收新的视觉输入)。Rollout 服务会维护会话状态,而 TQ 则独立追踪每一轮产生的字段的就绪状态。奖励计算支持规则奖励、生成式奖励模型(GenRM)和自定义 Reward 接口三种模式。
  • 工具调用(Tool Use):将工具调用作为异步服务调用,无缝融入 Rollout 循环中。

Agentic RL奖励收敛对比图

实验结果

端到端性能:对比 veRL

在 2 机 16 卡配置下的 DAPO-Math 任务上,Relax 相比 veRL 实现了 20% 的端到端提速。这一加速主要来源于:流式微批调度消除了全局批次同步的瓶颈,以及资源分离机制将前向推理计算完全掩盖,从而消除了进程休眠与唤醒的开销。

Relax与veRL端到端性能对比图

(实验配置:Qwen3-30B-A3B / 16×H800 / DAPO-MATH-17k / Megatron-LM + SGLang)

MoE 训练稳定性:Near-Zero-Overhead R3

Relax 实现了一种性能近无损退化版的 R3 机制。在 Qwen3-30B-A3B 混合专家模型上,R3 能够将路由不匹配(mismatch)降低 38%,而仅带来 +1.9% 的额外耗时。相比之下,veRL 开启 R3 后,端到端耗时增加了 34%。Relax 通过重写数据序列化路径(将路由数据从 pickle 序列化通道中剥离,改用 NCCL 原生广播)以及采用 GPU 驻留式的异步传输,使得 R3 的数据传输与重放开销变得极低。

R3正确性与性能对比图

(实验配置:Qwen3-30B-A3B / 16×H800 / DAPO-MATH-17k 上的 2×2 对比实验)

总结与展望

当强化学习训练从纯文本、单轮交互走向全模态、多轮 Agentic 交互的新阶段时,数据异构、系统脆弱、角色耦合这三大挑战不再是能够被孤立解决的独立问题。Relax 给出的答案是一套协同设计的解决方案:全模态原生流水线解决数据异构,服务化隔离与 DCS 快速恢复解决系统脆弱,微批次级全异步流水线解决资源利用率问题——三者因果相连,形成一个完整的技术闭环,缺一不可。

未来,Relax 项目将继续紧密结合公司内部在多模态与 Agentic RL 等方面的实际业务需求,不断完善训练能力与系统优化,以期支撑更大规模、更高复杂度的模型训练任务落地。对于对如何构建高效、鲁棒的强化学习训练系统感兴趣的朋友,可以在 开源实战 板块找到更多相关的项目与深入讨论。




上一篇:日本Fronteo科研风险AI系统解析:KIBIT如何影响国际学术合作
下一篇:立体图像恢复基准数据集M3D-Stereo:实验室构建水下雾霾低光多场景真实数据
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-19 02:45 , Processed in 0.738984 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表