小红书开源大模型强化学习训练引擎Relax完整解析_AI热点日报

小红书开源大模型强化学习训练引擎Relax完整解析

类型：热点整理2026-05-20

在通往通用人工智能的征途中，大模型的后训练环节，尤其是强化学习阶段，正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果，更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互，演进到图文音视频的全模态理解，直至具备自主决策与行动能力的智能体。传统的强化学习训练框架，在面对这种多模态、长序列

在通往通用人工智能的征途中，大模型的后训练环节，尤其是强化学习阶段，正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果，更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互，演进到图文音视频的全模态理解，直至具备自主决策与行动能力的智能体。传统的强化学习训练框架，在面对这种多模态、长序列、多轮交互的复杂任务时，往往在训练效率、系统稳定性与架构灵活性方面面临严峻挑战。

近期，小红书AI平台团队开源了一款名为Relax的强化学习训练引擎，正是为了攻克上述核心痛点而生。它不仅仅是一个算法库，更是一套为生产环境设计、面向全模态与智能体场景量身打造的系统级解决方案。简而言之，Relax致力于回答一个关键问题：如何能够高效、稳定且优雅地训练下一代具备“视觉感知”、“听觉理解”、“语言生成”、“逻辑思考”与“自主行动”能力的大模型？

Relax是什么

您可以将Relax理解为一个高度工程化的“训练调度与执行中枢”。它构建于业界广泛认可的Megatron-LM训练框架与SGLang推理引擎之上，但其核心创新在于一套彻底服务化、完全异步的容错系统架构。该架构将强化学习训练中的关键角色——负责与环境交互采样的Rollout模块、负责策略更新的Actor模块、负责价值评估的Critic模块——进行彻底解耦，并封装为独立的微服务。这些服务通过一个名为TransferQueue的异步数据总线进行高效通信，形成了一条精密协作的流水线，各组件并行工作，极大减少了等待时间。

这种设计带来的直接优势是显著消除了训练流程中的瓶颈。想象一下这样的场景：当Critic服务在计算价值函数时，Actor服务无需空闲等待，可以继续处理前一批数据；同时，Rollout服务能够持续不断地从模拟环境中采集新的训练样本。官方验证数据显示，在16张H800 GPU的全异步模式下，Relax相比传统的耦合式训练（Colocate）实现了高达76%的端到端速度提升，相较于另一款主流异步框架veRL也有20%的性能优势。更重要的是，它原生支持文本、图像、音频、视频数据的统一训练流程，并已在Qwen3-Omni-30B这样的前沿模型上成功验证了四模态强化学习的稳定收敛。

Relax的主要功能

为应对现代化大模型训练的复杂需求，Relax集成了一系列强大功能：

全模态强化学习训练：提供端到端的统一训练流水线，无缝处理图文音视频多模态数据，是少数经过验证能够支撑如Qwen3-Omni等大型全模态模型稳定进行后训练的开源框架。
异步训练架构：其核心的TransferQueue数据总线确保了Rollout、Actor、Critic三大模块完全并行运作，最大化GPU资源利用率，有效杜绝了计算资源的闲置空转。
服务化容错机制：每个功能模块均作为独立服务部署，单一组件发生故障不会导致整个训练任务崩溃，系统具备分钟级的自动检测与恢复能力。
弹性资源扩缩容：训练过程中，用户可以通过简单的HTTP API动态增加或减少负责数据采样与推理的Rollout服务资源，甚至支持跨集群的任务调度，灵活应对不同训练阶段的负载变化。
分布式权重同步：借助专用的分布式一致性服务，实现GPU间通过NCCL或TCP通道进行快速的模型权重广播与同步，在故障恢复时无需从磁盘缓慢加载检查点，极大缩短恢复时间。
智能体多轮训练支持：原生为智能体训练场景设计，支持多轮对话状态保持、复杂工具调用、视觉上下文跨轮次传递以及灵活的损失掩码机制，完美适配“感知→决策→执行→观察”的强化学习闭环。
丰富算法套件：内置了包括GRPO、GSPO、SAPO及On-Policy Distillation在内的多种前沿强化学习算法，并提供了基于规则与基于生成式奖励模型（GenRM）的两种奖励机制，满足不同训练需求。

Relax的技术原理

Relax卓越性能的背后，是其底层一系列精妙的工程设计：

服务化异步架构：这是实现性能飞跃的核心。传统训练模式中，不同角色通常挤在同一组GPU上，容易造成资源争用与相互等待。Relax将其拆分为独立服务，通过流式微批数据传输实现流水线并行，彻底打破了串行执行的瓶颈。
全模态数据流水线：内置的Omni Processor能够统一处理不同模态的输入数据。其字段级存储机制允许同一个训练样本中的不同部分（如图像特征、文本Token序列）被独立且高效地读写，这高度契合了强化学习训练多阶段、异构计算的特点。
容错与弹性恢复机制：系统采用两级恢复策略。对于无状态服务，故障发生后可直接原地重启；对于有状态服务，则依赖分布式一致性服务进行全局状态的快速同步与恢复。该服务实现了GPU间的直接权重同步，避免了成为性能瓶颈的磁盘IO操作。
异步一致性控制：通过一个可配置的max_staleness参数，开发者可以灵活地在“策略更新新鲜度”和“系统训练吞吐量”之间取得平衡，从而控制训练过程更接近On-Policy还是Off-Policy模式。StreamingDataLoader支持数据的增量消费，使得模型训练与数据加载、权重同步等操作能够重叠进行。

如何使用Relax

对于希望上手实践的研究者或工程师，Relax提供了清晰的入门路径：

环境部署：最便捷的方式是直接拉取官方提供的预构建Docker镜像，其中已集成了CUDA、PyTorch、Megatron-LM等所有必要依赖。运行容器时，请确保正确挂载GPU驱动及工作目录。
数据与模型准备：使用Hugging Face命令行工具将所需的数据集（例如dapo-math-17k）和预训练基础模型（如Qwen3系列的不同版本）下载到本地环境。
启动训练任务：设置好指向数据根目录的环境变量，然后根据具体的任务类型（文本训练、全模态训练）执行对应的启动脚本。例如，进行文本任务训练可使用8卡配置脚本，而进行全模态任务则需调用支持跨节点通信的16卡脚本。
模型导出与应用：训练完成后，Relax提供了方便的转换工具，能够将内部使用的Megatron分布式检查点格式，转换为业界通用的Hugging Face模型格式，便于后续的部署与推理应用。

Relax的关键信息和使用要求

在深入使用前，有几个关键信息需要了解：

开源主体与时间：该项目由小红书AI平台团队主导开发，并于2026年4月15日正式开源。
项目定位与技术底座：它定位为一款高性能的异步强化学习后训练引擎，其技术栈深度集成了Megatron-LM和SGLang。
核心系统架构：整体采用清晰的六层服务化设计，从请求入口到分布式计算后端层次分明，其中TransferQueue和分布式一致性服务是其实现异步与容错的核心组件。
性能与模态支持：在16张H800 GPU的硬件配置下，其全异步模式展现出显著的性能优势，并且是经过实际验证的、能够支持四模态统一训练的平台。
硬件资源门槛：运行Relax有一定的硬件要求。单节点训练至少需要8张H800 GPU（以运行40亿参数模型为例），而进行全模态Omni模型训练则需要16张H800 GPU并跨2个节点部署。当然，其弹性扩缩容特性允许用户根据需求动态调整计算资源。

Relax的核心优势

综合来看，Relax在以下几个维度构建了其独特的竞争优势：

全模态原生支持：对图文音视频的统一处理能力并非后期附加，而是在架构设计之初就深度融入，并经过了大规模模型的实证检验。
极致异步性能：彻底的组件解耦设计带来了显著的训练效率提升，76%的加速比对于动辄数周甚至数月的模型训练周期而言，意味着巨大的时间与成本节约。
生产级容错架构：将微服务的设计理念引入AI训练系统，实现了故障隔离、快速恢复和动态伸缩，极大地提升了大规模训练任务的鲁棒性和运维便利性。
智能体原生设计：对多轮交互、复杂工具调用等智能体核心能力的原生支持，使其成为开发高级别自主智能体的理想平台。
高效MoE模型支持：对于混合专家模型，其路由重放机制的开销控制得极为出色，相比其他方案具有数量级的效率优势。
完备的运维体系：集成了健康状态监控、训练指标上报、实时告警等生产级运维功能，并提供了丰富的API接口用于自动化管理与集成。

Relax的项目地址

GitHub开源仓库：项目的全部源代码、详细文档和使用示例均托管于此。
arXiv技术论文：如果您希望深入了解其背后的技术原理、架构细节和完整的实验数据，可以阅读其公开发表的技术论文。

Relax的同类竞品对比

为了更清晰地定位Relax，我们将其与当前社区中两个主流的强化学习训练框架——veRL和OpenRLHF进行对比：

对比维度	Relax	veRL	OpenRLHF
开发团队	小红书 RedAI Infra 团队	字节跳动/清华大学/南京大学等联合团队	开源社区 (OpenRLHF Labs)
架构设计	服务化六层架构，Ray Serve 独立部署，TransferQueue 异步数据总线	HybridFlow 混合编程，3D-HybridEngine 显存原地复用，生成与训练默认耦合	Ray Placement Groups 调度，支持 Colocate/异步模式切换，架构相对传统
异步机制	完全异步解耦，Rollout/Actor/Critic 独立 GPU 集群，流式微批调度	支持分离与 Colocate，但缺乏细粒度流水线调度，Rollout 与 Train 存在同步点	支持 Colocate 与异步切换，但角色间耦合度高于 Relax
模态支持	全模态原生（文本/图像/音频/视频），验证 Qwen3-Omni 端到端训练	主要为文本，多模态支持尚不完善	文本为主，OpenRLHF-M 分支支持多模态
训练后端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理后端	SGLang	vLLM / SGLang	vLLM
容错机制	服务级故障隔离，DCS 秒级权重同步，分钟级自动恢复，无需回退磁盘	单控制器统一调度，缺乏服务级隔离，故障需全局重启	基于 Ray Actor 容错，无独立服务域设计
弹性扩缩容	HTTP REST API 动态扩缩容，支持跨集群联邦推理	训练过程固定配置，不支持动态扩缩容	支持动态资源调整，但粒度较粗
性能表现	16×H800 较 veRL 提速 20%，较 Colocate 提速 76%，R3 开销仅 1.9%	全异步较 Colocate 提速 5.2×，但 R3 开销 32%，故障恢复慢	支持 70B+ 模型，消费级显卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 开销大（32%）	支持
Agentic 能力	原生支持多轮交互、工具调用、视觉上下文 Carry-over	基础支持多轮，缺乏服务级会话状态管理	基础支持
适用场景	超大规模 Omni 模型 Agentic 训练、生产级高可用场景	万亿参数 MoE 模型、极致显存优化	70B+ 模型分布式训练、消费级显卡集群

从对比中不难看出，Relax在现代系统架构设计、异步执行的彻底性、对多模态与智能体的原生支持，以及生产级运维特性方面，展现出了鲜明的特色与显著优势。

Relax的应用场景

基于其强大的能力，Relax非常适合应用于以下几类前沿任务：

全模态大模型后训练与对齐：训练如Qwen3-Omni这类能够统一理解与生成多模态信息的下一代模型，强化其跨模态的推理与内容生成能力。
智能体开发与训练：构建能够熟练使用工具、与环境进行复杂多轮交互并自主制定决策的高级智能体，例如需要结合视觉信息进行多步规划的任务型助手。
视觉语言任务专项优化：针对视觉问答、图像描述生成、视频内容理解等具体任务，进行精细化的强化学习对齐，以提升模型在特定领域的表现。
数学推理与代码生成能力提升：利用其内置的GRPO等先进算法，专项强化大模型在解决复杂数学问题、进行逻辑推理和生成高质量代码方面的性能。
MoE模型高效训练：为混合专家模型提供高性价比的强化学习训练方案，显著降低因专家路由重放所带来的额外计算开销。

总而言之，Relax的诞生，为业界训练更复杂、更强大的多模态大模型和自主智能体，提供了一个在效率、稳定性和功能完备性上都极具竞争力的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化水平的一次重要探索与实践。

来源：https://ai-bot.cn/relax/

ai工具

延伸阅读

补充最近整理过的热点入口。