小红书开源大模型强化学习训练引擎Relax完整解析
在通往通用人工智能的征途中,大模型的后训练环节,尤其是强化学习阶段,正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果,更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互,演进到图文音视频的全模态理解,直至具备自主决策与行动能力的智能体。传统的强化学习训练框架,在面对这种多模态、长序列、多轮交互的复杂任务时,往往在训练效率、系统稳定性与架构灵活性方面面临严峻挑战。
近期,小红书AI平台团队开源了一款名为Relax的强化学习训练引擎,正是为了攻克上述核心痛点而生。它不仅仅是一个算法库,更是一套为生产环境设计、面向全模态与智能体场景量身打造的系统级解决方案。简而言之,Relax致力于回答一个关键问题:如何能够高效、稳定且优雅地训练下一代具备“视觉感知”、“听觉理解”、“语言生成”、“逻辑思考”与“自主行动”能力的大模型?
Relax是什么
您可以将Relax理解为一个高度工程化的“训练调度与执行中枢”。它构建于业界广泛认可的Megatron-LM训练框架与SGLang推理引擎之上,但其核心创新在于一套彻底服务化、完全异步的容错系统架构。该架构将强化学习训练中的关键角色——负责与环境交互采样的Rollout模块、负责策略更新的Actor模块、负责价值评估的Critic模块——进行彻底解耦,并封装为独立的微服务。这些服务通过一个名为TransferQueue的异步数据总线进行高效通信,形成了一条精密协作的流水线,各组件并行工作,极大减少了等待时间。
这种设计带来的直接优势是显著消除了训练流程中的瓶颈。想象一下这样的场景:当Critic服务在计算价值函数时,Actor服务无需空闲等待,可以继续处理前一批数据;同时,Rollout服务能够持续不断地从模拟环境中采集新的训练样本。官方验证数据显示,在16张H800 GPU的全异步模式下,Relax相比传统的耦合式训练(Colocate)实现了高达76%的端到端速度提升,相较于另一款主流异步框架veRL也有20%的性能优势。更重要的是,它原生支持文本、图像、音频、视频数据的统一训练流程,并已在Qwen3-Omni-30B这样的前沿模型上成功验证了四模态强化学习的稳定收敛。
Relax的主要功能
为应对现代化大模型训练的复杂需求,Relax集成了一系列强大功能:
- 全模态强化学习训练:提供端到端的统一训练流水线,无缝处理图文音视频多模态数据,是少数经过验证能够支撑如Qwen3-Omni等大型全模态模型稳定进行后训练的开源框架。
- 异步训练架构:其核心的TransferQueue数据总线确保了Rollout、Actor、Critic三大模块完全并行运作,最大化GPU资源利用率,有效杜绝了计算资源的闲置空转。
- 服务化容错机制:每个功能模块均作为独立服务部署,单一组件发生故障不会导致整个训练任务崩溃,系统具备分钟级的自动检测与恢复能力。
- 弹性资源扩缩容:训练过程中,用户可以通过简单的HTTP API动态增加或减少负责数据采样与推理的Rollout服务资源,甚至支持跨集群的任务调度,灵活应对不同训练阶段的负载变化。
- 分布式权重同步:借助专用的分布式一致性服务,实现GPU间通过NCCL或TCP通道进行快速的模型权重广播与同步,在故障恢复时无需从磁盘缓慢加载检查点,极大缩短恢复时间。
- 智能体多轮训练支持:原生为智能体训练场景设计,支持多轮对话状态保持、复杂工具调用、视觉上下文跨轮次传递以及灵活的损失掩码机制,完美适配“感知→决策→执行→观察”的强化学习闭环。
- 丰富算法套件:内置了包括GRPO、GSPO、SAPO及On-Policy Distillation在内的多种前沿强化学习算法,并提供了基于规则与基于生成式奖励模型(GenRM)的两种奖励机制,满足不同训练需求。
Relax的技术原理
Relax卓越性能的背后,是其底层一系列精妙的工程设计:
- 服务化异步架构:这是实现性能飞跃的核心。传统训练模式中,不同角色通常挤在同一组GPU上,容易造成资源争用与相互等待。Relax将其拆分为独立服务,通过流式微批数据传输实现流水线并行,彻底打破了串行执行的瓶颈。
- 全模态数据流水线:内置的Omni Processor能够统一处理不同模态的输入数据。其字段级存储机制允许同一个训练样本中的不同部分(如图像特征、文本Token序列)被独立且高效地读写,这高度契合了强化学习训练多阶段、异构计算的特点。
- 容错与弹性恢复机制:系统采用两级恢复策略。对于无状态服务,故障发生后可直接原地重启;对于有状态服务,则依赖分布式一致性服务进行全局状态的快速同步与恢复。该服务实现了GPU间的直接权重同步,避免了成为性能瓶颈的磁盘IO操作。
- 异步一致性控制:通过一个可配置的
max_staleness参数,开发者可以灵活地在“策略更新新鲜度”和“系统训练吞吐量”之间取得平衡,从而控制训练过程更接近On-Policy还是Off-Policy模式。StreamingDataLoader支持数据的增量消费,使得模型训练与数据加载、权重同步等操作能够重叠进行。
如何使用Relax
对于希望上手实践的研究者或工程师,Relax提供了清晰的入门路径:
- 环境部署:最便捷的方式是直接拉取官方提供的预构建Docker镜像,其中已集成了CUDA、PyTorch、Megatron-LM等所有必要依赖。运行容器时,请确保正确挂载GPU驱动及工作目录。
- 数据与模型准备:使用Hugging Face命令行工具将所需的数据集(例如dapo-math-17k)和预训练基础模型(如Qwen3系列的不同版本)下载到本地环境。
- 启动训练任务:设置好指向数据根目录的环境变量,然后根据具体的任务类型(文本训练、全模态训练)执行对应的启动脚本。例如,进行文本任务训练可使用8卡配置脚本,而进行全模态任务则需调用支持跨节点通信的16卡脚本。
- 模型导出与应用:训练完成后,Relax提供了方便的转换工具,能够将内部使用的Megatron分布式检查点格式,转换为业界通用的Hugging Face模型格式,便于后续的部署与推理应用。
Relax的关键信息和使用要求
在深入使用前,有几个关键信息需要了解:
- 开源主体与时间:该项目由小红书AI平台团队主导开发,并于2026年4月15日正式开源。
- 项目定位与技术底座:它定位为一款高性能的异步强化学习后训练引擎,其技术栈深度集成了Megatron-LM和SGLang。
- 核心系统架构:整体采用清晰的六层服务化设计,从请求入口到分布式计算后端层次分明,其中TransferQueue和分布式一致性服务是其实现异步与容错的核心组件。
- 性能与模态支持:在16张H800 GPU的硬件配置下,其全异步模式展现出显著的性能优势,并且是经过实际验证的、能够支持四模态统一训练的平台。
- 硬件资源门槛:运行Relax有一定的硬件要求。单节点训练至少需要8张H800 GPU(以运行40亿参数模型为例),而进行全模态Omni模型训练则需要16张H800 GPU并跨2个节点部署。当然,其弹性扩缩容特性允许用户根据需求动态调整计算资源。
Relax的核心优势
综合来看,Relax在以下几个维度构建了其独特的竞争优势:
- 全模态原生支持:对图文音视频的统一处理能力并非后期附加,而是在架构设计之初就深度融入,并经过了大规模模型的实证检验。
- 极致异步性能:彻底的组件解耦设计带来了显著的训练效率提升,76%的加速比对于动辄数周甚至数月的模型训练周期而言,意味着巨大的时间与成本节约。
- 生产级容错架构:将微服务的设计理念引入AI训练系统,实现了故障隔离、快速恢复和动态伸缩,极大地提升了大规模训练任务的鲁棒性和运维便利性。
- 智能体原生设计:对多轮交互、复杂工具调用等智能体核心能力的原生支持,使其成为开发高级别自主智能体的理想平台。
- 高效MoE模型支持:对于混合专家模型,其路由重放机制的开销控制得极为出色,相比其他方案具有数量级的效率优势。
- 完备的运维体系:集成了健康状态监控、训练指标上报、实时告警等生产级运维功能,并提供了丰富的API接口用于自动化管理与集成。
Relax的项目地址
- GitHub开源仓库:项目的全部源代码、详细文档和使用示例均托管于此。
- arXiv技术论文:如果您希望深入了解其背后的技术原理、架构细节和完整的实验数据,可以阅读其公开发表的技术论文。
Relax的同类竞品对比
为了更清晰地定位Relax,我们将其与当前社区中两个主流的强化学习训练框架——veRL和OpenRLHF进行对比:
| 对比维度 | Relax | veRL | OpenRLHF |
|---|---|---|---|
| 开发团队 | 小红书 RedAI Infra 团队 | 字节跳动/清华大学/南京大学等联合团队 | 开源社区 (OpenRLHF Labs) |
| 架构设计 | 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 | HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 | Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统 |
| 异步机制 | 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 | 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 | 支持 Colocate 与异步切换,但角色间耦合度高于 Relax |
| 模态支持 | 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 | 主要为文本,多模态支持尚不完善 | 文本为主,OpenRLHF-M 分支支持多模态 |
| 训练后端 | Megatron-LM (TP/PP/CP/EP) | Megatron-LM / FSDP | DeepSpeed |
| 推理后端 | SGLang | vLLM / SGLang | vLLM |
| 容错机制 | 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 | 单控制器统一调度,缺乏服务级隔离,故障需全局重启 | 基于 Ray Actor 容错,无独立服务域设计 |
| 弹性扩缩容 | HTTP REST API 动态扩缩容,支持跨集群联邦推理 | 训练过程固定配置,不支持动态扩缩容 | 支持动态资源调整,但粒度较粗 |
| 性能表现 | 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% | 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 | 支持 70B+ 模型,消费级显卡友好 |
| MoE 支持 | 原生支持,Near-Zero-Overhead R3 | 支持但 R3 开销大(32%) | 支持 |
| Agentic 能力 | 原生支持多轮交互、工具调用、视觉上下文 Carry-over | 基础支持多轮,缺乏服务级会话状态管理 | 基础支持 |
| 适用场景 | 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 | 万亿参数 MoE 模型、极致显存优化 | 70B+ 模型分布式训练、消费级显卡集群 |
从对比中不难看出,Relax在现代系统架构设计、异步执行的彻底性、对多模态与智能体的原生支持,以及生产级运维特性方面,展现出了鲜明的特色与显著优势。
Relax的应用场景
基于其强大的能力,Relax非常适合应用于以下几类前沿任务:
- 全模态大模型后训练与对齐:训练如Qwen3-Omni这类能够统一理解与生成多模态信息的下一代模型,强化其跨模态的推理与内容生成能力。
- 智能体开发与训练:构建能够熟练使用工具、与环境进行复杂多轮交互并自主制定决策的高级智能体,例如需要结合视觉信息进行多步规划的任务型助手。
- 视觉语言任务专项优化:针对视觉问答、图像描述生成、视频内容理解等具体任务,进行精细化的强化学习对齐,以提升模型在特定领域的表现。
- 数学推理与代码生成能力提升:利用其内置的GRPO等先进算法,专项强化大模型在解决复杂数学问题、进行逻辑推理和生成高质量代码方面的性能。
- MoE模型高效训练:为混合专家模型提供高性价比的强化学习训练方案,显著降低因专家路由重放所带来的额外计算开销。
总而言之,Relax的诞生,为业界训练更复杂、更强大的多模态大模型和自主智能体,提供了一个在效率、稳定性和功能完备性上都极具竞争力的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化水平的一次重要探索与实践。
相关攻略
2026年的手机AI工具市场,早已不是简单的语音助手或聊天机器人。它们正深度融入工作流,成为跨应用、跨场景的智能中枢。根据近期全球主流测评机构的数据、开发者社区的调用量统计以及真实用户反馈,我们梳理出当前海外市场最具代表性的十款手机AI工具。它们覆盖了从语音处理、内容生成到图像理解与智能协作等核心能
最近,一则关于“00后”月薪9000元却每月花费5000元购买“秒回师”服务的新闻登上了热搜,让这个新兴职业走进了大众视野。在快节奏的现代生活中,独居、高压、社交圈狭窄已成为许多年轻人的常态。普通社交的滞后性与不确定性,让“被及时听见”本身,变成了一种稀缺资源。 于是,付费的“秒回师”应运而生。从2
AskJeeves搜索引擎于1997年上线,凭借自然语言提问功能一度流行。2006年更名为Ask com后未能扭转颓势,最终因无法与新一代AI工具竞争而宣布永久关闭。其告别页面感谢了开发团队和用户,并称“Jeeves的精神将永远延续”。
2026年3月,一项由复旦大学与MiniMax公司联合完成的突破性研究(论文编号arXiv:2603 11076v1)正式发布。研究团队提出了一种名为DIVE的全新技术,旨在从根本上解决AI智能体在切换不同工具和任务时普遍存在的“水土不服”问题。 当前的AI智能体,某种程度上像一位只会使用特定品牌工
在AI矢量图形生成领域,2024年迎来了一个关键的技术转折点。如果你正在寻找一款能够实现高精度控制、并能直接应用于商业项目的高效工具,那么Recraft的突破性进展绝对值得深入研究。它的核心优势,已经超越了单纯“生成美观图像”的范畴,而是聚焦于几个更为硬核的专业维度:精准的长文本理解与渲染、原生的S
热门专题
热门推荐
人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现
2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策
雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。
《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。
人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。





