首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
小红书开源大模型强化学习训练引擎Relax完整解析

小红书开源大模型强化学习训练引擎Relax完整解析

热心网友
94
转载
2026-05-20

在通往通用人工智能的征途中,大模型的后训练环节,尤其是强化学习阶段,正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果,更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互,演进到图文音视频的全模态理解,直至具备自主决策与行动能力的智能体。传统的强化学习训练框架,在面对这种多模态、长序列、多轮交互的复杂任务时,往往在训练效率、系统稳定性与架构灵活性方面面临严峻挑战。

近期,小红书AI平台团队开源了一款名为Relax的强化学习训练引擎,正是为了攻克上述核心痛点而生。它不仅仅是一个算法库,更是一套为生产环境设计、面向全模态与智能体场景量身打造的系统级解决方案。简而言之,Relax致力于回答一个关键问题:如何能够高效、稳定且优雅地训练下一代具备“视觉感知”、“听觉理解”、“语言生成”、“逻辑思考”与“自主行动”能力的大模型?

Relax是什么

您可以将Relax理解为一个高度工程化的“训练调度与执行中枢”。它构建于业界广泛认可的Megatron-LM训练框架与SGLang推理引擎之上,但其核心创新在于一套彻底服务化、完全异步的容错系统架构。该架构将强化学习训练中的关键角色——负责与环境交互采样的Rollout模块、负责策略更新的Actor模块、负责价值评估的Critic模块——进行彻底解耦,并封装为独立的微服务。这些服务通过一个名为TransferQueue的异步数据总线进行高效通信,形成了一条精密协作的流水线,各组件并行工作,极大减少了等待时间。

这种设计带来的直接优势是显著消除了训练流程中的瓶颈。想象一下这样的场景:当Critic服务在计算价值函数时,Actor服务无需空闲等待,可以继续处理前一批数据;同时,Rollout服务能够持续不断地从模拟环境中采集新的训练样本。官方验证数据显示,在16张H800 GPU的全异步模式下,Relax相比传统的耦合式训练(Colocate)实现了高达76%的端到端速度提升,相较于另一款主流异步框架veRL也有20%的性能优势。更重要的是,它原生支持文本、图像、音频、视频数据的统一训练流程,并已在Qwen3-Omni-30B这样的前沿模型上成功验证了四模态强化学习的稳定收敛。

Relax – 小红书开源的大模型强化学习训练引擎

Relax的主要功能

为应对现代化大模型训练的复杂需求,Relax集成了一系列强大功能:

  • 全模态强化学习训练:提供端到端的统一训练流水线,无缝处理图文音视频多模态数据,是少数经过验证能够支撑如Qwen3-Omni等大型全模态模型稳定进行后训练的开源框架。
  • 异步训练架构:其核心的TransferQueue数据总线确保了Rollout、Actor、Critic三大模块完全并行运作,最大化GPU资源利用率,有效杜绝了计算资源的闲置空转。
  • 服务化容错机制:每个功能模块均作为独立服务部署,单一组件发生故障不会导致整个训练任务崩溃,系统具备分钟级的自动检测与恢复能力。
  • 弹性资源扩缩容:训练过程中,用户可以通过简单的HTTP API动态增加或减少负责数据采样与推理的Rollout服务资源,甚至支持跨集群的任务调度,灵活应对不同训练阶段的负载变化。
  • 分布式权重同步:借助专用的分布式一致性服务,实现GPU间通过NCCL或TCP通道进行快速的模型权重广播与同步,在故障恢复时无需从磁盘缓慢加载检查点,极大缩短恢复时间。
  • 智能体多轮训练支持:原生为智能体训练场景设计,支持多轮对话状态保持、复杂工具调用、视觉上下文跨轮次传递以及灵活的损失掩码机制,完美适配“感知→决策→执行→观察”的强化学习闭环。
  • 丰富算法套件:内置了包括GRPO、GSPO、SAPO及On-Policy Distillation在内的多种前沿强化学习算法,并提供了基于规则与基于生成式奖励模型(GenRM)的两种奖励机制,满足不同训练需求。

Relax的技术原理

Relax卓越性能的背后,是其底层一系列精妙的工程设计:

  • 服务化异步架构:这是实现性能飞跃的核心。传统训练模式中,不同角色通常挤在同一组GPU上,容易造成资源争用与相互等待。Relax将其拆分为独立服务,通过流式微批数据传输实现流水线并行,彻底打破了串行执行的瓶颈。
  • 全模态数据流水线:内置的Omni Processor能够统一处理不同模态的输入数据。其字段级存储机制允许同一个训练样本中的不同部分(如图像特征、文本Token序列)被独立且高效地读写,这高度契合了强化学习训练多阶段、异构计算的特点。
  • 容错与弹性恢复机制:系统采用两级恢复策略。对于无状态服务,故障发生后可直接原地重启;对于有状态服务,则依赖分布式一致性服务进行全局状态的快速同步与恢复。该服务实现了GPU间的直接权重同步,避免了成为性能瓶颈的磁盘IO操作。
  • 异步一致性控制:通过一个可配置的max_staleness参数,开发者可以灵活地在“策略更新新鲜度”和“系统训练吞吐量”之间取得平衡,从而控制训练过程更接近On-Policy还是Off-Policy模式。StreamingDataLoader支持数据的增量消费,使得模型训练与数据加载、权重同步等操作能够重叠进行。

如何使用Relax

对于希望上手实践的研究者或工程师,Relax提供了清晰的入门路径:

  • 环境部署:最便捷的方式是直接拉取官方提供的预构建Docker镜像,其中已集成了CUDA、PyTorch、Megatron-LM等所有必要依赖。运行容器时,请确保正确挂载GPU驱动及工作目录。
  • 数据与模型准备:使用Hugging Face命令行工具将所需的数据集(例如dapo-math-17k)和预训练基础模型(如Qwen3系列的不同版本)下载到本地环境。
  • 启动训练任务:设置好指向数据根目录的环境变量,然后根据具体的任务类型(文本训练、全模态训练)执行对应的启动脚本。例如,进行文本任务训练可使用8卡配置脚本,而进行全模态任务则需调用支持跨节点通信的16卡脚本。
  • 模型导出与应用:训练完成后,Relax提供了方便的转换工具,能够将内部使用的Megatron分布式检查点格式,转换为业界通用的Hugging Face模型格式,便于后续的部署与推理应用。

Relax的关键信息和使用要求

在深入使用前,有几个关键信息需要了解:

  • 开源主体与时间:该项目由小红书AI平台团队主导开发,并于2026年4月15日正式开源。
  • 项目定位与技术底座:它定位为一款高性能的异步强化学习后训练引擎,其技术栈深度集成了Megatron-LM和SGLang。
  • 核心系统架构:整体采用清晰的六层服务化设计,从请求入口到分布式计算后端层次分明,其中TransferQueue和分布式一致性服务是其实现异步与容错的核心组件。
  • 性能与模态支持:在16张H800 GPU的硬件配置下,其全异步模式展现出显著的性能优势,并且是经过实际验证的、能够支持四模态统一训练的平台。
  • 硬件资源门槛:运行Relax有一定的硬件要求。单节点训练至少需要8张H800 GPU(以运行40亿参数模型为例),而进行全模态Omni模型训练则需要16张H800 GPU并跨2个节点部署。当然,其弹性扩缩容特性允许用户根据需求动态调整计算资源。

Relax的核心优势

综合来看,Relax在以下几个维度构建了其独特的竞争优势:

  • 全模态原生支持:对图文音视频的统一处理能力并非后期附加,而是在架构设计之初就深度融入,并经过了大规模模型的实证检验。
  • 极致异步性能:彻底的组件解耦设计带来了显著的训练效率提升,76%的加速比对于动辄数周甚至数月的模型训练周期而言,意味着巨大的时间与成本节约。
  • 生产级容错架构:将微服务的设计理念引入AI训练系统,实现了故障隔离、快速恢复和动态伸缩,极大地提升了大规模训练任务的鲁棒性和运维便利性。
  • 智能体原生设计:对多轮交互、复杂工具调用等智能体核心能力的原生支持,使其成为开发高级别自主智能体的理想平台。
  • 高效MoE模型支持:对于混合专家模型,其路由重放机制的开销控制得极为出色,相比其他方案具有数量级的效率优势。
  • 完备的运维体系:集成了健康状态监控、训练指标上报、实时告警等生产级运维功能,并提供了丰富的API接口用于自动化管理与集成。

Relax的项目地址

  • GitHub开源仓库:项目的全部源代码、详细文档和使用示例均托管于此。
  • arXiv技术论文:如果您希望深入了解其背后的技术原理、架构细节和完整的实验数据,可以阅读其公开发表的技术论文。

Relax的同类竞品对比

为了更清晰地定位Relax,我们将其与当前社区中两个主流的强化学习训练框架——veRL和OpenRLHF进行对比:

对比维度 Relax veRL OpenRLHF
开发团队 小红书 RedAI Infra 团队 字节跳动/清华大学/南京大学等联合团队 开源社区 (OpenRLHF Labs)
架构设计 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统
异步机制 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 支持 Colocate 与异步切换,但角色间耦合度高于 Relax
模态支持 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 主要为文本,多模态支持尚不完善 文本为主,OpenRLHF-M 分支支持多模态
训练后端 Megatron-LM (TP/PP/CP/EP) Megatron-LM / FSDP DeepSpeed
推理后端 SGLang vLLM / SGLang vLLM
容错机制 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 单控制器统一调度,缺乏服务级隔离,故障需全局重启 基于 Ray Actor 容错,无独立服务域设计
弹性扩缩容 HTTP REST API 动态扩缩容,支持跨集群联邦推理 训练过程固定配置,不支持动态扩缩容 支持动态资源调整,但粒度较粗
性能表现 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 支持 70B+ 模型,消费级显卡友好
MoE 支持 原生支持,Near-Zero-Overhead R3 支持但 R3 开销大(32%) 支持
Agentic 能力 原生支持多轮交互、工具调用、视觉上下文 Carry-over 基础支持多轮,缺乏服务级会话状态管理 基础支持
适用场景 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 万亿参数 MoE 模型、极致显存优化 70B+ 模型分布式训练、消费级显卡集群

从对比中不难看出,Relax在现代系统架构设计、异步执行的彻底性、对多模态与智能体的原生支持,以及生产级运维特性方面,展现出了鲜明的特色与显著优势。

Relax的应用场景

基于其强大的能力,Relax非常适合应用于以下几类前沿任务:

  • 全模态大模型后训练与对齐:训练如Qwen3-Omni这类能够统一理解与生成多模态信息的下一代模型,强化其跨模态的推理与内容生成能力。
  • 智能体开发与训练:构建能够熟练使用工具、与环境进行复杂多轮交互并自主制定决策的高级智能体,例如需要结合视觉信息进行多步规划的任务型助手。
  • 视觉语言任务专项优化:针对视觉问答、图像描述生成、视频内容理解等具体任务,进行精细化的强化学习对齐,以提升模型在特定领域的表现。
  • 数学推理与代码生成能力提升:利用其内置的GRPO等先进算法,专项强化大模型在解决复杂数学问题、进行逻辑推理和生成高质量代码方面的性能。
  • MoE模型高效训练:为混合专家模型提供高性价比的强化学习训练方案,显著降低因专家路由重放所带来的额外计算开销。

总而言之,Relax的诞生,为业界训练更复杂、更强大的多模态大模型和自主智能体,提供了一个在效率、稳定性和功能完备性上都极具竞争力的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化水平的一次重要探索与实践。

来源:https://ai-bot.cn/relax/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年国外手机AI工具排行榜前十名盘点
AI资讯
2026年国外手机AI工具排行榜前十名盘点

2026年的手机AI工具市场,早已不是简单的语音助手或聊天机器人。它们正深度融入工作流,成为跨应用、跨场景的智能中枢。根据近期全球主流测评机构的数据、开发者社区的调用量统计以及真实用户反馈,我们梳理出当前海外市场最具代表性的十款手机AI工具。它们覆盖了从语音处理、内容生成到图像理解与智能协作等核心能

热心网友
05.18
年轻人孤独催生秒回师职业月入过万
业界动态
年轻人孤独催生秒回师职业月入过万

最近,一则关于“00后”月薪9000元却每月花费5000元购买“秒回师”服务的新闻登上了热搜,让这个新兴职业走进了大众视野。在快节奏的现代生活中,独居、高压、社交圈狭窄已成为许多年轻人的常态。普通社交的滞后性与不确定性,让“被及时听见”本身,变成了一种稀缺资源。 于是,付费的“秒回师”应运而生。从2

热心网友
05.17
Ask Jeeves搜索服务正式关闭,AI工具崛起成主因
AI资讯
Ask Jeeves搜索服务正式关闭,AI工具崛起成主因

AskJeeves搜索引擎于1997年上线,凭借自然语言提问功能一度流行。2006年更名为Ask com后未能扭转颓势,最终因无法与新一代AI工具竞争而宣布永久关闭。其告别页面感谢了开发团队和用户,并称“Jeeves的精神将永远延续”。

热心网友
05.14
复旦大学DIVE技术突破AI工具使用瓶颈实现跨领域智能适配
AI资讯
复旦大学DIVE技术突破AI工具使用瓶颈实现跨领域智能适配

2026年3月,一项由复旦大学与MiniMax公司联合完成的突破性研究(论文编号arXiv:2603 11076v1)正式发布。研究团队提出了一种名为DIVE的全新技术,旨在从根本上解决AI智能体在切换不同工具和任务时普遍存在的“水土不服”问题。 当前的AI智能体,某种程度上像一位只会使用特定品牌工

热心网友
05.14
2026年AI矢量绘图工具Recraft的独特优势与超越之道
AI资讯
2026年AI矢量绘图工具Recraft的独特优势与超越之道

在AI矢量图形生成领域,2024年迎来了一个关键的技术转折点。如果你正在寻找一款能够实现高精度控制、并能直接应用于商业项目的高效工具,那么Recraft的突破性进展绝对值得深入研究。它的核心优势,已经超越了单纯“生成美观图像”的范畴,而是聚焦于几个更为硬核的专业维度:精准的长文本理解与渲染、原生的S

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI文档助手理想编审选择指南
AI教程
AI文档助手理想编审选择指南

人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现

热心网友
05.20
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
AI资讯
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式

2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策

热心网友
05.20
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售
科技数码
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售

雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。

热心网友
05.20
极限竞速地平线6评测 开放世界赛车游戏进化详解
科技数码
极限竞速地平线6评测 开放世界赛车游戏进化详解

《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。

热心网友
05.20
AI表格制作教程:零基础一键生成动态数据图表
AI教程
AI表格制作教程:零基础一键生成动态数据图表

人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。

热心网友
05.20