近日,字节跳动豆包大模型团队与香港大学联合发布了一项备受关注的技术突破——HybridFlow(开源项目代号:veRL)。这是一款专为大模型强化学习(RL)训练量身打造的训练框架,在灵活性与运算效率方面均表现优异。
根据官方技术介绍,HybridFlow 能够无缝兼容多种训练与推理框架,支持模型灵活部署,并覆盖多种 RL 算法的实现。其底层采用混合编程模型,将单控制器(Single-Controller)的灵活调度能力与多控制器(Multi-Controller)的高效并行特性融为一体。这一设计使得各类 RL 算法的开发与执行更加流畅,训练吞吐量获得显著提升,同时大幅降低了系统开发与运维的复杂性。

▲ 3D-HybridEngine(训练推理混合引擎)单次迭代工作流程示意
实测数据充分验证了该框架的性能优势:在不同模型规模及 RL 算法场景下,HybridFlow 的训练吞吐量相比同类框架提升了 1.5 倍至 20 倍,性能差距十分显著。
目前,该项研究论文已被 EuroSys 2025 正式收录,相关代码也已全面开源。欢迎感兴趣的开发者直接查阅论文或访问代码仓库:
