2026年4月15日,小红书AI平台团队宣布了一项重磅开源举措:正式对外发布Relax——一个专为多模态大模型与智能体(Agent)场景深度优化的强化学习训练引擎。该引擎原生支持文本、图像、音频、视频的全模态统一训练与推理,并凭借其创新的核心调度机制,显著优化了训练效率与资源利用率,精准切入当前人工智能领域最核心的技术赛道。此举彻底刷新了行业对小红书仅作为内容平台的固有认知,展现了其深厚的技术储备。
提及小红书,公众的普遍印象仍停留在其活跃的生活方式分享社区,其AI能力也多与内容推荐算法、图文生成等应用层技术相关联。鲜少有人将其与底层大模型训练框架这类“硬核”基础设施技术划上等号。此次Relax引擎的悄然开源,无异于将小红书在AI底层技术栈的长期积累公之于众,迫使业界重新评估其综合技术实力与产业定位。
必须认识到,当前全球人工智能发展的主流共识已非常明确:多模态与智能体(Agent)是推动下一代AI实现规模化产业落地的关键方向。与早期仅处理文本的单模态大语言模型(LLM)截然不同,面向多模态的智能体需要高效协调和处理图文、音频、视频等异构数据的联合训练与复杂推理,这对底层训练框架的资源调度与并行计算能力提出了前所未有的挑战。
行业痛点也正源于此。长期以来,市面主流的开源训练引擎大多为纯文本大模型设计,当面对多模态场景下差异巨大的计算图、内存占用与通信模式时,往往出现“水土不服”,导致GPU算力利用率低下、训练周期漫长,成为众多团队研发高性能多模态模型时难以逾越的工程障碍。
那么,Relax训练引擎是如何解决这些核心难题的呢?其设计精髓在于两项直击行业痛点的关键技术机制。
首当其冲的是模态感知并行机制。该机制使引擎能够动态感知不同输入模态(例如高分辨率图像与长序列文本)的计算特性与资源需求,从而在GPU集群中进行智能、自适应的资源分配与任务调度。这如同一位经验丰富的指挥家,能依据每种乐器的演奏特点来协调整个乐团,从根本上解决了因模态差异导致的算力分配不均与资源闲置问题。
另一项核心技术是端到端异步流水机制。该技术通过对传统训练流水线进行异步化重构,实现了数据加载、预处理、前向计算、反向传播等环节的高度重叠执行,极大减少了各计算单元因等待数据而产生的空闲时间。可以将其类比为一条经过精益优化的智能生产线,当前序工序仍在进行时,后续工序的准备工作已同步启动,从而实现了训练吞吐量的显著提升。
这两大机制协同工作,共同攻克了多模态大模型训练中的效率瓶颈,大幅提升了训练过程的可扩展性与稳定性。对于致力于开发大规模多模态AI模型的团队而言,Relax提供了一个经过真实业务场景验证、具备极高工程实用价值的解决方案。
尤其值得关注的是,小红书并非传统的AI基础设施提供商。它选择将内部经过海量多模态数据锤炼而成的训练引擎开源,这一战略动作释放出多重信号:其一,依托平台每日产生的数十亿级多模态内容,小红书自身的大模型底层训练体系已臻成熟,其技术能力已从内部应用走向对外赋能阶段;其二,通过开源核心基础设施,小红书正以技术贡献者的角色,积极融入并塑造AI基础层的生态格局。
展望未来,随着多模态智能体应用落地进程的不断加速,业界必将持续关注:小红书是否会以Relax技术栈为基石,进一步推出面向商业化的上层AI产品或服务,从而构建起从底层基础设施到上层应用的全栈AI生态?这个问题的演进,很可能将重新定义小红书在下一代人工智能产业竞争中的战略角色与价值。
