IT之家2月28日消息,麻省理工学院新闻网站于2月26日发布研究动态,披露该校联合英伟达等科研机构推出名为“驯服长尾”(TLT)的创新技术,该技术能显著提升大语言模型(LLM)在强化学习训练中的效率表现。
据IT之家引述论文内容指出,大模型擅长通过分步推理处理复杂问题,但在强化学习(RL)训练流程中,其计算资源与能源消耗往往极为庞大。
研究团队发现,生成多个备选答案的“推演”阶段占据了高达85%的训练时长。由于不同处理器生成回复的文本长度存在差异,处理速度较快的处理器常被迫闲置,需要等待其他处理器完成长文本任务,由此形成严重的效率瓶颈。
为解决这一痛点,麻省理工学院研究人员联合英伟达、苏黎世联邦理工学院等机构,共同提出名为“驯服长尾(TLT)”的自适应解决方案。

该方案的核心在于创新性地运用“投机解码”技术,通过训练一个轻量级的“草稿模型”快速预测大模型的未来输出,再由大模型批量验证这些预测结果。这种机制使得大模型无需逐词顺序生成内容,从而大幅加快了整体处理速度。


传统投机解码方案中,草稿模型通常仅训练一次并保持静态参数。但在强化学习场景下,主模型需要经历数千次迭代更新,静态草稿模型会迅速失效。

为此,TLT系统引入了“自适应草稿训练器”。当部分处理器完成短查询任务进入闲置状态时,系统会立即调度它们实时训练草稿模型。同时,“自适应推演引擎”会根据工作负载特征自动调整解码策略,确保草稿模型始终与目标大模型保持高度同步,且不产生额外计算开销。

基于真实世界数据集的测试表明,TLT技术在完全保持模型准确率的前提下,将多个推理大语言模型的训练速度提升了70%至210%。

值得一提的是,训练得到的轻量级草稿模型还可作为免费副产品,直接用于后期的高效部署。研究团队计划将该技术融入更多训练与推理框架,进一步降低AI开发成本并提升能源利用效率。

参考文献
