美团AI攻克训练难题：实现均衡稳定智能问答_AI热点日报

美团AI攻克训练难题：实现均衡稳定智能问答

类型：热点整理2026-05-12

与ChatGPT这类大模型对话时，你是否留意过一种现象？有时它的回答详尽周到，有时却惜字如金。这看似随机的表现差异，背后其实指向了人工智能训练过程中一个长期被忽视的技术症结。近期，美团研究团队的一项工作，不仅精准定位了问题的根源，更提出了一套简洁而有效的解决方案。不妨将这个过程比作教导学生写作。传

美团破解AI训练中的

与ChatGPT这类大模型对话时，你是否留意过一种现象？有时它的回答详尽周到，有时却惜字如金。这看似随机的表现差异，背后其实指向了人工智能训练过程中一个长期被忽视的技术症结。近期，美团研究团队的一项工作，不仅精准定位了问题的根源，更提出了一套简洁而有效的解决方案。

不妨将这个过程比作教导学生写作。传统的主流AI训练方法，就好比一位评分标准飘忽不定的老师：当学生答案正确时，他倾向于给简洁的答案打高分；可一旦答案出错，他反而对冗长的错误答案更加宽容。这种“看长度下菜碟”的评判方式，最终只会让AI模型陷入困惑——到底该写长还是写短？

问题的核心，出在当下主流的“强化学习”训练范式上。无论是GRPO还是GSPO算法，它们在评估答案质量时，都潜藏着一个微妙的偏见：评估结果会受到答案长度本身的干扰。这就好比裁判打分时，不仅看动作完成度，还暗中计较运动员的身高，显然有失公允。

美团团队通过深入剖析发现，这一偏见的数学根源在于算法损失函数的设计缺陷。其中，GSPO算法引发的“回答长度坍塌”现象尤为显著——随着训练推进，模型的输出会变得越来越短，其深度推理能力也随之被削弱。

一、为什么回答长度如此重要？

要理解长度的重要性，得先看看AI是如何“思考”复杂问题的。面对一道数学难题，人类需要在草稿纸上一步步推导；同理，AI处理复杂推理任务时，也需要在“思维链”中展开其逻辑过程。这个过程必然体现为更长的文本序列，其中包含了问题解析、思路推演、具体计算和结果校验等多个环节。

然而，传统训练方法在评估这类长答案时，存在系统性的偏差。研究发现，GRPO算法在处理正确答案时，会不自觉地奖励更短的表达；而在处理错误答案时，却对较长的错误更为宽容。这种矛盾的标准，如同一个不断摇摆的天平，无法为AI提供清晰稳定的学习信号。

GSPO算法的问题则更为严峻。其采用的“序列级裁剪”机制，会丢弃大量训练样本，且由于“裁剪更高”策略的影响，负面样本（错误答案）被剔除的比例更高。这种不平衡进一步放大了长度偏见，导致模型在训练中不断“缩水”，答案越来越短。

实验数据清晰地揭示了这一趋势。在相同条件下，使用GRPO训练的模型，其回答长度会缓慢增长；而使用GSPO训练的模型，回答长度则从最初的400多个词急剧萎缩至200多个词。这种“坍塌”不仅仅是字数的减少，更意味着模型丧失了进行复杂、逐步推理的物理空间与逻辑能力。

二、LUSPO方法的巧妙设计

针对这一根本性缺陷，美团团队提出了名为“长度无偏序列策略优化”（LUSPO）的新方法。其核心思想极具工程美感：在计算每个答案序列的损失时，简单地乘以该序列的长度本身。

这个调整看似轻巧，效果却堪称四两拨千斤。它确保了长答案和短答案在训练过程中拥有平等的“话语权”，从根本上抹去了原有算法中潜藏的长度偏见。从数学视角看，原有GSPO方法中，长答案里每个词对整体损失的贡献被平均化了，导致其影响力被稀释。而LUSPO通过引入长度因子，恰好抵消了这种稀释效应，使得每个词的贡献权重变得均匀。

研究团队通过严谨的数学推导证实了这一调整的合理性。对比LUSPO与GSPO的梯度公式可以清晰看到，GSPO中包含一个隐含的长度归一化项，这正是偏见的源头。LUSPO则通过显式的乘法操作，精准地移除了这个干扰项。这种设计的妙处在于，它没有推翻重来，而是通过一个精准的“微创手术”，便解决了系统的结构性问题。

三、实验验证：从理论到实践的完美转化

为了验证LUSPO的普适性与有效性，研究团队设计了一套涵盖多模型、多任务的全面实验。这好比在多种气候与土壤条件下测试新稻种，以确证其广泛的适应性。

实验模型包括Qwen2.5-7B-Base这类密集型模型，也涵盖了Qwen3-30B-A3B-Instruct这样的混合专家模型，以及能处理图文的多模态模型Qwen2.5-VL-7B-Instruct。

在数学推理任务上，LUSPO展现出了明确优势。在AMC23、AIME24、AIME25等标准数学竞赛题测试中，采用LUSPO训练的模型表现均优于GSPO基线。例如，Qwen2.5-7B-Base模型在AIME24任务上准确率提升2.9%，在MATH500任务上提升7.4%。在AI领域，几个百分点的提升往往意味着性能阶层的跨越。

更具说服力的是，在参数规模更大、结构更复杂的Qwen3-30B-A3B-Instruct混合专家模型上，LUSPO的优势被进一步放大：在AIME24和AIME25任务上，准确率分别提升6.9%和17.1%。

在多模态推理任务上，LUSPO同样表现稳健。在MathVista-mini、MathVision等需要图文理解的复杂任务中，LUSPO不仅超越了GSPO，甚至在部分任务上也优于GRPO。特别是在考验逻辑推理的WeMath和LogicVista任务上，LUSPO分别带来了5.1%和6.0%的准确率提升。

四、训练动态：看得见的改善过程

观察训练过程中的指标变化，能更直观地感受LUSPO带来的积极影响。最显著的变化体现在回答长度上。使用GSPO训练时，Qwen2.5-VL-7B-Instruct模型的平均回答长度从450词骤降至200多词，呈现典型的坍塌曲线。而使用LUSPO时，长度不仅未降，反而稳步上升至500词以上并保持稳定。

准确率的提升曲线同样令人振奋。在整个训练周期内，使用LUSPO的模型在准确率上始终领先，且提升过程平稳持续，未见波动或倒退，这表明新方法提供了更优且更稳定的学习环境。

在验证集上的表现证实了其良好的泛化能力。模型在未见过的AIME24测试题上持续保持优势，说明其提升并非对训练数据的过拟合。

平均回答长度的数据对比更具冲击力：在Qwen2.5-7B-Base模型上，LUSPO将平均回答长度从GSPO的2611字符提升至3940字符，增幅超50%。在更大的Qwen3-30B-A3B-Instruct模型上，这一差距从6757字符拉大到11014字符，近乎翻倍。

五、深层原理：为什么LUSPO如此有效？

LUSPO的成功并非偶然，其背后有坚实的理论支撑。可以将AI的训练过程想象为一个生态系统：不同长度的回答如同不同的物种。在原有的GSPO生态中，规则有利于“短平快”的物种繁殖，而需要更多资源、承载更复杂信息的“长答案”物种则生存空间被挤压，导致生态系统趋向单一和贫瘠。

LUSPO的调整，相当于为所有物种建立了公平的竞争规则。通过赋予每个答案与其长度成比例的“营养”（梯度更新），它确保了长短答案都能获得适宜的生存与发展条件。从信息论角度看，长答案通常承载更高的信息熵与更复杂的逻辑结构。LUSPO保护了这类高价值答案的生存空间，使得模型能够发展出深度推理与详尽阐述的能力。

值得注意的是，LUSPO在不同模型架构上的普适性，证明了其解决的是一个底层共性问题。无论是稠密模型还是稀疏的混合专家模型，无论是纯文本还是多模态模型，都能从中获益。此外，LUSPO在继承GSPO训练稳定性的同时，还弥补了GRPO在混合专家模型上可能出现的训练不稳定的短板，实现了优势互补。

六、实际应用：从实验室到现实世界

LUSPO的价值远不止于学术论文。它如同为AI训练工具箱增添了一件精密的校准仪器，有助于构建更均衡、更可靠的智能系统。

在数学教育领域，经由LUSPO训练的AI助教，能够提供步骤详尽、逻辑清晰的解题过程，如同一位耐心的导师，引导学生一步步理解，而非仅仅抛出答案。

在智能客服与专业咨询场景中，此类AI能够针对复杂的技术或流程问题，提供全面而深入的解答，避免因训练偏见而产出过于简略、无助于实际解决问题的回复，从而大幅提升用户体验。

在内容创作辅助方面，LUSPO有助于开发能够生成高质量长文本的写作助手，使其在撰写报告、分析文章时，能保持必要的深度与细节，避免内容空洞。

更重要的是，这项研究为整个领域提供了一个关键启示：细微的算法调整，可能解开困扰系统许久的根本性枷锁。它鼓励研究者以更审慎的眼光，审视训练流程中可能存在的各种隐性偏见，推动AI向更公平、更高效的方向演进。

研究团队的鲁棒性测试还发现，即使在那些原本不会导致长度坍塌的数据集上，LUSPO依然能带来性能增益。这说明它的价值不仅在于“纠偏”，更在于提供了一种更优的、普适的训练范式。

归根结底，美团这项研究揭示并解决了AI训练中一个隐蔽而关键的问题。通过一个精巧的数学修正，LUSPO方法让AI能够更公平地学习处理不同复杂度的任务，从而在需要深度思考的场合表现得更为出色。这好比为AI戴上了一副“公平眼镜”，使其能更准确地认知世界。

这项工作的意义，不仅在于提出了一个新工具，更在于提醒我们：在追逐AI性能巅峰的道路上，必须对训练过程中的每一个细节保持敬畏与审视。唯有确保学习过程的公平与均衡，我们构建的智能系统才能真正稳健、可靠地服务于各个领域的复杂挑战。

Q&A

Q1：LUSPO相比GSPO有什么主要改进？

A：LUSPO的核心改进是在计算损失函数时，将每个答案序列的损失乘以其自身长度，从而彻底消除了GSPO中存在的对短答案的隐性偏好。这使得AI模型在训练中能够平等对待长短不一的回答，从而学会在需要时给出包含完整推理链条的详细解答。

Q2：为什么回答长度对AI推理能力这么重要？

A：复杂的逻辑推理往往需要逐步展开，这类似于人类解决数学难题时在草稿纸上演算的过程。较长的回答序列为AI提供了必要的“思维空间”，以容纳问题分析、步骤推演、计算验证等环节。如果模型因训练偏见而被迫压缩输出，其深度推理能力便会受到根本性限制。

Q3：LUSPO方法在实际应用中效果如何？

A：大量实验数据证实了LUSPO的有效性。在数学推理任务（如AIME24）上，它比GSPO带来2.9%至6.9%的准确率提升；在多模态推理任务（如WeMath和LogicVista）上，提升幅度分别为5.1%和6.0%。同时，使用LUSPO训练的模型，其平均回答长度比GSPO基线模型长出50%以上，这为其执行复杂任务提供了坚实基础。

来源：https://www.techwalker.com/2026/0206/3178755.shtml

AI训练

延伸阅读

补充最近整理过的热点入口。