阿里通义FIPO算法提升推理性能 32B模型超越o1-mini

时间：2026-05-13 06:23

近日，阿里通义实验室Qwen Pilot团队正式发布了名为FIPO的创新算法。这项技术直指传统强化学习在复杂逻辑推理任务中的核心瓶颈，旨在实现双重突破：不仅显著拓展模型的“思维深度”，更同步提升其“推理精度”。核心突破：破解“推理长度停滞”难题传统模型在处理数学等需要多步推导的问题时，普遍面临一

近日，阿里通义实验室Qwen Pilot团队正式发布了名为FIPO的创新算法。这项技术直指传统强化学习在复杂逻辑推理任务中的核心瓶颈，旨在实现双重突破：不仅显著拓展模型的“思维深度”，更同步提升其“推理精度”。

核心突破：破解“推理长度停滞”难题

传统模型在处理数学等需要多步推导的问题时，普遍面临一个关键挑战：难以有效区分真正推动解题进程的关键步骤与无效的思维循环。FIPO算法正是针对这一痛点进行精准设计，其核心机制可归纳为两大创新点：

Future-KL机制： 该机制为AI引入了“前瞻性视野”。它不再局限于评估当前单步决策的正确性，而是专门激励那些能为后续推理链条奠定基础的关键Token，从而引导模型建立“长远规划”的思维能力。

符号对数概率差： 与此同时，算法采用了一种更为精细的内部信号度量方法，用以精准捕捉并校准模型的优化轨迹，有效防止推理过程陷入重复循环或偏离正确方向。

实际效果令人瞩目。在未经预训练的模型基础上，FIPO成功将平均有效推理长度大幅提升至10,000 Token以上，这标志着模型处理复杂问题时的“思维深度”天花板被实质性打破。

战绩斐然：32B模型的“小钢炮”表现

理论创新需要实战检验。在多项基准测试中，集成FIPO算法的320亿参数规模模型，展现出卓越的“性能密度”，堪称“小钢炮”。

性能反超： 在纯强化学习训练框架下，该模型不仅全面超越了同参数规模的主流模型，更在部分核心数学推理指标上，取得了优于OpenAI o1-mini的表现。这对于一个参数量并不占优的模型而言，是一次显著的效率逆袭。

数学潜力凸显： 该算法在应对高难度数学证明与符号推理问题时表现尤为突出，其严谨的、步步为营的逻辑推导能力得到充分验证，展示了解决复杂科学计算问题的巨大潜力。

行业背景：通义实验室的持续深耕

此次突破是通义实验室在AI基础算法领域持续投入的缩影。团队近期在提升模型逻辑能力方面动作不断，例如于3月底刚发布了CoPaw 1.0新版本。这一系列工作均清晰指向同一战略目标：系统性增强模型在复杂逻辑推理与深度交互任务中的核心竞争力。

结语：推理效率的“第二曲线”

当行业焦点仍时常集中于扩大模型参数规模时，阿里通义通过FIPO算法提供了另一种高效路径。它有力证明：通过设计更精妙的奖励函数与逻辑引导策略，即使是参数量相对紧凑的模型，也能激发出顶尖的“思维质量”。这无疑为AI推理效率的升级，开辟了一条极具价值的新赛道。

来源：https://news.aibase.com/zh/news/26917

其他

上一篇DeepSeek V4视觉版与专家模式开启灰度测试 下一篇Anthropic封杀OpenClaw引热议低价Token并非行业未来

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-30

中关村论坛年会AI未来论坛聚焦跃迁投资共生

3月30日，中关村国际创新中心成为人工智能领域瞩目的焦点——2026中关村论坛年会人工智能主题日的重要活动“AI未来论坛：跃迁·投资·共生”在此正式拉开帷幕。本次论坛传递出一个清晰的信号：人工智能正从技术突破迈向产业落地的关键阶段，而资本信心的背后，映射出产业演进的明确风向。海淀区明确表态，将以开放

业界动态 · 2026-06-30

泰国CP AXTRA与菜鸟合作复制中国闪购模式

3月27日，菜鸟集团与泰国正大集团旗下核心零售企业CP AXTRA正式签署战略合作协议。此次合作的核心目标十分明确：菜鸟将充分发挥自身在数字供应链技术、仓储自动化领域的技术优势，以及多年深耕海外仓的运营经验，全力支持CP AXTRA在泰国及东盟国家打造一套线上线下一体化的即时零售物流网络。 CP A