阿里全新推理模型仅1/20参数媲美DeepSeek R1_AI热点日报

阿里全新推理模型仅1/20参数媲美DeepSeek R1

类型：热点整理2026-07-02

阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感（QwQ），但实际性能毫不含糊。该模型参数量仅为320亿，而对比对象DeepSeek R1则高达6710亿，两者规模相差近20倍。然而在多项基准测试中，QwQ-32B不仅能够与之比肩，甚至在部分指标上略有领先。

阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感（QwQ），但实际性能毫不含糊。该模型参数量仅为320亿，而对比对象DeepSeek R1则高达6710亿，两者规模相差近20倍。然而在多项基准测试中，QwQ-32B不仅能够与之比肩，甚至在部分指标上略有领先。这背后究竟隐藏着怎样的技术突破？答案十分明确：强化学习（RL）。

重磅！阿里深夜推出全新推理模型，仅1/20参数媲美DeepSeek R1

关注大模型领域的朋友都清楚，参数量往往是衡量性能的关键指标。但QwQ-32B的发布，犹如用一把小刀划开了这一惯例。Qwen团队在博文中明确指出，他们深入探索了强化学习在提升大语言模型智能方面的巨大潜力。此次成功，有力地证明了强化学习是驱动模型性能跃升的强大引擎。

多项基准评测硬刚DeepSeek R1

QwQ-32B的真实实力究竟如何？官方公布的基准评测结果覆盖了数学推理、代码生成以及通用问题解决等多个维度。从数据来看，在AIME24和IFEval等关键测试中，QwQ-32B的表现甚至略微超过了参数量庞大的DeepSeek R1；在其他测试中，也基本与之持平，并大幅领先其他对比模型。这意味着，仅用1/20的参数量，通过强化学习就实现了性能上的惊人跨越。

技术揭秘：冷启动 + 结果导向的强化学习策略

Qwen团队在博文中简要介绍了QwQ-32B背后的强化学习方法：采用冷启动（cold-start checkpoint）方式，并实施结果导向（outcome-based rewards）的RL策略。

• 冷启动：从预训练模型的检查点开始训练。
• 结果导向：初始阶段主要针对数学和代码任务进行强化学习训练。
- • 数学问题：使用准确率验证器（accuracy verifier）确保答案正确。
- • 代码生成：使用代码执行服务器（code execution server）评估代码能否成功运行。
• 通用奖励模型和规则验证器：后续阶段逐步引入更通用的奖励模型和规则验证器，提升其他通用能力。

这种策略的核心在于不依赖传统奖励模型，而是直接根据任务结果（答案是否正确、代码是否运行成功）来指导模型学习，效率更高、路径更直接。

开源开放

QwQ-32B模型采用开源开放（open-weight）方式发布。你可以在Hugging Face和ModelScope上获取它，并基于Apache 2.0协议自由使用与研究。此外，也可以通过Qwen Chat平台直接体验QwQ-32B的对话能力。

来源：https://www.53ai.com/news/LargeLanguageModel/2025030670138.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。