游乐游手机版
首页/AI热点日报/热点详情

阿里全新推理模型仅1/20参数媲美DeepSeek R1

类型:热点整理2026-07-02
阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感(QwQ),但实际性能毫不含糊。该模型参数量仅为320亿,而对比对象DeepSeek R1则高达6710亿,两者规模相差近20倍。然而在多项基准测试中,QwQ-32B不仅能够与之比肩,甚至在部分指标上略有领先。

阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感(QwQ),但实际性能毫不含糊。该模型参数量仅为320亿,而对比对象DeepSeek R1则高达6710亿,两者规模相差近20倍。然而在多项基准测试中,QwQ-32B不仅能够与之比肩,甚至在部分指标上略有领先。这背后究竟隐藏着怎样的技术突破?答案十分明确:强化学习(RL)

重磅!阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1

关注大模型领域的朋友都清楚,参数量往往是衡量性能的关键指标。但QwQ-32B的发布,犹如用一把小刀划开了这一惯例。Qwen团队在博文中明确指出,他们深入探索了强化学习在提升大语言模型智能方面的巨大潜力。此次成功,有力地证明了强化学习是驱动模型性能跃升的强大引擎

多项基准评测硬刚DeepSeek R1

QwQ-32B的真实实力究竟如何?官方公布的基准评测结果覆盖了数学推理、代码生成以及通用问题解决等多个维度。从数据来看,在AIME24IFEval等关键测试中,QwQ-32B的表现甚至略微超过了参数量庞大的DeepSeek R1;在其他测试中,也基本与之持平,并大幅领先其他对比模型。这意味着,仅用1/20的参数量,通过强化学习就实现了性能上的惊人跨越。

技术揭秘:冷启动 + 结果导向的强化学习策略

Qwen团队在博文中简要介绍了QwQ-32B背后的强化学习方法:采用冷启动(cold-start checkpoint)方式,并实施结果导向(outcome-based rewards)的RL策略。

  • 冷启动:从预训练模型的检查点开始训练。
  • 结果导向:初始阶段主要针对数学和代码任务进行强化学习训练。
    • 数学问题:使用准确率验证器(accuracy verifier)确保答案正确。
    • 代码生成:使用代码执行服务器(code execution server)评估代码能否成功运行。
  • 通用奖励模型和规则验证器:后续阶段逐步引入更通用的奖励模型和规则验证器,提升其他通用能力。

这种策略的核心在于不依赖传统奖励模型,而是直接根据任务结果(答案是否正确、代码是否运行成功)来指导模型学习,效率更高、路径更直接。

开源开放

QwQ-32B模型采用开源开放(open-weight)方式发布。你可以在Hugging FaceModelScope上获取它,并基于Apache 2.0协议自由使用与研究。此外,也可以通过Qwen Chat平台直接体验QwQ-32B的对话能力。

来源:https://www.53ai.com/news/LargeLanguageModel/2025030670138.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。