通义千问发布Qwen2 Math新模型 72B版超越GPT-4_AI热点日报

通义千问发布Qwen2 Math新模型 72B版超越GPT-4

类型：热点整理2026-07-04

阿里推出Qwen2-MathDemo，含72B、7B、1 5B版本。72B在MATH上超GPT-4达7个百分点；7B以不足十分之一参数量击败NuminaMath。支持图文数学公式，多项测试表现优异。

阿里巴巴的“通义千问”团队又有了新动作——他们刚刚推出了Qwen2-Math Demo。这个数学模型的表现相当抢眼，甚至在某些测试中超过了GPT-4。

它的亮点在于不仅能处理文字描述的数学问题，还能直接读懂图片或截图中的公式。也就是说，你拍下一道算式的照片，它就能给出解答。听起来像是数学作业的“外设”吧？当然，工具归工具，基本功还是得自己练。

通义千问数学模型Qwen2 Math Demo放出，72B版吊打GPT-4

这次发布的Qwen2-Math有三个版本：72B、7B和1.5B。其中72B版本在MATH数据集上比GPT-4高出了7个百分点，提升幅度达到9.6%。打个比方，就像高考数学你考了145分，而旁边的学霸只拿了132分。

更让人意外的是，7B版本仅仅用了不到十分之一的参数量，就超越了72B的开源数学模型NuminaMath。要知道，NuminaMath可是在全球首届AIMO大赛中获奖的模型，颁奖人还是数学界的泰斗陶哲轩。

团队成员、高级算法专家林俊旸在发布时提到，他们通过一个特制的“数学专用语料库”对Qwen2基础模型进行了针对性训练。这个语料库包含了大量高质量的数学网络文本、书籍、代码、考试题目，甚至还有Qwen2自己“编”出来的数学题。用通俗的话说，就是给模型灌了一剂“数学补脑液”。

结果如何在GSM8K、MATH等经典数学测试集上，Qwen2-Math-72B把405B参数的Llama-3.1都甩在了身后。这些测试可不是闹着玩的，里面涵盖了代数、几何、概率、数论等各种难题。

此外，Qwen2-Math还挑战了中文数据集CMATH和高考试题。在中文数据集上，连最小的1.5B版本都能碾压70B的Llama-3.1。而且，无论哪个版本，相比同规模的Qwen2基础模型，成绩都有显著提升。

看起来，“通义千问”这次确实问出了一个数学尖子。以后遇到数学难题，或许可以试试让它帮忙，但别忘了——它只是一个工具，自己的数学功底还是得稳扎稳打地练。

来源：https://www.1ai.net/18387.html

补充最近整理过的热点入口。