阿里巴巴的“通义千问”团队又有了新动作——他们刚刚推出了Qwen2-Math Demo。这个数学模型的表现相当抢眼,甚至在某些测试中超过了GPT-4。
它的亮点在于不仅能处理文字描述的数学问题,还能直接读懂图片或截图中的公式。也就是说,你拍下一道算式的照片,它就能给出解答。听起来像是数学作业的“外设”吧?当然,工具归工具,基本功还是得自己练。

这次发布的Qwen2-Math有三个版本:72B、7B和1.5B。其中72B版本在MATH数据集上比GPT-4高出了7个百分点,提升幅度达到9.6%。打个比方,就像高考数学你考了145分,而旁边的学霸只拿了132分。
更让人意外的是,7B版本仅仅用了不到十分之一的参数量,就超越了72B的开源数学模型NuminaMath。要知道,NuminaMath可是在全球首届AIMO大赛中获奖的模型,颁奖人还是数学界的泰斗陶哲轩。
团队成员、高级算法专家林俊旸在发布时提到,他们通过一个特制的“数学专用语料库”对Qwen2基础模型进行了针对性训练。这个语料库包含了大量高质量的数学网络文本、书籍、代码、考试题目,甚至还有Qwen2自己“编”出来的数学题。用通俗的话说,就是给模型灌了一剂“数学补脑液”。
结果如何在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B把405B参数的Llama-3.1都甩在了身后。这些测试可不是闹着玩的,里面涵盖了代数、几何、概率、数论等各种难题。
此外,Qwen2-Math还挑战了中文数据集CMATH和高考试题。在中文数据集上,连最小的1.5B版本都能碾压70B的Llama-3.1。而且,无论哪个版本,相比同规模的Qwen2基础模型,成绩都有显著提升。
看起来,“通义千问”这次确实问出了一个数学尖子。以后遇到数学难题,或许可以试试让它帮忙,但别忘了——它只是一个工具,自己的数学功底还是得稳扎稳打地练。
