昨晚,QWEN2.5 正式宣布开源,这一代模型在性能上展现出诸多亮点,更令人关注的是,它重新推出了 14B 和 32B 两个版本——恰好满足了本地单卡部署的典型需求。
先分享几项核心判断:QWEN 系列始终是国内开源模型的重要支柱,而此次 2.5 版本的升级,很可能颠覆你对国产开源模型的既有认知。近期社区已对 QWEN2.5 进行初步实测,结果颇为出人意料,下面详细展开。
Qwen2.5 核心亮点
一、全面性能提升
Qwen2.5 系列覆盖了从 1.5B 到 72B 的参数规模,适配所有主流场景,每个版本均针对特定需求做了深度优化。最新发布的包括通用大语言模型 Qwen2.5,以及专注编码优化的 Qwen2.5-Coder 和数学优化的 Qwen2.5-Math。
14B 和 32B 这两个版本尤其值得关注——它们是单卡部署场景下的最佳选择。据官方数据,Qwen2.5 在自然语言理解、代码编写、数学解题以及多语言处理等多个维度均实现了显著提升。

本次开源的模型规格概览。
相比前代 Qwen2,Qwen2.5 在知识储备上有了大幅增长(MMLU 达到 85+),编码(HumanEval 85+)和数学(MATH 80+)能力也显著增强。此外,新模型在指令遵循、超长文本生成(超过 8K token)、结构化数据理解(如表格)以及结构化输出(尤其是 JSON)方面同样取得了长足进步。
Qwen2.5 对系统提示的多样性也更具弹性,这意味着它在角色扮演和聊天机器人场景中表现会更加稳定。与 Qwen2 一样,Qwen2.5 支持最高 128K token 的上下文,可生成最多 8K token 的输出,覆盖了中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等 29 种以上语言。
对于程序员来说,一个能输出高质量代码的语言模型无疑极具吸引力。Qwen2.5-Coder 通过增加代码训练数据量并改进算法设计来提升编程能力。值得一提的是,2.5 版本的 7B 模型能力已经超越了 DEEPSEEK 开源的 V2-LITE 16B MOE 多专家模型;此外,一个更强大的 32B CODER 版本也已在路上。
值得肯定的是,阿里在这波技术开源中展现了战略格局,以下是官方的一段描述:
“我们将基于 API 的模型最新版本 Qwen-Plus 与领先的专有和开源模型进行了基准测试,包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5。这次比较展示了 Qwen-Plus 在当下大型语言模型领域的竞争优势。我们表明 Qwen-Plus 在许多方面显著优于 DeepSeek-V2.5,并在 Llama-3.1-405B 方面表现出竞争力,但在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet。”
这段话的态度值得认可——没有“遥遥领先”的浮夸,也没有“天天赶超”的盲目,更多的是不卑不亢,也诚实地承认了差距。
从性能表现来看,除了 72B 版本毫无悬念的大幅提升之外,32B 和 14B 的表现也令人惊喜。

首先是 32B 版本,整体对比下来,它的输出能力与 72B 相差不到 5%。而 32B 仅需 24G 显存就能实现单卡部署,从效率和性价比来看,它无疑是单卡部署场景的首选。

实际测试中,使用 OLLAMA 部署 32B 版本,体验如下:
显存足够的情况下,可以直接用 ollama run qwen2.5:32b 下载。

实测占用显存 21G,整体表现稳定。

让模型编写一个带简单 UI 的 Python 程序,允许用户输入多个目录地址 A1/A2/A3 和目标地址 B,执行后将以上目录下的所有图片文档复制到 B 地址。程序还需记住上次输入的目录地址参数,下次启动可直接使用无需重新输入。结果一次通过,顺利运行。

本地模型能有如此高的代码一次通过率,说明其能力确实可靠。
再来看看 14B 版本,这一次 Qwen2.5-14B 在各项评分上与上一代 Qwen2-70B 打得有来有回。换句话说,三四个月前需双卡 4090(约 5 万元服务器)才能达到的效果,现在不到 2000 元配一张单卡 3060,改用 14B 模型,大概也能跑出九成功力。
小模型正在崛起,别以为大就一定好。
近期大模型向小型语言模型(SLMs)转变的趋势愈发明显。值得关注的是,甚至只有 30 亿参数的模型现在也能交出极具竞争力的成绩。附图中的图表清晰地展示了这一趋势:那些在 MMLU 中得分超过 65 分的新模型,参数规模正在不断缩小,这背后是语言模型中知识密度的快速提升。

Qwen2.5-3B 就是一个典型,仅用 30 亿参数就拿下了令人印象深刻的性能,充分体现了小模型的效率与能力。
举个例子,去年同时期发布的 LLAMA2-70B,需要 700 亿参数才勉强达到 MMLU 65 分的门槛;而如今 Qwen2.5-3B 仅用 30 亿参数就做到了这一点。这背后是大模型知识蒸馏技术的飞速进步。
3B 到 4B 的参数规模,意味着模型量化后的体积可以压缩到约 2GB,非常适合放入手机。这也是英伟达、微软等巨头如此重视小模型的原因所在。
最后,说说为什么在国产模型中,QWEN 系列一直受到广泛关注。

因为上面这张图。这张图展示了开源体系的完整框架,表明 QWEN 与整个开源社区完全接轨。从训练、微调、量化,到部署和应用框架,乃至评估体系,一切都可以公开验证。
自我吹嘘一百次,不如把模型放出来真正比一比;自夸“自研”,不如将可以无缝对接的社区顶级项目一一列出来。
开放这件事,靠的是行动,而不是空话。
相比之下,国内巨头有的默默模仿,有的死守不开源,有的开源模型性能堪忧,还有的干脆放弃自研玩起了整合。即便是国内的 AI 初创公司们,现在也面临挑战。除了豆包和 COZE 在用户生态上做得相当不错,KIMI 和 MINIMAX 的模型升级已经停滞了相当一段时间。GLM4 虽然也算是国产开源的先锋,但和 QWEN 相比,开源力度完全不在一个量级(GLM4 仅放出了 9B 模型)。
要知道,在 O1 已经登场的时代,还在斤斤计较自己那点旧东西,前景确实堪忧。
