
2026年5月28日,SuperCLUE正式发布了最新一期中文大模型综合能力评测报告。从整体结果来看,格局十分明朗:海外主流模型依然牢牢占据全球领先地位,四款国际顶尖模型稳居前四,构成了一个相当稳固的第一梯队。而在国产模型阵营中,表现最优的三款产品围绕第五名展开激烈角逐,共同组成了国内大模型的第一方阵。
本次评测全面覆盖了21款国内外主流大模型,评估维度十分系统,涵盖数学推理、科学推理、代码生成、智能体任务规划、精确指令遵循以及幻觉控制六大方向,共计492道测试题。可以说,这是一场对模型综合实力的硬核检验。
Gemini、GPT-5.5、Claude-Opus以及Gemini-Flash这四款海外模型,凭借全面且稳定的性能表现,持续占据前四席位,位次几乎没有变化。它们的综合实力确实称得上“全面无短板”,暂时没有给追赶者留下太多突破口。
而在它们身后,DeepSeek-V4-Pro、Qwen3.7-Max与豆包Seed 2.0 Pro这三款国产模型,得分高度接近,全球综合排名均落在第五名附近。它们代表的是当前国产大模型的最高水准,但彼此之间的竞争也异常胶着。
当然,差距依然客观存在。值得关注的是,国产模型虽然与国际顶尖水平尚有一段距离,但进步速度相当可观。举个例子,在代码生成任务中,Qwen3.7-Max的得分仅落后于头部海外模型不到2分——这个差距,说实话,已经非常接近。而在数学推理、科学推理这类高难度项目中,国产模型也多次杀入全球前列,表现十分抢眼。
另一个值得留意的方面是成本效益。国产模型在性价比上优势明显,多款产品以更低的部署与运行成本,实现了接近国际领先水平的实际效果。这对于大规模商业化落地来说,是一个相当关键的加分项。不过,在推理效率这个维度上,高性能区间仍主要由海外模型主导,国产模型多数处于中低效能区间,还有进一步优化的空间。
总体来看,国产大模型正在以较快的节奏缩小与全球第一梯队的差距。头部格局目前尚未发生根本性变化,但追赶的势头已经非常明确。逆水行舟,国产三强正在第五名这个位置上,悄悄积蓄着向第一梯队发起冲刺的力量。
