大模型领域的火爆程度,想必大家早已有目共睹。各类评测榜单层出不穷,既是厂商展现技术实力的必争之地,也成为用户选型时的重要参考依据。不过,面对满屏幕的英文缩写和专业术语,许多人难免感到困惑不解。
先给出几个核心判断:评测体系正在从“做题家”转向“实干家”。过去,能答对选择题就算本事;如今,能否在真实场景中高效完成任务,才是硬道理。基于这一思路,我们来梳理一下国际通用的学术基准与国内特色评测体系,看看像Anthropic(Claude)和智谱(GLM)这样的头部玩家,究竟在用怎样的“试卷”来考核自己的模型。
一、 学术界的“高考”:通用能力基准
无论是GLM、Anthropic、OpenAI还是Google,在发布新模型时,基本都要先提交六张“标准答卷”——也就是业界公认的通用能力基准。这相当于大模型的“高考”,不通过这些测试,论文和技术报告就难以发表,媒体也不会给予关注。
如果把大模型比作学生,那么学术界维护的一系列数据集就是标准化的“高考试卷”。想要在国际舞台上赢得认可,这几门“必修课”必须考好:
1. 通识知识的“地基”:MMLU 与 MMLU-Pro
MMLU(大规模多任务语言理解)是目前最知名的“百科知识”测试。它涵盖57个学科,从美国历史到高等数学,共1.5万道题目,是衡量大模型知识广度的“入场券”。但随着时间推移,模型分数越来越高,MMLU也暴露出一些问题——例如题目本身存在错误,以及顶级模型分数过于接近,出现“饱和”现象。于是,升级版MMLU-Pro应运而生,它增加选项数量、提升推理难度,是目前更具含金量的版本。
2. 数学推理的“试金石”:GSM8K 与 MATH
GSM8K主要考察小学到初中的应用题,用于判断模型是否具备基础的多步推理能力(即思维链能力)。而MATH则是竞赛级难题,风格类似AIME和AMC。如果说GSM8K是中考,那MATH就是奥赛——它正是区分模型是“死记硬背”还是“真正逻辑推理”的分水岭。
3. 代码生成的“硬通货”:HumanEval
由OpenAI提出的HumanEval包含164个手写编程问题,评分标准为Pass@k——即代码能否通过单元测试。这一指标是衡量模型“程序员辅助”能力的核心标准。
4. 极限推理的“珠峰”:GPQA
博士级别的科学问答,涵盖生物、物理、化学。题目设计极其刁钻,就连人类专家在没有辅助工具的情况下也容易答错。可以说,GPQA是目前检验大模型“智力上限”的最权威基准。
5. 常识与逻辑的“补漏”:BBH (Big-Bench Hard)
从庞大的BIG-Bench项目中筛选出的23个任务。这些任务均是早期模型表现不如人类的“硬骨头”,主要用来考察常识因果和复杂指令遵循能力。
总结来看,这六张试卷各司其职:
| 优先级 | Benchmark | 测什么 | 为什么必报 |
|---|---|---|---|
| ⭐⭐⭐ | MMLU / MMLU-Pro | 通用知识广度与推理 | 最老牌的“地基分”,媒体和采购方最先看 |
| ⭐⭐⭐ | GSM8K | 小学到初中多步数学 | 最简单的“推理能力门槛”探针 |
| ⭐⭐⭐ | MATH | 竞赛级数学(AIME/AMC风格) | 区分“背出来”与“真推导” |
| ⭐⭐⭐ | HumanEval(pass@k) | Python函数级代码生成 | 代码能力的硬通货指标 |
| ⭐⭐⭐ | GPQA(-Diamond) | 博士级理化生,难以作弊 | 当前推理上限最受认可的基准 |
| ⭐⭐ | BBH / BIG-Bench Hard | 多步推理中模型曾低于人类的23类任务 | 补MMLU的不足——更偏重“思维链” |
二、 用户的“大众点评”:对话与主观体验
光靠客观选择题远远不够,毕竟我们日常是用AI聊天和工作的。为了衡量“好不好用”,业界发展出两套更贴近用户体验的机制。
1. Chatbot Arena:匿名对战平台
由加州大学伯克利分校发起的Chatbot Arena,堪称AI界的“英雄联盟”。用户在同一界面下向两个匿名模型提问,然后选出更好的回答。系统根据海量投票计算Elo评分。这种机制完全由真实用户驱动,难以作弊,最能反映模型的“实战手感”。
2. MT-Bench:大模型当裁判
人工评测效率过低,于是学界引入“LLM-as-a-Judge”机制——让GPT-4级别的强模型去评价其他模型的回答。虽然不完全客观,但效率极高,且与人类偏好的吻合度超过80%。
三、 本土化战场:中文大模型的“特色试卷”
对于国内的GLM、Qwen等模型来说,仅仅在国际榜单上拿高分还不够,还需要证明自己在中文语境下的硬实力。
1. C-Eval 与 CMMLU:中国版的MMLU
C-Eval涵盖52个中国大学学科,包括中国近现代史、法律、执业医师考试等,是检验模型是否具备“中式知识体系”的标尺。CMMLU则更进一步,不仅考知识,还考中国文化语境,例如交通规则、饮食习俗等。
2. AGIEval 与 高考榜
直接拿中国的高考、公务员考试、法考题来考模型。这种评测最具现实意义:如果AI能考上一本,那么它在处理复杂的本土业务逻辑时,就更值得信赖。
3. SuperCLUE:中文社区的琅琊阁
国内最早的综合性评测体系之一,除了客观题,还包含大量开放式问答和“琅琊榜”匿名对战,专门用来评估中文对齐能力和指令遵循度。
四、 实战观察:Claude 和 GLM 到底在考什么?
理解了上述体系,我们再回头看两家代表性公司的技术报告,就能读懂它们的策略。
1. Anthropic (Claude):主打“全球通才”
Claude的评测清单非常“国际化”和“极客化”。它的核心招牌是GPQA(博士级推理)、MMLU(通识)和HumanEval(代码)。值得注意的是,Claude通常不报C-Eval或CMMLU的分数,因为它定位为全球模型,中文专项并非其首要宣传点。随着模型不断成熟,Claude开始重点攻克SWE-bench(真实软件工程修复),证明自己能解决GitHub上的实际Bug,而不仅仅是刷题。
2. 智谱 (GLM):主打“中英双语,本土深耕”
GLM的策略是典型的“两条腿走路”:左手抓国际卷,必须跑通MMLU、GSM8K、MATH、HumanEval,证明自己达到国际顶尖水平;右手抓中文卷,重点展示C-Eval、CMMLU和AlignBench(中文对齐)的分数,强调其在中文理解上的优势。进入GLM-5阶段后,评测重点已转向智能体工程,例如Terminal-Bench(终端操作)和长上下文处理,意在证明模型能像工程师一样干活。
五、 合规与准入:看不见的“国标线”
除了学术榜单,在中国市场落地,还有一个隐形的评测体系——国家标准与信通院认证。GB/T 45288是中国首部大模型国家标准,规定了性能、安全和服务能力的底线。而由信通院主导的可信AI评估,则是大模型进入政务、金融、电信等关键行业的“准入证”。这意味着,即便一个模型在MMLU上拿了满分,如果通不过国家的安全合规评测,依然无法在严肃场景中大规模应用。
六、 写在最后:如何正确看待评测?
对于普通用户和开发者来说,面对眼花缭乱的榜单,建议记住以下三点:
首先,没有全能冠军。MMLU饱和了并不代表模型已经完美,可能只是题目不够难了。GPQA和MATH更能反映高阶推理能力。其次,场景决定选择。写代码要看HumanEval和SWE-bench;处理中文公文要看C-Eval和AlignBench;想要聊天顺畅,那就去Chatbot Arena看排名。最后,也是最重要的一点:实战胜于榜单。最靠谱的评测,永远是拿你自己的业务数据去测试。用GPT-4o或Claude 3.5作为裁判,对你的候选模型进行两两对比,这才是选型的“黄金标准”。
大模型评测正在从“做题家”时代迈向“实干家”时代。未来,我们关注的将不再是模型能做对几道选择题,而是它能为我们的工作和生活解决多少实际问题。
