CMMLU——中文多任务语言理解评估,这个名字可能听起来有点学术,但说实在的,它是目前评测中文大模型能力时绕不开的一个“硬核考卷”。
简单来说,CMMLU是一个专门为中文环境设计的综合性评估基准,它的核心任务只有一个:判断一个语言模型在中文语境下到底懂多少、能推理到什么程度。跟那些只考英语、或者偏西方知识结构的测试不一样,CMMLU完全扎根在中国本土的知识体系里。
具体有多全面?它覆盖了67个不同的主题,从基础学科一路延伸到高级专业领域。比如,自然科学部分会要求模型进行计算和逻辑推理,人文科学和社会科学则考验它对历史、文化、整治等知识的掌握,甚至还包括中国特有的驾驶规则这类生活常识题。
最有趣的一点是:CMMLU里很多题目,答案只有在中国本土语境下才成立——换到其他语言或地区,这些题目可能根本没意义。换句话说,这是一个不折不扣的、为中国大模型量身定制的“中国味”测试。
