11月28日,SuperCLUE正式发布了2025年11月中文大模型基准测评结果。
本次测评聚焦数学推理、科学推理、代码生成(含网页开发)、幻觉控制与精准指令遵循五大核心任务,涵盖了总计822道全新题目,最终得分取各项任务的平均分。
本次共有27个国内外大模型平台同场竞技,OpenAI的GPT 5.1与国产模型DeepSeek分别斩获综合冠军及开源领域榜首。

OpenAI的GPT-5.1 (high) 以总分68.11的成绩登顶,成为本月综合表现最佳的大模型。
GPT-5.1 在数学推理(74.07)与代码生成(76.30)等项目中表现突出,幻觉控制得分高达88.80,展现出强大的稳定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分紧随其后,其幻觉控制得分更是达到90.33,在该项能力上保持领先。
而在开源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking 以53.69分位列开源阵营第一。

