高考数学大模型测评哪家强 第一名结果出乎意料

为了让大家对主流AI模型的数学能力有一个最直观的感受,我们组织了一场“满血版”的数学高考。目的很明确:看看在150分的满分下,这些模型究竟能拿多少分,谁又能在这场较量中拔得头筹。
由于解答题与选择题、填空题的评分方式不同,我们为此单独制定了一套规则:
1. 数学大题通常包含多个小问,各小问分值不一。我们邀请了一位高中教师朋友,对每道大题下各小问的分数进行了估算,并以此作为评分依据。

2. 高考阅卷通常会按步骤给分。但考虑到我们并非专业阅卷人,为了评测标准统一且严格,本次测试决定仅依据最终答案的正确与否来判分。
3. 每道题目,我们依然让每个大模型运行3次,根据其答对的次数比例来折算得分。
4. 所有文本题目,都先通过LaTeX编辑器转换为LaTeX格式文本,再提交给大模型作答。

5. 包含图片的多模态题目也被纳入测试,直接截图提交。对于不具备多模态能力或推理时无法接收图片的模型,其得分将取所有多模态模型在该题得分的平均值。
规则就是以上这些。
在几位朋友夜以继日地协助测试之后,我们终于得出了结果。不得不说,这又是一次干到凌晨四点的硬仗。
不过,最终的得分和结论,确实有些出人意料。
先看看各题的对错情况。我们用✅表示全对,❌表示错误,⭕️表示部分正确,不具备多模态能力的则予以标注。

说实话,这一片绿色(表示正确)的面积,有点超出预期。本以为解答题会难倒一大批模型,没想到它们大多都应对自如。反倒是单选题第6题,成了几乎所有大模型的“滑铁卢”。
这道题涉及对几何图形的理解,对于高考生来说,可能轻轻松松画条辅助线就能解决。但几乎所有多模态大模型都在此折戟,只有OpenAI的o3模型在三次尝试中答对了两次。

DeepSeek-R1-0528的表现略逊于其他推理模型,可能原因在于其推理思维链过长。高考题目并未复杂到需要如此深度的“思考”,结果反而可能导致它在过程中“想歪了”。这似乎印证了一点:有时候,想得短一点、直接一点,正确率或许会更高。
所有的原始作答记录都在这里了。我们实实在在地为每个模型、每道题都运行了3次。

下次一定得抽空写个自动化脚本,这种纯人力测试,强度确实有点顶不住。
那么,最终的成绩单终于要揭晓了。

这个排名,确实让人颇感意外。
需要特别说明的是,本次测试过程严格遵守既定规则,未有任何弄虚作假,测试结果完全基于模型的实际表现。但结果就是如此发生了。
在我们的测试中,讯飞星火和豆包除了在第6题失分外,其余题目全部答对,以145分的超高分并列第一。
通义千问Qwen3在解答题部分表现完美,全数拿下。可惜在填空题环节,因一次失误(3次尝试中2对1错),损失了宝贵的1.7分,最终以143.3分屈居第三。
Gemini 2.5 Pro在解答题部分出现了一些失误,以139.7分位列第四。
混元T1和文心X1在解答题上的失误稍多一些,比Gemini 2.5 Pro多丢了2.7分,并列第五。
这个结果,很有意思。
说实话,很久没有一次测试能让人如此兴致盎然了。回想2023年第一次测试AI做高考数学题时,场面多少有些“惨不忍睹”,强如大模型,面对基础题目也可能束手无策。
短短两年时间,它们对于高考数学题的应对能力,已经普遍达到了优秀学生的水准。AI的进化速度,确实快得有点惊人。
或许,这正是这份工作令人着迷的地方——它总能带来未知、惊喜,以及那种“一年抵十年”的深刻体验。
至此,这场AI高考可以画上一个句号了。窗外,天边已泛起鱼肚白,新的一天,已然到来。
相关攻略
零一万物与四川内江高新区达成超1 5亿元合作,共建人工智能产业基地。项目聚焦垂直领域大模型应用,构建区域性AI服务平台,推动产业智能化。依托当地芯片设计、智能终端等产业链基础,双方将协同打造城市级AI基础设施,促进人工智能与实体经济深度融合。
如何利用AI高效制作专业PPT:三大实用方法详解 在当今职场环境中,演示文稿的制作水平与工作效率已成为衡量专业能力的重要指标。然而,从内容构思、素材收集到视觉设计,传统PPT制作流程往往耗时费力。随着人工智能技术的成熟,AI工具为演示文稿创作带来了革命性改变——不仅能大幅节省制作时间,更能显著提升内
AI分镜脚本创作:碘伏传统的叙事方式 数字化浪潮席卷之下,影视制作的工具箱正在被人工智能(AI)重新定义。其中,AI分镜脚本创作正从一个前沿概念,迅速演变为一股不可忽视的行业趋势。它带来的不仅是效率的飞跃,更在悄然重塑着叙事本身的可能性。 要理解这场变革,得先从分镜脚本本身说起。这个环节,本质上是将
如何利用WPS AI提升PPT制作效率,轻松创建专业课程内容 在当今快节奏的内容创作环境中,高效产出高质量的演示文稿和课程材料,已成为教育工作者、培训师及职场人士的普遍需求。你是否也曾为制作一份PPT而投入大量精力,反复修改结构、搜寻素材,但最终成果仍不尽如人意?这种费时费力的传统方式,正随着智能化
AI排版工具如何提升工作效率?智能排版解决方案全解析 在当今内容驱动的数字时代,视觉呈现的质量直接影响信息传播效果。一份结构清晰、版式专业的文档或设计作品,能够迅速吸引读者注意,显著提升信息传递效率。本文将全面解析AI智能排版工具的核心优势与应用技巧,帮助您掌握如何借助人工智能技术,让排版工作变得高
热门专题
热门推荐
Mango Network (MGO):重塑Web3未来的高性能多虚拟机公链 在区块链技术飞速演进的今天,可扩展性、互操作性和开发者体验已成为下一代基础设施的核心战场。面对以太坊生态的拥堵与高昂费用,以及众多新兴链带来的流动性割裂,市场亟需一个能够无缝连接不同生态、兼具高性能与安全性的解决方案。正是
在远程办公与在线协作日益普及的今天,视频会议和语音通话中的背景噪音已成为影响沟通效率的常见难题。无论是居家办公时的家庭杂音、咖啡厅的环境嘈杂,还是突如其来的施工声响,这些干扰都会降低通话质量,分散与会者注意力。自2017年成立以来,有一家公司始终专注于利用人工智能技术解决这一痛点——它就是Krisp
产品介绍 在信息过载的时代,高效处理音频与视频内容已成为职场人士和内容创作者的普遍需求。听脑AI精准洞察这一痛点,它不仅是一款高精度的语音转文字工具,更是一个深度融合了大型语言模型(LLM)的智能分析平台。其核心价值在于:将冗长的会议录音、访谈视频、课程讲座等音视频资料,快速转化为结构化文本、专业会
在当今数字音乐创作领域,技术门槛正变得越来越低。即使你没有任何乐理基础,或者缺乏专业的录音设备,现在也能通过在线工具轻松实现音乐创作梦想。Boomy 正是这样一个专注于简化音乐制作流程的在线平台,它让普通人也能快速将灵感转化为完整的音乐作品。 Boomy 的核心设计理念非常清晰:它提供了一个丰富的预
在MEXC(抹茶)交易所进行USDT充值的完整指南 对于数字资产交易者而言,快速、安全地将资金划转至交易平台是第一步。本指南将详细介绍在MEXC平台进行USDT充值的具体流程与核心技巧,帮助您高效完成操作,规避常见风险。 一、充值前的准备工作 在开始操作前,有两项准备工作必不可少: 1 确保您已经





