高考数学大模型测评哪家强第一名结果出乎意料

首页

AI教程

热心网友

转载

2026-05-25

为了让大家对主流AI模型的数学能力有一个最直观的感受，我们组织了一场“满血版”的数学高考。目的很明确：看看在150分的满分下，这些模型究竟能拿多少分，谁又能在这场较量中拔得头筹。

由于解答题与选择题、填空题的评分方式不同，我们为此单独制定了一套规则：

1. 数学大题通常包含多个小问，各小问分值不一。我们邀请了一位高中教师朋友，对每道大题下各小问的分数进行了估算，并以此作为评分依据。

2. 高考阅卷通常会按步骤给分。但考虑到我们并非专业阅卷人，为了评测标准统一且严格，本次测试决定仅依据最终答案的正确与否来判分。

3. 每道题目，我们依然让每个大模型运行3次，根据其答对的次数比例来折算得分。

4. 所有文本题目，都先通过LaTeX编辑器转换为LaTeX格式文本，再提交给大模型作答。

5. 包含图片的多模态题目也被纳入测试，直接截图提交。对于不具备多模态能力或推理时无法接收图片的模型，其得分将取所有多模态模型在该题得分的平均值。

规则就是以上这些。

在几位朋友夜以继日地协助测试之后，我们终于得出了结果。不得不说，这又是一次干到凌晨四点的硬仗。

不过，最终的得分和结论，确实有些出人意料。

先看看各题的对错情况。我们用✅表示全对，❌表示错误，⭕️表示部分正确，不具备多模态能力的则予以标注。

说实话，这一片绿色（表示正确）的面积，有点超出预期。本以为解答题会难倒一大批模型，没想到它们大多都应对自如。反倒是单选题第6题，成了几乎所有大模型的“滑铁卢”。

这道题涉及对几何图形的理解，对于高考生来说，可能轻轻松松画条辅助线就能解决。但几乎所有多模态大模型都在此折戟，只有OpenAI的o3模型在三次尝试中答对了两次。

DeepSeek-R1-0528的表现略逊于其他推理模型，可能原因在于其推理思维链过长。高考题目并未复杂到需要如此深度的“思考”，结果反而可能导致它在过程中“想歪了”。这似乎印证了一点：有时候，想得短一点、直接一点，正确率或许会更高。

所有的原始作答记录都在这里了。我们实实在在地为每个模型、每道题都运行了3次。

下次一定得抽空写个自动化脚本，这种纯人力测试，强度确实有点顶不住。

那么，最终的成绩单终于要揭晓了。

这个排名，确实让人颇感意外。

需要特别说明的是，本次测试过程严格遵守既定规则，未有任何弄虚作假，测试结果完全基于模型的实际表现。但结果就是如此发生了。

在我们的测试中，讯飞星火和豆包除了在第6题失分外，其余题目全部答对，以145分的超高分并列第一。

通义千问Qwen3在解答题部分表现完美，全数拿下。可惜在填空题环节，因一次失误（3次尝试中2对1错），损失了宝贵的1.7分，最终以143.3分屈居第三。

Gemini 2.5 Pro在解答题部分出现了一些失误，以139.7分位列第四。

混元T1和文心X1在解答题上的失误稍多一些，比Gemini 2.5 Pro多丢了2.7分，并列第五。

这个结果，很有意思。

说实话，很久没有一次测试能让人如此兴致盎然了。回想2023年第一次测试AI做高考数学题时，场面多少有些“惨不忍睹”，强如大模型，面对基础题目也可能束手无策。

短短两年时间，它们对于高考数学题的应对能力，已经普遍达到了优秀学生的水准。AI的进化速度，确实快得有点惊人。

或许，这正是这份工作令人着迷的地方——它总能带来未知、惊喜，以及那种“一年抵十年”的深刻体验。

至此，这场AI高考可以画上一个句号了。窗外，天边已泛起鱼肚白，新的一天，已然到来。

来源:https://www.uisdc.com/ai-math-gaokao

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：零基础AI Agent工作流设计指南高效应对BOSS需求下一篇：AI海外本地化人物打造指南提升40%点击率规范手册

相关攻略

AI资讯

零一万物获超15亿元订单与内江高新区共建AI产业高地

零一万物与四川内江高新区达成超1 5亿元合作，共建人工智能产业基地。项目聚焦垂直领域大模型应用，构建区域性AI服务平台，推动产业智能化。依托当地芯片设计、智能终端等产业链基础，双方将协同打造城市级AI基础设施，促进人工智能与实体经济深度融合。

热心网友

05.25

AI教程

AI制作PPT技巧提升职场效率与演示效果

如何利用AI高效制作专业PPT：三大实用方法详解在当今职场环境中，演示文稿的制作水平与工作效率已成为衡量专业能力的重要指标。然而，从内容构思、素材收集到视觉设计，传统PPT制作流程往往耗时费力。随着人工智能技术的成熟，AI工具为演示文稿创作带来了革命性改变——不仅能大幅节省制作时间，更能显著提升内

热心网友

05.25

AI教程

AI分镜脚本如何革新影视制作流程与行业规则

AI分镜脚本创作：碘伏传统的叙事方式数字化浪潮席卷之下，影视制作的工具箱正在被人工智能（AI）重新定义。其中，AI分镜脚本创作正从一个前沿概念，迅速演变为一股不可忽视的行业趋势。它带来的不仅是效率的飞跃，更在悄然重塑着叙事本身的可能性。要理解这场变革，得先从分镜脚本本身说起。这个环节，本质上是将

热心网友

05.25

AI教程

AI课程PPT制作指南高效方法与专业内容设计

如何利用WPS AI提升PPT制作效率，轻松创建专业课程内容在当今快节奏的内容创作环境中，高效产出高质量的演示文稿和课程材料，已成为教育工作者、培训师及职场人士的普遍需求。你是否也曾为制作一份PPT而投入大量精力，反复修改结构、搜寻素材，但最终成果仍不尽如人意？这种费时费力的传统方式，正随着智能化

热心网友

05.25

AI教程

AI排版工具如何提升工作效率让办公更轻松

AI排版工具如何提升工作效率？智能排版解决方案全解析在当今内容驱动的数字时代，视觉呈现的质量直接影响信息传播效果。一份结构清晰、版式专业的文档或设计作品，能够迅速吸引读者注意，显著提升信息传递效率。本文将全面解析AI智能排版工具的核心优势与应用技巧，帮助您掌握如何借助人工智能技术，让排版工作变得高

热心网友

05.25

热门推荐

web3.0

Mango Network（MGO币）未来前景与价格走势深度分析预测

Mango Network (MGO)：重塑Web3未来的高性能多虚拟机公链在区块链技术飞速演进的今天，可扩展性、互操作性和开发者体验已成为下一代基础设施的核心战场。面对以太坊生态的拥堵与高昂费用，以及众多新兴链带来的流动性割裂，市场亟需一个能够无缝连接不同生态、兼具高性能与安全性的解决方案。正是

热心网友

05.25

AI教程

Krisp AI降噪工具如何消除背景噪音提升通话质量

在远程办公与在线协作日益普及的今天，视频会议和语音通话中的背景噪音已成为影响沟通效率的常见难题。无论是居家办公时的家庭杂音、咖啡厅的环境嘈杂，还是突如其来的施工声响，这些干扰都会降低通话质量，分散与会者注意力。自2017年成立以来，有一家公司始终专注于利用人工智能技术解决这一痛点——它就是Krisp

热心网友

05.25

AI教程

AI会议助手自动生成纪要摘要与待办事项

产品介绍在信息过载的时代，高效处理音频与视频内容已成为职场人士和内容创作者的普遍需求。听脑AI精准洞察这一痛点，它不仅是一款高精度的语音转文字工具，更是一个深度融合了大型语言模型（LLM）的智能分析平台。其核心价值在于：将冗长的会议录音、访谈视频、课程讲座等音视频资料，快速转化为结构化文本、专业会

热心网友

05.25

AI教程

Boomy音乐制作工具分享功能使用指南

在当今数字音乐创作领域，技术门槛正变得越来越低。即使你没有任何乐理基础，或者缺乏专业的录音设备，现在也能通过在线工具轻松实现音乐创作梦想。Boomy 正是这样一个专注于简化音乐制作流程的在线平台，它让普通人也能快速将灵感转化为完整的音乐作品。 Boomy 的核心设计理念非常清晰：它提供了一个丰富的预

热心网友

05.25

web3.0

MEXC抹茶交易所USDT充值教程与实用技巧详解

在MEXC（抹茶）交易所进行USDT充值的完整指南对于数字资产交易者而言，快速、安全地将资金划转至交易平台是第一步。本指南将详细介绍在MEXC平台进行USDT充值的具体流程与核心技巧，帮助您高效完成操作，规避常见风险。一、充值前的准备工作在开始操作前，有两项准备工作必不可少： 1 确保您已经

热心网友

05.25