"人类终极难题：你敢挑战这些未解之谜吗？"

首页/科技数码/文章详情

"人类终极难题：你敢挑战这些未解之谜吗？"

时间：2025-09-26 09:41

跑分都满分则跑分无意义。从AI刚刚面世，人们就执着于用各种各样的题库来测试AI到底有多聪明，不管是ChatGPT、Gemini、Grok，还是DeepSeek、Kimi、文心一言，它们发布的同时，几

人工智能评测的困境：当所有模型都拿满分时

自从AI技术问世以来，人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi，每当新模型发布时，必然伴随着一系列评测数据的公布。

时至今日，常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录"，在MMLU等主流评测中，大多数模型的准确率已经轻松突破90%大关。换句话说，现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景，那时的模型只需要表现出基本的人类特质就能通过测试（如今的图灵测试几乎无人提及）｜x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试，但这些测试正在快速达到饱和，逐渐失去衡量价值..."最新研究报告指出，"在MMLU和GPQA等测试中获得高分，已不能准确反映技术进步，因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中，主流大模型的表现已经不相上下。这引出了一个有趣的问题：如果AI真的比人类更聪明，我们是否有能力真正理解这一点？｜bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力，并为不同模型划分层次，我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发，题库涵盖了2500个前沿学术难题，分布于100多个专业领域。值得注意的是，这套测试不仅包含了理科内容，还纳入了大量人文学科知识。

题库主要分为以下几类：

数学：涵盖高等代数、拓扑学等深度推理题
自然科学：物理、化学、生物等学科
计算机与AI：算法、程序推理等内容
人文社科：语言学、历史学、经济学等
其他特殊领域

题库分布

数学题占比41%，人文社科题占比18%｜HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述，还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身，才能尝试作答。

以下是几个典型样例：

古典学：要求将墓碑上的罗马铭文翻译成特定语言
神话学：考察复杂的人物关系推断
生物学：需要精确的数字回答
计算机学科：结合图论和马尔可夫链的复合题

为了保证测试的公正性，主办方特别设置了Private测试集，用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战"，后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇：25岁参与编写MMLU测试标准，30岁时发现其局限性，随后投身开发更严格的评测体系。

2024年9月，团队面向全球学者发起征集："为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选：先由AI测试作答能力，再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现：

OpenAI o3-mini：13%准确率
DeepSeek-R1：9.4%准确率
Grok4：26.9%准确率（目前最高）

测试难度体现在多个方面：

题目需要深度推理而非简单检索
故意设置了回答形式限制
部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良，但已经开始面临质疑：

部分题目答案可能存在错误
对生成类问题的评估能力有限
各组表现差距仍然不够明显

预测显示，到2025年底，AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时，我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

来源：https://www.huxiu.com/article/4785162.html

独到创新 AI grok 马斯克图灵测试人工智能

上一篇中证机器人ETF业绩亮眼：成立收益超40%且近1年表现优异 下一篇2026年八大AI趋势预测：AI管家将重塑职场格局

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-05

英伟达持续统治TOP500超算榜单市场份额占比高达81%

在近期闭幕的ISC 2026高性能计算大会上，最新TOP500与Green500榜单释放出一个重要信号：英伟达已成为高性能计算领域的绝对领导者。全球500台顶尖超级计算机中，超过400台的核心技术源自英伟达，市场份额达到81%。更引人注目的是，新晋榜单的系统几乎全面倒向英伟达——近90%的新增机器

科技数码 · 2026-07-05

NVIDIA与多伦多大学打造3D资产物理材质透视仪

这项由NVIDIA与多伦多大学联合完成的突破性研究，正式入选2026年第43届国际机器学习大会（ICML 2026），会议在韩国首尔举办，论文收录于PMLR 306论文集，编号为arXiv:2606 18231。你是否好奇过，电影中随风飘动的布料、坐下去缓慢下陷的沙发——这种“真实感”究竟源自何处

科技数码 · 2026-07-05

任天堂Switch 2港版售价9月1日起上调至3700港元

任天堂Switch2港版售价自9月1日起从3450港元上调至3700港元。涨价主因是全球AI数据中心建设推高内存芯片需求，加之国际贸易环境影响，制造与运营成本预计增加约1000亿日元。日本市场已先行调价，会员服务及已购用户不受影响。

科技数码 · 2026-07-05

影驰9700X处理器+RTX5070显卡整机享超级补贴一步到位

随着越来越多3A大作开始拥抱光线追踪、AI画质增强与高帧率技术，如今组装电脑早已不是“能玩就行”的时代。真正的目标是玩得尽兴，还能用得长久。无论你准备一步到位配置新机，还是想升级显卡以迎接未来几年的大作，选对硬件组合都是最关键的一步。这里有两款影驰的产品，定位不同，覆盖的场景也不一样——一套是搭载A

科技数码 · 2026-07-05

威麟P3X柴混动力冷暖冰箱内饰打造高端休闲新体验

在高端休闲皮卡这一细分市场中，威麟P3X凭借独特的设计理念与丰富配置，展现出强劲的竞争力。它的内饰布局巧妙融合了传统美学与现代科技：中控台采用平直线条与宽体对称设计，灵感源自传统榫卯结构，既有文化底蕴又不失大气稳重，视觉感受非常舒适。座舱提供棕色与全黑两种配色，大面积软质材料包裹，触感细腻，豪华氛围