游乐游手机版
首页/科技数码/文章详情

"人类终极难题:你敢挑战这些未解之谜吗?"

时间:2025-09-26 09:41
跑分都满分则跑分无意义。从AI刚刚面世,人们就执着于用各种各样的题库来测试AI到底有多聪明,不管是ChatGPT、Gemini、Grok,还是DeepSeek、Kimi、文心一言,它们发布的同时,几

人工智能评测的困境:当所有模型都拿满分时

自从AI技术问世以来,人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi,每当新模型发布时,必然伴随着一系列评测数据的公布。

时至今日,常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录",在MMLU等主流评测中,大多数模型的准确率已经轻松突破90%大关。换句话说,现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景,那时的模型只需要表现出基本的人类特质就能通过测试(如今的图灵测试几乎无人提及)|x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试,但这些测试正在快速达到饱和,逐渐失去衡量价值..."最新研究报告指出,"在MMLU和GPQA等测试中获得高分,已不能准确反映技术进步,因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中,主流大模型的表现已经不相上下。这引出了一个有趣的问题:如果AI真的比人类更聪明,我们是否有能力真正理解这一点?|bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力,并为不同模型划分层次,我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发,题库涵盖了2500个前沿学术难题,分布于100多个专业领域。值得注意的是,这套测试不仅包含了理科内容,还纳入了大量人文学科知识。

题库主要分为以下几类:

  • 数学:涵盖高等代数、拓扑学等深度推理题
  • 自然科学:物理、化学、生物等学科
  • 计算机与AI:算法、程序推理等内容
  • 人文社科:语言学、历史学、经济学等
  • 其他特殊领域

题库分布

数学题占比41%,人文社科题占比18%|HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述,还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身,才能尝试作答。

以下是几个典型样例:

  • 古典学:要求将墓碑上的罗马铭文翻译成特定语言
  • 神话学:考察复杂的人物关系推断
  • 生物学:需要精确的数字回答
  • 计算机学科:结合图论和马尔可夫链的复合题

为了保证测试的公正性,主办方特别设置了Private测试集,用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战",后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇:25岁参与编写MMLU测试标准,30岁时发现其局限性,随后投身开发更严格的评测体系。

2024年9月,团队面向全球学者发起征集:"为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选:先由AI测试作答能力,再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现:

  • OpenAI o3-mini:13%准确率
  • DeepSeek-R1:9.4%准确率
  • Grok4:26.9%准确率(目前最高)

测试难度体现在多个方面:

  1. 题目需要深度推理而非简单检索
  2. 故意设置了回答形式限制
  3. 部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良,但已经开始面临质疑:

  • 部分题目答案可能存在错误
  • 对生成类问题的评估能力有限
  • 各组表现差距仍然不够明显

预测显示,到2025年底,AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时,我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

来源:https://www.huxiu.com/article/4785162.html
上一篇中证机器人ETF业绩亮眼:成立收益超40%且近1年表现优异 下一篇2026年八大AI趋势预测:AI管家将重塑职场格局
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
英伟达持续统治TOP500超算榜单市场份额占比高达81%
科技数码 · 2026-07-05

英伟达持续统治TOP500超算榜单市场份额占比高达81%

在近期闭幕的ISC 2026高性能计算大会上,最新TOP500与Green500榜单释放出一个重要信号:英伟达已成为高性能计算领域的绝对领导者。全球500台顶尖超级计算机中,超过400台的核心技术源自英伟达,市场份额达到81%。 更引人注目的是,新晋榜单的系统几乎全面倒向英伟达——近90%的新增机器

NVIDIA与多伦多大学打造3D资产物理材质透视仪
科技数码 · 2026-07-05

NVIDIA与多伦多大学打造3D资产物理材质透视仪

这项由NVIDIA与多伦多大学联合完成的突破性研究,正式入选2026年第43届国际机器学习大会(ICML 2026),会议在韩国首尔举办,论文收录于PMLR 306论文集,编号为arXiv:2606 18231。 你是否好奇过,电影中随风飘动的布料、坐下去缓慢下陷的沙发——这种“真实感”究竟源自何处

任天堂Switch 2港版售价9月1日起上调至3700港元
科技数码 · 2026-07-05

任天堂Switch 2港版售价9月1日起上调至3700港元

任天堂Switch2港版售价自9月1日起从3450港元上调至3700港元。涨价主因是全球AI数据中心建设推高内存芯片需求,加之国际贸易环境影响,制造与运营成本预计增加约1000亿日元。日本市场已先行调价,会员服务及已购用户不受影响。

影驰9700X处理器+RTX5070显卡整机享超级补贴一步到位
科技数码 · 2026-07-05

影驰9700X处理器+RTX5070显卡整机享超级补贴一步到位

随着越来越多3A大作开始拥抱光线追踪、AI画质增强与高帧率技术,如今组装电脑早已不是“能玩就行”的时代。真正的目标是玩得尽兴,还能用得长久。无论你准备一步到位配置新机,还是想升级显卡以迎接未来几年的大作,选对硬件组合都是最关键的一步。这里有两款影驰的产品,定位不同,覆盖的场景也不一样——一套是搭载A

威麟P3X柴混动力冷暖冰箱 内饰打造高端休闲新体验
科技数码 · 2026-07-05

威麟P3X柴混动力冷暖冰箱 内饰打造高端休闲新体验

在高端休闲皮卡这一细分市场中,威麟P3X凭借独特的设计理念与丰富配置,展现出强劲的竞争力。它的内饰布局巧妙融合了传统美学与现代科技:中控台采用平直线条与宽体对称设计,灵感源自传统榫卯结构,既有文化底蕴又不失大气稳重,视觉感受非常舒适。座舱提供棕色与全黑两种配色,大面积软质材料包裹,触感细腻,豪华氛围