首页 游戏 软件 资讯 排行榜 专题
首页
科技
"人类终极难题:你敢挑战这些未解之谜吗?"

"人类终极难题:你敢挑战这些未解之谜吗?"

热心网友
67
转载
2025-09-26
来源:https://www.huxiu.com/article/4785162.html

人工智能评测的困境:当所有模型都拿满分时

自从AI技术问世以来,人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi,每当新模型发布时,必然伴随着一系列评测数据的公布。

时至今日,常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录",在MMLU等主流评测中,大多数模型的准确率已经轻松突破90%大关。换句话说,现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景,那时的模型只需要表现出基本的人类特质就能通过测试(如今的图灵测试几乎无人提及)|x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试,但这些测试正在快速达到饱和,逐渐失去衡量价值..."最新研究报告指出,"在MMLU和GPQA等测试中获得高分,已不能准确反映技术进步,因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中,主流大模型的表现已经不相上下。这引出了一个有趣的问题:如果AI真的比人类更聪明,我们是否有能力真正理解这一点?|bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力,并为不同模型划分层次,我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发,题库涵盖了2500个前沿学术难题,分布于100多个专业领域。值得注意的是,这套测试不仅包含了理科内容,还纳入了大量人文学科知识。

题库主要分为以下几类:

  • 数学:涵盖高等代数、拓扑学等深度推理题
  • 自然科学:物理、化学、生物等学科
  • 计算机与AI:算法、程序推理等内容
  • 人文社科:语言学、历史学、经济学等
  • 其他特殊领域

题库分布

数学题占比41%,人文社科题占比18%|HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述,还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身,才能尝试作答。

以下是几个典型样例:

  • 古典学:要求将墓碑上的罗马铭文翻译成特定语言
  • 神话学:考察复杂的人物关系推断
  • 生物学:需要精确的数字回答
  • 计算机学科:结合图论和马尔可夫链的复合题

为了保证测试的公正性,主办方特别设置了Private测试集,用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战",后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇:25岁参与编写MMLU测试标准,30岁时发现其局限性,随后投身开发更严格的评测体系。

2024年9月,团队面向全球学者发起征集:"为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选:先由AI测试作答能力,再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现:

  • OpenAI o3-mini:13%准确率
  • DeepSeek-R1:9.4%准确率
  • Grok4:26.9%准确率(目前最高)

测试难度体现在多个方面:

  1. 题目需要深度推理而非简单检索
  2. 故意设置了回答形式限制
  3. 部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良,但已经开始面临质疑:

  • 部分题目答案可能存在错误
  • 对生成类问题的评估能力有限
  • 各组表现差距仍然不够明显

预测显示,到2025年底,AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时,我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI究竟指什么味道?揭秘人工智能的真实
科技
AI究竟指什么味道?揭秘人工智能的真实"气味"

AI技术的迅猛发展,正在重塑机器与人工写作的认知边界。2025年7月,一位互联网平台博主的发帖引发热议:该博主表示,由于在行文中出现了大量破折号,他的文字被人们误判为“AI生成”,他最钟爱的标点符号

热心网友
09.26
雷军专访:解密小米为何不再追求快速制胜
科技
雷军专访:解密小米为何不再追求快速制胜

“小米内部经常吵得死去活来,翻天覆地,甚至为一个问题争执一年。但这样,老板才不容易犯错误。”9月25日晚,小米董事长雷军在接受《中国企业家》等媒体采访时称。9月25日19时,小米CEO雷军发表了自己

热心网友
09.26
10万亿数据训练揭秘:中国电信AI专家阮宜龙专访
科技
10万亿数据训练揭秘:中国电信AI专家阮宜龙专访

正所谓“得数据者得天下”,这家央企算是把高质量数据集给玩明白了——超过10万亿tokens的通用大模型语料数据,以及覆盖14个关键行业的专业数据集,总存储量高达350TB!如此庞大的体量,还不是杂乱

热心网友
09.26
科技
"人类终极难题:你敢挑战这些未解之谜吗?"

跑分都满分则跑分无意义。从AI刚刚面世,人们就执着于用各种各样的题库来测试AI到底有多聪明,不管是ChatGPT、Gemini、Grok,还是DeepSeek、Kimi、文心一言,它们发布的同时,几

热心网友
09.26
周鸿祎对话罗永浩:不用AI的员工将面临淘汰
科技
周鸿祎对话罗永浩:不用AI的员工将面临淘汰

今日,罗永浩与周鸿祎这两位科技圈的“老熟人”再度同框,近四小时高密度输出引发热议。谈话中,周鸿祎直言早年因“谁都敢怼”被贴上“平头哥”标签,与三大互联网巨头长期处于紧张竞争状态,对方“能掐就掐”的打

热心网友
09.25

最新APP

永恒机甲战争
永恒机甲战争
角色扮演 09-27
太空杀腾讯
太空杀腾讯
休闲益智 09-27
蜀山传奇小米
蜀山传奇小米
角色扮演 09-27

热门推荐

阿里云联手英伟达集成AI开发工具,共筑智能生态
科技
阿里云联手英伟达集成AI开发工具,共筑智能生态

全球GPU领域领军企业英伟达近日在中国市场展开重要布局,宣布与中国科技巨头阿里巴巴达成战略合作伙伴关系。此次合作将英伟达专为机器人、自动驾驶及智能空间设计的AI开发工具引入阿里云AI平台,为工业自动

热心网友
09.27
岚图泰山开启预订:中式豪华SUV融合尖端科技
科技
岚图泰山开启预订:中式豪华SUV融合尖端科技

上海世博创意秀场内,灯光璀璨,2025岚图汽车时代风尚之夜在此盛大启幕。当晚,备受期待的岚图全新旗舰SUV——岚图泰山正式开启预订,并同步推出一系列极具吸引力的尊享权益,包括2000元订金可抵扣50

热心网友
09.27
2026年起电动车出口实行许可制,四部门新规出台
科技
2026年起电动车出口实行许可制,四部门新规出台

近日,商务部联合工业和信息化部、海关总署及市场监管总局共同发布重要公告,宣布将对纯电动乘用车实施出口许可证管理制度,旨在推动新能源汽车贸易的可持续发展。根据公告内容,此次纳入出口许可证管理的对象为仅

热心网友
09.27
自贡成立1.6亿数投机器人公司 专注AI领域投资
AI
自贡成立1.6亿数投机器人公司 专注AI领域投资

近日,一家名为自贡数投机器人产业投资有限公司的新企业在工商部门完成注册登记,正式宣告成立。据公开信息显示,该公司法定代表人为魏愚,注册资本达1 6亿元人民币,展现出雄厚的资金实力。该公司的经营范围十

热心网友
09.27
微信亲属打车功能上线:老人打车免密代付可分享行程
软件教程
微信亲属打车功能上线:老人打车免密代付可分享行程

9月26日消息,虽然现在很多手机App都进行了适老化适配,但是很多操作对于老年人来说依然过于复杂,他们很难理解,比如打车的选择自己位置、目的地,以及支付等问题。自己操作步骤繁琐容易

热心网友
09.27