首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
"人类终极难题:你敢挑战这些未解之谜吗?"

"人类终极难题:你敢挑战这些未解之谜吗?"

热心网友
29
转载
2025-09-26

人工智能评测的困境:当所有模型都拿满分时

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

自从AI技术问世以来,人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi,每当新模型发布时,必然伴随着一系列评测数据的公布。

时至今日,常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录",在MMLU等主流评测中,大多数模型的准确率已经轻松突破90%大关。换句话说,现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景,那时的模型只需要表现出基本的人类特质就能通过测试(如今的图灵测试几乎无人提及)|x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试,但这些测试正在快速达到饱和,逐渐失去衡量价值..."最新研究报告指出,"在MMLU和GPQA等测试中获得高分,已不能准确反映技术进步,因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中,主流大模型的表现已经不相上下。这引出了一个有趣的问题:如果AI真的比人类更聪明,我们是否有能力真正理解这一点?|bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力,并为不同模型划分层次,我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发,题库涵盖了2500个前沿学术难题,分布于100多个专业领域。值得注意的是,这套测试不仅包含了理科内容,还纳入了大量人文学科知识。

题库主要分为以下几类:

  • 数学:涵盖高等代数、拓扑学等深度推理题
  • 自然科学:物理、化学、生物等学科
  • 计算机与AI:算法、程序推理等内容
  • 人文社科:语言学、历史学、经济学等
  • 其他特殊领域

题库分布

数学题占比41%,人文社科题占比18%|HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述,还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身,才能尝试作答。

以下是几个典型样例:

  • 古典学:要求将墓碑上的罗马铭文翻译成特定语言
  • 神话学:考察复杂的人物关系推断
  • 生物学:需要精确的数字回答
  • 计算机学科:结合图论和马尔可夫链的复合题

为了保证测试的公正性,主办方特别设置了Private测试集,用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战",后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇:25岁参与编写MMLU测试标准,30岁时发现其局限性,随后投身开发更严格的评测体系。

2024年9月,团队面向全球学者发起征集:"为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选:先由AI测试作答能力,再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现:

  • OpenAI o3-mini:13%准确率
  • DeepSeek-R1:9.4%准确率
  • Grok4:26.9%准确率(目前最高)

测试难度体现在多个方面:

  1. 题目需要深度推理而非简单检索
  2. 故意设置了回答形式限制
  3. 部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良,但已经开始面临质疑:

  • 部分题目答案可能存在错误
  • 对生成类问题的评估能力有限
  • 各组表现差距仍然不够明显

预测显示,到2025年底,AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时,我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

来源:https://www.huxiu.com/article/4785162.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

英伟达豪掷千亿投资OpenAI背后的商业逻辑
科技数码
英伟达豪掷千亿投资OpenAI背后的商业逻辑

英伟达和OpenAI达成世纪合作!最新消息,英伟达计划向OpenAI投资最高1000亿美元,OpenAI则要用这笔钱构建至少10GW的AI数据中心,全用英伟达的系统。10GW,相当于400万~500

热心网友
12.12
AI取代哪些岗位?从业者如何应对危机
科技数码
AI取代哪些岗位?从业者如何应对危机

人工智能技术正以前所未有的速度重塑全球劳动力市场,但它在不同人群中引发的情绪却截然不同。德意志银行9月23日发布的研报显示,面对AI可能带来的岗位冲击,最熟悉数字世界的年轻人,反而对AI取代其工作的

热心网友
12.12
微软OpenAI战略变局下,亚马逊联手Anthropic如何破局
科技数码
微软OpenAI战略变局下,亚马逊联手Anthropic如何破局

美国的AI市场,正上演两大阵营的对垒。台前,是全球最大的两家AI创业公司,OpenAI和Anthropic。幕后,则是微软、亚马逊这两家科技巨头,也是全球前两大云厂商,两家长期把持着云市场60%以上

热心网友
12.12
AI取代工作真相:半数失业后GDP为何不降?
科技数码
AI取代工作真相:半数失业后GDP为何不降?

在大多数人的直觉里,只要经济持续增长,工资总会水涨船高。可最新的一篇论文却抛出残酷预言:在AGI时代,经济会因为算力扩张而狂飙不止,但普通人的工资却被“算力成本”锁死,彻底与增长脱钩。也就是说,哪怕

热心网友
12.12
门店管理:AI与人力协同决策的关键在哪里?
科技数码
门店管理:AI与人力协同决策的关键在哪里?

在瑞幸咖啡的门店,AI基于180天历史数据和12项实时指标(如客流、设备状态、天气等)预测各时段客流,自动生成排班表;在绝味鸭脖门店,店长Agent“绝智”把销冠的经验,转化成智能排班、活动策略、实

热心网友
12.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08