新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%
9 月 14 日消息,一项新研究发现,人类读取指针式时钟的准确率可达 89.1%,而目前最优秀的人工智能(AI)模型准确率仅为 13.3%,该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

阿莱克・萨法尔(Alek Safar)采用名为“ClockBench”的全新测试,让来自 6 家企业的 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的指针式时钟及 720 道测试题,遵循“人类易上手、AI 难突破”的设计思路,这一思路在 ARC-AGI、SimpleBench 等基准测试中也有所体现。
为确保公平性并避免与模型训练数据重叠,萨法尔从零开始构建了该数据集。数据集包含 36 种独特的钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟,总共有 180 个时钟。
每个时钟均通过四类问题进行测试:读取时间、时间计算、按特定角度调整指针,以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围,例如,仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。
萨法尔表示,相较于“人类终极测试”(Humanity's Last Exam)这类侧重知识储备的测试,ClockBench 对 AI 模型的难度更高。测试结果表明,即便面对看似简单的视觉任务,AI 与人类的差距仍十分显著。
谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首,Gemini 2.5 Flash 紧随其后,准确率为 10.5%。GPT-5 排名第三,准确率 8.4%,且调整模型的推理预算对提升准确率效果甚微。

Grok 4 模型表现垫底,准确率仅 0.7%,这一结果颇为出人意料,因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”,但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着,从技术层面来讲,Grok 4 的正确答案数量最多,但这只是通过随机将时钟标记为无效实现的。
Anthropic 公司的 Claude 4 Sonnet(准确率 4.2%)与 Claude 4.1 Opus(准确率 5.6%)表现同样不佳。研究还发现,61.7% 的时钟未能被任何一个 AI 模型正确读取。
相较于准确率,误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟,而表现最佳的 AI 模型中位误差达 1 小时,性能最差的 AI 模型误差约为 3 小时,对于 12 小时制时钟而言,这几乎和随机猜测差不多。

注意到,部分钟面特征对 AI 而言难度极高:当钟面采用罗马数字时,AI 准确率降至 3.2%;采用圆形数字时,准确率仅为 4.5%。此外,秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。
仅含时针的时钟对 AI 而言相对容易(准确率 23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟,也能让 AI 取得相对更好的成绩。

测试还获得了一个意外发现:当 AI 模型成功读取时间后,它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着,AI 面临的挑战并非“进行时间相关的数学运算”,而是“从视觉信息中读取时间”这一初始步骤。
萨法尔认为,背后原因可能有三点:其一,读取指针式时钟对视觉推理能力是一项严峻考验;其二,罕见或特殊的钟面设计在训练数据中出现频率极低;其三,将钟面视觉信息转化为文字描述,对当前 AI 模型而言很可能是一项难题。
ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态,以避免污染未来 AI 的训练过程,但已有一个规模较小的公开版本可供测试使用。
尽管 AI 在该测试中的得分普遍较低,萨法尔仍看到了希望:性能最佳的模型表现优于随机猜测,且展现出基础的视觉推理能力。不过,这些能力能否通过“扩大现有方法规模”得到提升,还是需要全新技术路径来突破,目前仍是一个待解的问题。
一年前,中国一项研究也曾发现多模态语言模型存在类似的能力短板,但当时的结果要好得多。彼时,GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中,准确率达到 54.8%。而此次 ClockBench 测试中,AI 的最高准确率仅为 13.3%,这一差距既表明新基准测试难度显著提升,也反映出 AI 的时钟读取能力并未取得明显进步。
相关攻略
用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇
美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能
当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令
好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发
如何使用WorkBuddy深度学习我的说话方式,让每一份文案都自带个人风格 作为一名企业培训师,每年主讲上百场课程是行业常态。无论是线下公开课、线上直播,还是视频号、公众号的内容创作,每天的工作状态不是在授课,就是在准备各种讲稿的路上。早期借助通用AI工具辅助创作,写作效率确实有所提升,但生成的内容
热门专题
热门推荐
《洛克王国世界》呼唤独角兽的正确姿势 在《洛克王国世界》的主线任务中,有时会遇到需要精确输入特定角色名称的环节。其中一个关键节点,便是要准确拼写出独角兽“伊利斯”的真名。很多玩家稍不注意就可能记错或用错字,导致任务流程在此停滞不前。这篇指南将为你清晰解析正确的输入方法,助你快速通关。 《洛克王国世界
《洛克王国世界》风眠圣所“向上的方法”任务图文通关指南 在《洛克王国世界》的风眠圣所探险过程中,很多玩家会在“找到向上的方法”这一环节遭遇卡点。实际上,只要理清思路、明确顺序,完成这个挑战并不困难。本攻略将为你提供一套经过验证的详细图文流程,帮助你一次性顺利通过。 最后的关键操作非常简单:准确判断风
《洛克王国世界》叶冕魔力猫打法全攻略:高效通关技巧解析 在《洛克王国世界》的主线剧情推进中,挑战初始精灵首领叶冕魔力猫是一个重要环节。许多玩家在这个关卡遇到了困难,感觉难以突破。不必担心,这份详尽的实战打法指南将为你提供清晰的过关思路,帮助你轻松击败叶冕魔力猫。 核心挑战思路与强力精灵推荐 与叶冕魔
《洛克王国世界》罗隐捕捉指南:高效获取圣羽翼王挑战关键战宠 在《洛克王国世界》中,成功挑战传说精灵圣羽翼王是许多训练师的终极目标之一。选择合适的战宠至关重要,而罗隐以其出色的对抗能力,已成为公认的核心攻略选择。那么,这只关键的宠物究竟在哪里可以捕获?本文将为你提供详尽的罗隐捕捉位置图解与实用技巧。
速览 在《大店小二》中,如何高效使用元宝和银两是新手玩家普遍面临的难题。资源有限,如何将每一分投入转化为最大收益?本文将深入解析两类资源的最优使用策略,核心原则是:元宝投资于长期价值,银两专注于核心养成。 大店小二元宝与银两使用优先级攻略 1 元宝使用指南 首要建议:若非充值玩家,请勿将元宝大量用





