AI办公实测准确率不足25%,发展却快于预期
IT之家1月26日引述Digital Trends 24日报道称,一份由数据训练公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公任务时表现不尽人意,最高准确率未超过25%。该研究证实,AI在短期内仍难以替代人类知识工作者。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项研究基于Mercor最新推出的APEX-Agents基准进行测试。与以往主要通过写诗和解数学题来评估AI的传统方法不同,该基准直接采用了律师、顾问和银行家的真实工作流程,要求受试模型完成跨越多个信息来源的多步骤综合任务。
结果显示,即便是市场上明显处于领先地位的模型,其准确率也无法达到25%。测试中表现领先的Gemini 3 Flash和GPT-5.2,准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。

为何AI会在“办公测试”中表现不佳?Mercor首席执行官Brendan Foody分析认为,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散的资源,比如查看日程、翻阅即时通讯记录、阅读PDF文档和电子表格。而AI在进行跨源信息搜索与整理时,容易出现混淆、出错,或者干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。
IT之家附APEX-Agents准确率测试结果如下:
Gemini 3 Flash - 24.0%
GPT-5.2 - 23.0%
Claude Opus 4.5 - 18.4%
Gemini 3 Pro - 18.4%
GPT-5 - 18.3%
Grok 4 - 15.2%
GPT-OSS-120B - 4.7%
Kimi K2 Thinking - 4.0%
尽管表现有限,但AI的进步速度引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI尚无法胜任复杂的知识工作。
相关攻略
IT之家 3 月 17 日消息,科技媒体 Android Authority 今天发布博文,报道称三星承认 Galaxy S26 Ultra 旗舰手机的“防窥屏”技术存在瑕疵,在特定视角和最高亮度下
IT之家 3 月 11 日消息,苹果现已更新了其 Mac 笔记本电池循环次数说明支持页面,在文档中新增了 MacBook Neo 的最大充电循环次数信息。根据该文档,MacBook Neo 的电池最
3月6日,Anthropic近日发布了关于AI对劳动力市场影响的最新研究报告,提出结合Claude大模型实际应用数据的实际暴露度新指标。研究指出,目前AI的实际应用远不及理论上限,但程序员、客服等
IT之家 3 月 1 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果计划在 WWDC 26 开发者大会上发布全新 Core AI 框架,取代现有的 Core M
IT之家 1 月 28 日消息,根据第三方数据平台 SteamDB 统计,Valve 旗下掌机 Steam Deck 的“已验证”游戏总数已突破 2 5 万款。截至目前,共有 25055 款游戏获得
热门专题
热门推荐
猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆
据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels
本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2
Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向
3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长





