首页 游戏 软件 资讯 排行榜 专题
首页
AI
AI办公实测准确率不足25%,发展却快于预期

AI办公实测准确率不足25%,发展却快于预期

热心网友
75
转载
2026-01-26

IT之家1月26日引述Digital Trends 24日报道称,一份由数据训练公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公任务时表现不尽人意,最高准确率未超过25%。该研究证实,AI在短期内仍难以替代人类知识工作者。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新测试表明AI实际办公准确率不达25%,但进展比想象更快

这项研究基于Mercor最新推出的APEX-Agents基准进行测试。与以往主要通过写诗和解数学题来评估AI的传统方法不同,该基准直接采用了律师、顾问和银行家的真实工作流程,要求受试模型完成跨越多个信息来源的多步骤综合任务。

结果显示,即便是市场上明显处于领先地位的模型,其准确率也无法达到25%。测试中表现领先的Gemini 3 Flash和GPT-5.2,准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。

新测试表明AI实际办公准确率不达25%,但进展比想象更快

为何AI会在“办公测试”中表现不佳?Mercor首席执行官Brendan Foody分析认为,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散的资源,比如查看日程、翻阅即时通讯记录、阅读PDF文档和电子表格。而AI在进行跨源信息搜索与整理时,容易出现混淆、出错,或者干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。

IT之家附APEX-Agents准确率测试结果如下:

Gemini 3 Flash - 24.0%

GPT-5.2 - 23.0%

Claude Opus 4.5 - 18.4%

Gemini 3 Pro - 18.4%

GPT-5 - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B - 4.7%

Kimi K2 Thinking - 4.0%

尽管表现有限,但AI的进步速度引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI尚无法胜任复杂的知识工作。

来源:https://tech.ifeng.com/c/8qDzcp6x8IQ
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

三星回应S26 Ultra防窥屏偏暗问题,日常使用影响解析
礼仪与书信
三星回应S26 Ultra防窥屏偏暗问题,日常使用影响解析

IT之家 3 月 17 日消息,科技媒体 Android Authority 今天发布博文,报道称三星承认 Galaxy S26 Ultra 旗舰手机的“防窥屏”技术存在瑕疵,在特定视角和最高亮度下

热心网友
03.17
MacBook电池保养指南:1000次循环后健康度维持80%
礼仪与书信
MacBook电池保养指南:1000次循环后健康度维持80%

IT之家 3 月 11 日消息,苹果现已更新了其 Mac 笔记本电池循环次数说明支持页面,在文档中新增了 MacBook Neo 的最大充电循环次数信息。根据该文档,MacBook Neo 的电池最

热心网友
03.11
Anthropic报告揭示AI对高薪职业冲击,替代进度超出预期
AI
Anthropic报告揭示AI对高薪职业冲击,替代进度超出预期

3月6日,Anthropic近日发布了关于AI对劳动力市场影响的最新研究报告,提出结合Claude大模型实际应用数据的实际暴露度新指标。研究指出,目前AI的实际应用远不及理论上限,但程序员、客服等

热心网友
03.07
苹果WWDC26前瞻:Core AI框架将取代Core ML,多项AI功能亮相
礼仪与书信
苹果WWDC26前瞻:Core AI框架将取代Core ML,多项AI功能亮相

IT之家 3 月 1 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果计划在 WWDC 26 开发者大会上发布全新 Core AI 框架,取代现有的 Core M

热心网友
03.02
Steam Deck已验超2.5万款游戏,你的游戏能玩吗?
科技数码
Steam Deck已验超2.5万款游戏,你的游戏能玩吗?

IT之家 1 月 28 日消息,根据第三方数据平台 SteamDB 统计,Valve 旗下掌机 Steam Deck 的“已验证”游戏总数已突破 2 5 万款。截至目前,共有 25055 款游戏获得

热心网友
01.28

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27