首页 游戏 软件 资讯 排行榜 专题
首页
AI
AI办公实测准确率不足25%,发展却快于预期

AI办公实测准确率不足25%,发展却快于预期

热心网友
73
转载
2026-01-26

IT之家1月26日引述Digital Trends 24日报道称,一份由数据训练公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公任务时表现不尽人意,最高准确率未超过25%。该研究证实,AI在短期内仍难以替代人类知识工作者。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新测试表明AI实际办公准确率不达25%,但进展比想象更快

这项研究基于Mercor最新推出的APEX-Agents基准进行测试。与以往主要通过写诗和解数学题来评估AI的传统方法不同,该基准直接采用了律师、顾问和银行家的真实工作流程,要求受试模型完成跨越多个信息来源的多步骤综合任务。

结果显示,即便是市场上明显处于领先地位的模型,其准确率也无法达到25%。测试中表现领先的Gemini 3 Flash和GPT-5.2,准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。

新测试表明AI实际办公准确率不达25%,但进展比想象更快

为何AI会在“办公测试”中表现不佳?Mercor首席执行官Brendan Foody分析认为,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散的资源,比如查看日程、翻阅即时通讯记录、阅读PDF文档和电子表格。而AI在进行跨源信息搜索与整理时,容易出现混淆、出错,或者干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。

IT之家附APEX-Agents准确率测试结果如下:

Gemini 3 Flash - 24.0%

GPT-5.2 - 23.0%

Claude Opus 4.5 - 18.4%

Gemini 3 Pro - 18.4%

GPT-5 - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B - 4.7%

Kimi K2 Thinking - 4.0%

尽管表现有限,但AI的进步速度引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI尚无法胜任复杂的知识工作。

来源:https://tech.ifeng.com/c/8qDzcp6x8IQ
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

安卓17将支持定制通知规则:5种预设,能单独屏蔽某人来电通知
礼仪与书信
安卓17将支持定制通知规则:5种预设,能单独屏蔽某人来电通知

IT之家 4 月 3 日消息,科技媒体 Android Authority 昨日发布博文,报道称在安卓 17 Beta 3 更新中,发现谷歌正在酝酿“通知规则”功能,用户可以针对特定应用、联系人设定

热心网友
04.07
三星回应S26 Ultra防窥屏偏暗问题,日常使用影响解析
礼仪与书信
三星回应S26 Ultra防窥屏偏暗问题,日常使用影响解析

IT之家 3 月 17 日消息,科技媒体 Android Authority 今天发布博文,报道称三星承认 Galaxy S26 Ultra 旗舰手机的“防窥屏”技术存在瑕疵,在特定视角和最高亮度下

热心网友
03.17
MacBook电池保养指南:1000次循环后健康度维持80%
礼仪与书信
MacBook电池保养指南:1000次循环后健康度维持80%

IT之家 3 月 11 日消息,苹果现已更新了其 Mac 笔记本电池循环次数说明支持页面,在文档中新增了 MacBook Neo 的最大充电循环次数信息。根据该文档,MacBook Neo 的电池最

热心网友
03.11
Anthropic报告揭示AI对高薪职业冲击,替代进度超出预期
AI
Anthropic报告揭示AI对高薪职业冲击,替代进度超出预期

3月6日,Anthropic近日发布了关于AI对劳动力市场影响的最新研究报告,提出结合Claude大模型实际应用数据的实际暴露度新指标。研究指出,目前AI的实际应用远不及理论上限,但程序员、客服等

热心网友
03.07
苹果WWDC26前瞻:Core AI框架将取代Core ML,多项AI功能亮相
礼仪与书信
苹果WWDC26前瞻:Core AI框架将取代Core ML,多项AI功能亮相

IT之家 3 月 1 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果计划在 WWDC 26 开发者大会上发布全新 Core AI 框架,取代现有的 Core M

热心网友
03.02

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

深度学习与生成式AI为人工智能工程师带来新机遇
AI
深度学习与生成式AI为人工智能工程师带来新机遇

短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课

热心网友
05.14
AI绘画工具志设:在线生成图片的智能平台
AI
AI绘画工具志设:在线生成图片的智能平台

志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、

热心网友
05.14
AI口语练习软件TalkMe帮你克服社交恐惧
AI
AI口语练习软件TalkMe帮你克服社交恐惧

对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧

热心网友
05.14
王牌机甲现代战争手游上班挂机下班称霸全攻略
游戏资讯
王牌机甲现代战争手游上班挂机下班称霸全攻略

当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊

热心网友
05.14
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南
游戏资讯
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南

《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。

热心网友
05.14