AI办公实测准确率不足25%,发展却快于预期
IT之家1月26日引述Digital Trends 24日报道称,一份由数据训练公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公任务时表现不尽人意,最高准确率未超过25%。该研究证实,AI在短期内仍难以替代人类知识工作者。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项研究基于Mercor最新推出的APEX-Agents基准进行测试。与以往主要通过写诗和解数学题来评估AI的传统方法不同,该基准直接采用了律师、顾问和银行家的真实工作流程,要求受试模型完成跨越多个信息来源的多步骤综合任务。
结果显示,即便是市场上明显处于领先地位的模型,其准确率也无法达到25%。测试中表现领先的Gemini 3 Flash和GPT-5.2,准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。

为何AI会在“办公测试”中表现不佳?Mercor首席执行官Brendan Foody分析认为,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散的资源,比如查看日程、翻阅即时通讯记录、阅读PDF文档和电子表格。而AI在进行跨源信息搜索与整理时,容易出现混淆、出错,或者干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。
IT之家附APEX-Agents准确率测试结果如下:
Gemini 3 Flash - 24.0%
GPT-5.2 - 23.0%
Claude Opus 4.5 - 18.4%
Gemini 3 Pro - 18.4%
GPT-5 - 18.3%
Grok 4 - 15.2%
GPT-OSS-120B - 4.7%
Kimi K2 Thinking - 4.0%
尽管表现有限,但AI的进步速度引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI尚无法胜任复杂的知识工作。
相关攻略
IT之家 4 月 3 日消息,科技媒体 Android Authority 昨日发布博文,报道称在安卓 17 Beta 3 更新中,发现谷歌正在酝酿“通知规则”功能,用户可以针对特定应用、联系人设定
IT之家 3 月 17 日消息,科技媒体 Android Authority 今天发布博文,报道称三星承认 Galaxy S26 Ultra 旗舰手机的“防窥屏”技术存在瑕疵,在特定视角和最高亮度下
IT之家 3 月 11 日消息,苹果现已更新了其 Mac 笔记本电池循环次数说明支持页面,在文档中新增了 MacBook Neo 的最大充电循环次数信息。根据该文档,MacBook Neo 的电池最
3月6日,Anthropic近日发布了关于AI对劳动力市场影响的最新研究报告,提出结合Claude大模型实际应用数据的实际暴露度新指标。研究指出,目前AI的实际应用远不及理论上限,但程序员、客服等
IT之家 3 月 1 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果计划在 WWDC 26 开发者大会上发布全新 Core AI 框架,取代现有的 Core M
热门专题
热门推荐
短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课
志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、
对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧
当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊
《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。





