AI办公实测准确率不足25%，发展却快于预期_AI热点日报

AI办公实测准确率不足25%，发展却快于预期

类型：热点整理2026-01-26

IT之家 1 月 26 日消息，Digital Trends 24 日报道，一项由训练数据公司 Mercor 发布的研究报告指出，当前主流人工智能模型在处理实际办公室任务时表现不佳，最高准确率未超过

IT之家1月26日引述Digital Trends 24日报道称，一份由数据训练公司Mercor发布的研究报告指出，当前主流人工智能模型在处理实际办公任务时表现不尽人意，最高准确率未超过25%。该研究证实，AI在短期内仍难以替代人类知识工作者。

新测试表明AI实际办公准确率不达25%，但进展比想象更快

这项研究基于Mercor最新推出的APEX-Agents基准进行测试。与以往主要通过写诗和解数学题来评估AI的传统方法不同，该基准直接采用了律师、顾问和银行家的真实工作流程，要求受试模型完成跨越多个信息来源的多步骤综合任务。

结果显示，即便是市场上明显处于领先地位的模型，其准确率也无法达到25%。测试中表现领先的Gemini 3 Flash和GPT-5.2，准确率也仅为24%和23%，而其他大多数受试模型的成绩则不高于20%。

新测试表明AI实际办公准确率不达25%，但进展比想象更快

为何AI会在“办公测试”中表现不佳？Mercor首席执行官Brendan Foody分析认为，AI失败的关键在于缺乏上下文处理能力。在真实办公场景中，任务往往需要整合分散的资源，比如查看日程、翻阅即时通讯记录、阅读PDF文档和电子表格。而AI在进行跨源信息搜索与整理时，容易出现混淆、出错，或者干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”，而非成熟的专业人员。

IT之家附APEX-Agents准确率测试结果如下：

Gemini 3 Flash - 24.0%

GPT-5.2 - 23.0%

Claude Opus 4.5 - 18.4%

Gemini 3 Pro - 18.4%

GPT-5 - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B - 4.7%

Kimi K2 Thinking - 4.0%

尽管表现有限，但AI的进步速度引人关注。Foody指出，一年前同类测试的准确率仅为5%-10%，如今已提升至24%，AI的学习速度远超预期。不过，研究也强调，在掌握多任务处理和上下文切换能力之前，AI尚无法胜任复杂的知识工作。

来源：https://tech.ifeng.com/c/8qDzcp6x8IQ

实际准确率办公

延伸阅读

补充最近整理过的热点入口。

AI办公实测准确率不足25%，发展却快于预期

相关热点

延伸阅读