AI工具究竟能在多大程度上提升办公效率?这无疑是当前职场人士最为关注的话题之一。微软近日完成了一项迄今为止规模最大的关于生成式AI在工作场景中的实地研究,覆盖了来自60多家企业的超过6000名员工。

早在2023年底,微软便发布了首份人工智能与生产力报告,当时的核心结论是:AI工具有望为信息工作者带来生产力上的“跃升式提升”。

不过,那份研究主要基于实验室环境中的模拟任务。半年后的今天,随着更多人在日常工作中实际使用生成式AI工具,问题变成了:这些AI工具在实验室之外的真实办公场景中,究竟能发挥多大效用?
这正是微软第二份AI与生产力报告要回答的核心议题——研究者将关注点转向了员工如何在日常工作中真正运用Copilot及其他生成式AI工具。
场景:工人在工作中使用AI
研究人员与来自60多个组织的6000多名员工合作,开展了一次大规模随机对照现场实验。参与者并非在实验室中执行模拟任务,而是在真实的日常工作中使用Copilot for Microsoft 365——这一套件将生成式AI嵌入到了Word、Excel、PowerPoint、Outlook和Teams等常用办公软件中。

每个参与组织至少预留了50个许可证,并随机分配给指定的一批Microsoft 365用户。研究者通过元数据对比邮件、会议和文档的实际使用情况。
数据显示:与未使用Copilot的员工相比,使用Copilot的员工平均阅读的个人邮件数量减少了11%,处理邮件所花费的时间减少了4%。在某些企业中,这两个指标甚至分别下降了20%到25%。研究者推测,Copilot for Outlook中的邮件摘要功能以及Copilot聊天功能,让用户无需逐一阅读或反复查看邮件即可获取关键信息。
会议数量的变化则更为复杂。有10个组织出现了会议出席次数显著下降的情况,平均每天减少0.39次会议——而在此之前,他们每天大约有3次会议。Teams Copilot提供的会议摘要和问答功能,可能帮助用户减少了不必要的参会时间,但同时也有可能因为功能便捷而增加了使用频率。
文档方面则呈现出明显的增长:Copilot用户比非用户创建和编辑了更多文档。总体来看,文档编辑数量增长了10%,其中Word、Excel和PowerPoint的重度用户增幅达到了13%,一些企业甚至看到了25%到30%的提升。这并不意外——Copilot的写作和创作辅助功能,确实让生成和修改输出内容变得更加轻松高效。

办公趋势指数
除了这些硬数据,微软还通过2024年办公趋势指数调查,了解了生成式AI对工作满意度和整体生产力的影响。这项由Edelman Data & Intelligence执行的匿名调查,覆盖了31个国家的3.1万名全职雇员或个体工作者,关注的不是某个具体工具如Copilot,而是用户对生成式AI的整体认知与体验。
调查中有个数据很值得关注:在使用AI的受访者中,78%的人都至少用了一些组织没有提供的AI工具。换句话说,大量员工正在主动寻找外部AI资源来满足日常工作需求——这是一股自下而上的推动力量。
研究者还特别关注了“AI高级用户”——定义为熟悉生成式AI、每周至少使用几次、且每天能节省超过30分钟的人群。在AI用户中,这类“高级用户”占了29%。关键影响因素包括工具的丰富程度以及能否切实提升工作效率——分数范围从361到882,这两个因素的权重最高。

有意思的是,AI工具的影响因职位和职能而异。客户服务和销售岗位的生产力提升最为明显,而法律专业人员的改善幅度相对较小。
AI搜索引擎
搜索是日常工作流中的高频行为。为了厘清AI增强搜索与传统搜索的根本差异,研究者随机抽取了8万个样本,对比了传统Bing搜索和使用Copilot的Bing搜索数据。

分析显示,与Bing Copilot的聊天对话往往聚焦于知识工作相关的主题——比如“翻译和语言学习”、“创意写作和编辑”以及“编程和脚本编写”。总体而言,72.9%的Copilot对话属于知识工作领域,而传统Bing搜索的这一比例仅为37%。
研究者进一步用GPT-4对每次搜索会话的任务进行分类,从低到高分为六个层级:记忆、理解、应用、分析、评估、创建。结果非常直观:超过四分之三的传统搜索会话是为了完成“记忆”型任务,但使用Copilot搜索时,这一比例不到二分之一。如果将“记忆”和“理解”归为低复杂性任务,其余归为高复杂性任务,那么传统搜索中只有13.4%的会话属于高复杂性,而Copilot会话中这一比例高达37%。
换句话说,人们把AI增强搜索用在了比传统搜索复杂得多的领域。这种任务领域和复杂性的转变,正是生成式AI带来的实质性提升。
多语言环境
在多语言协作场景下,AI工具能发挥多大作用?研究者专门设计了实验来验证。

首先,77名日语母语者被要求回顾一场用英语录制的会议——一半人只能观看视频听录音,另一半人则可以使用Copilot Meeting Recap提供的AI摘要和聊天机器人来辅助理解。随后,另外83名日语母语者回顾了一场同样脚本但以日语进行的会议,同样一半人可以使用Copilot。
结果令人印象深刻:在英语会议中,使用Copilot的参与者正确回答多项选择题的比例提高了16.4%,获得满分的概率更是翻了一倍多。而且,用Copilot辅助理解英语会议的准确率达到了97.5%,甚至比用标准工具听母语日语会议的准确率(94.8%)还要高一些。
在日常工作中实际使用Copilot的员工也提到,在多语言跨国企业里,Copilot确实能够帮助不同母语的同事进行更高效的沟通。
总结这些研究,微软的核心观点很明确:在日常工作中使用生成式AI可以显著提升生产力,但同时也要承认,效果会因环境和使用方式的不同而有所差异。至于企业如何更好地推动AI的高效利用,这将是下一步研究的重点。
