好事多磨。沉寂许久的Anthropic,这次终于要放出大招——Claude 4,很可能在本周就提前亮相。更劲爆的是,据网友爆料,此次一同登场的还有Anthropic首款推理模型,评分全面超越“满血版”o3。要知道,o3目前的实力可是公认强于DeepSeek-R1。看来,面对DeepSeek的冲击以及OpenAI、谷歌近期密集的“全家桶”攻势,Anthropic选择了直接亮出底牌。
与此同时,他们还发布了一份分量十足的《Anthropic经济指数》报告,整整38页,基于数百万条匿名的Claude对话,深入剖析了AI在不同职业中的实际应用现状。报告的核心判断很明确:在未来几年,AI将对人们的工作产生重大影响,而这只是长期追踪AI对劳动力市场和经济影响的第一步。
论文链接:https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf
AI将自动化43%的工作?
报告从任务类型、使用深度、职业技能、收入水平等多个维度,讨论了AI对不同职业群体的差异化影响。几个核心结论如下:
- AI的应用主要集中在哪些领域?软件开发和写作任务,这两者加起来占了总使用量的近50%。
- AI的使用范围其实比想象中更广。大约36%的职业,在至少四分之一的相关任务中都使用了AI;而在中等至高收入的工作中,AI的使用最为普遍。
- 最引人关注的是AI在任务中的角色:57%的情况表明AI在增强人类能力,而43%的情况则在直接取代人类劳动,也就是自动化。
更值得一提的是,编码和数学这两项任务占据了所有使用量的三分之一强(37.2%),这个占比非常抢眼。
为什么发布「经济指数」?
这份报告的独特之处在于,它基于Claude.ai平台上数百万条匿名的真实对话数据,提供了前所未有的洞察。可以说,这是目前为止关于AI如何融入现实经济活动最清晰的一张图景。为了推动更多研究,Anthropic决定将本次分析所使用的数据集一并开源。
项目地址:https://huggingface.co/datasets/Anthropic/EconomicIndex
面对劳动力市场即将到来的转型,制定有效的政策需要多方的视角。因此,Anthropic也向经济学家、政策专家及研究人员发出了邀请,希望获得更多宝贵的意见。
分析方法:将对话和职业关联
这篇论文的研究方法很有意思——它没有去调查人们怎么看AI,也没有去预测未来,而是直接获取了AI实际使用的数据。研究的起点是一个经济学文献中的重要洞见:有时候,关注具体的职业任务,比关注职业本身更有价值。
分析职业任务
为什么这么说?因为不同的职业之间经常共享某些任务和技能。比如,视觉模式识别这件事,就是设计师、摄影师、安检员和放射科医生都需要做的。某些任务天生就比别的任务更容易被新技术自动化或增强。所以,分析任务而不是整体工作,能更全面地展现AI是如何融入经济的。
用Clio匹配AI使用与任务
这项研究得以实现,靠的是一个叫Clio的系统。它在保护用户隐私的前提下,分析用户与Claude的对话。研究人员分析了约一百万次与Claude的对话(包括免费版和Pro版),然后按照美国劳工部维护的O*NET职业信息网络中的约20,000项具体工作任务进行分类。
在线职业分类:https://www.onetonline.org/
Clio系统会为每次对话匹配一个最能代表AI角色的O*NET任务,进而映射到具体的职业和职业类别。最后,按照O*NET的分类方案,将这些任务分组到“计算机与数学”、“教育”、“商业与金融”等大类中。
具体结果
对不同职业的影响
AI采用最多的任务和职业是“计算机与数学”类别,这主要涵盖了软件工程角色。37.2%的Claude查询都属于这一类别,涉及的任务包括软件修改、代码调试和网络故障排除。第二大类别是“艺术、设计、体育、娱乐和媒体”(占10.3%),这主要反映了大家用Claude进行写作和编辑任务。而涉及大量体力劳动的职业,比如“农业、渔业和林业”(仅占0.1%),在数据中的表现自然最低。
职业内部的AI使用程度
分析发现,AI的重度用户其实非常集中:仅有约4%的职业在至少75%的任务中用了AI。而AI的中等使用率则要普遍得多,大约36%的职业在至少25%的任务中使用了AI。这说明,AI在经济中的整合目前仍然是选择性的,而非全面性的。
数据中没有证据表明某个职业已经“被完全自动化”。相反,AI是在经济中的许多任务里得到广泛应用,对某些任务的冲击比其他任务更大。
AI使用与薪资
有意思的发现来了。研究人员将O*NET数据库中各职业的美国中位薪资与AI使用水平进行了对比。结果发现,低薪职业(比如洗发师)和高薪职业(比如产科医生)的AI使用率都相对较低——这些职业通常涉及大量手工操作。而AI使用最广泛的职业,主要集中在中等至较高薪资范围,比如计算机程序员和文案撰写人。
自动化 vs. 增强
研究人员还更细致地分析了任务的执行方式。他们重点关注了哪些任务属于“自动化”(即AI直接执行,比如格式化文档),哪些属于“增强”(即AI与用户协作完成)。总体来看,AI更倾向于增强模式:57%的任务属于增强,43%属于自动化。说白了,在超过一半的情况下,AI并没有取代人类,而是在做辅助工作,比如核对验证、帮助学习新知识、辅助头脑风暴或执行重复性任务。
38页的报告中还有不少其他有趣的数据。比如,图4展示了不同职业中AI使用深度的分布;图5展示了与Claude对话用户的职业技能分布,其中批判性思维、写作、编程出现频率很高,而设备维护、安装等手工技能则很少见。图8则对比了Claude Sonnet 3.5(新版)和Claude Opus模型的任务使用偏好差异,前者更多用于编码和技术任务,后者则更偏向创意写作和教育内容。
任务层级使用状况
研究人员用Clio构建了一个任务层级体系。在顶层可以看到:IT、技术及相关任务占主导地位(对话量占比近50%);第二层是创意和文化工作(约占20%);第三大类别是商业管理、金融和客户服务(约占5%);其余类别占比均不超过15%,医疗服务和环境系统的代表性较低。
在中层级,数据揭示了更细化的模式:软件开发和网站维护是最普遍的活动(约占14%);计算机系统编程和调试紧随其后(约占11%);系统管理、硬件/软件故障排除和文档发布流程各占4-6%;市场营销、网络优化、学术辅导和公关管理等则出现频率较低。
在基础层级,可以看到高度具体的技术操作:软件修改和错误修正活动占主导地位,其中以适应新硬件或改进性能的任务最频繁;初始调试、系统管理和故障排除是下一组常见活动。
需要注意的研究局限
这份研究为我们提供了AI如何改变劳动力市场的独特视角,但任何研究都有其局限性,以下几点尤其值得留意:
- 任务用途不明确:我们无法确定用户使用Claude完成任务是否是为了工作。比如,请Claude帮忙写作或编辑,可能是工作,也可能是业余爱好。
- 响应使用方式不明确:不清楚用户拿到Claude的回答后是怎么用的。是直接复制粘贴代码?还是核验过后再使用?
- 数据来源有限:分析仅基于Claude.ai的免费和专业版数据,没有覆盖API、团队或企业用户。
- 任务分类误差:由于任务种类繁多,Clio系统可能会错误分类一些对话。
- 创意用途未涵盖:Claude目前无法直接生成图像(通过代码间接生成除外),因此创意方面的用途在数据中未被充分体现。
- 编码用例可能过度代表:由于Claude被广泛宣传为编码领域的顶尖模型,编码用例在数据中可能被过度代表。因此,数据集中的用例并不能代表AI的普遍使用情况。
未来展望
人工智能的使用正在迅速扩展,模型能力也在不断提升,劳动力市场的面貌可能在短时间内发生显著变化。正因如此,Anthropic计划不断重复上述分析,以追踪可能发生的社会和经济变化,并定期发布结果和相关数据集。
这种长期的纵向分析,可以为我们提供关于AI和就业市场的新见解。比如,可以监测职业内部AI使用深度的变化。如果AI仅仅用于特定任务,且只有少数职业在大部分任务中使用AI,那么未来更可能是大多数现有职业演变而非消失。也可以持续追踪自动化与增强的比例,观察哪些领域的自动化正在加速。
当然,必须强调一点:这份研究只是对Claude对话数据的分析,它本身并没有提供具体的政策建议。如何为AI对劳动力市场的影响做好准备,不能仅从研究中直接得出答案,而是需要结合多方证据、价值观和广泛的经验来综合考量。
