首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI开发过度聚焦编程:三大关键市场劳动力被忽视

AI开发过度聚焦编程:三大关键市场劳动力被忽视

热心网友
33
转载
2026-03-08

3月8日,IT之家发布消息称,一项大规模研究揭示:当前人工智能体的开发几乎完全聚焦于编程任务,忽视了劳动力市场中绝大多数职业的需求。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


卡内基梅隆大学与斯坦福大学的研究团队系统性地对比了涵盖72342项任务的43个智能体基准测试与美国劳动力市场。他们借助美国政府的O*NET数据库(该数据库对工作活动进行了多维度详细分类),将基准测试任务映射到1016种真实职业。

研究指出,当前智能体开发存在明显的失衡现象:几乎所有开发资源都集中在计算机与数学领域,而这一以编程为主的领域仅占美国总就业人数的7.6%。

分析发现,多个高度数字化的工作领域在现有基准测试中几乎未被体现。管理领域数字化率高达88%,却仅占所有分析基准测试任务的1.4%;法律工作数字化率70%,占比仅为0.3%;建筑与工程领域数字化率71%,占比也只有0.7%。

研究人员认为,人工智能体恰恰能在这些领域实现短期生产力提升,但这些领域也存在特殊技术挑战,包括目标模糊、成果需长期验证等。

从资本分配(即各专业领域总收入)来看,管理、法律等经济价值最高的领域在基准测试中占比依然偏低;与此同时,个人服务、护理等低薪劳动密集型领域也几乎未被关注。

研究表明,这种失衡在个人技能层面同样严重。研究人员构建了分类体系,将职业技能分为四类:信息获取、思维处理、人际互动、工作成果。现实中,四类所需技能分布相对均衡。

但智能体基准测试只聚焦“获取信息”和“计算机操作”两类,二者合计仅覆盖美国就业市场的不到5%。而涉及大量现实工作的“人际互动”类别,在基准测试中几乎没有涉及。

研究人员将这种倾向归因于方法上的便捷性:那些易于编写任务指令、验证结果的领域获得了过多关注。尽管这推动了细分领域的快速发展,但研究团队警告,这可能让智能体开发偏离社会与经济回报最大的领域。

研究人员特别将OpenAI的GDPval基准测试列为正面案例:尽管规模相对较小,却覆盖了最广泛的专业领域与技能。OpenAI在2025年专门设计该基准,用于衡量AI智能体对不同领域真实知识工作的影响。

为衡量AI智能体在覆盖工作领域中的实际自主程度,研究人员制定了可量化的自主性指标:将其定义为智能体在既定成功率下可处理的最大任务复杂度,复杂度通过分层工作流的步骤数衡量。

研究显示,即便在覆盖最充分的软件开发领域,任务复杂度提升时,智能体成功率也会急剧下降。智能体在思维处理、产出工作成果等独立活动中表现最佳,但即使在相对简单的任务中,也难以胜任信息查找检索、与人协作等工作。

少数可用于对照测试的基准(如SWE-bench)显示:OpenHands框架表现优于SWE-agent,Claude优于GPT,在中等复杂度任务中这一差距尤为明显。但研究人员提醒,这些趋势未必适用于其他复杂度级别,并呼吁更广泛地公开智能体运行轨迹,以开展更系统的对比。

基于研究结果,研究人员提出未来基准测试的三大设计原则:

1. 新基准应专门针对管理、法律等覆盖不足但高度数字化的领域,或追求跨领域、跨技能的广泛覆盖。

2. 基准测试需更贴近现实、更复杂。许多自动生成的基准仅捕捉了真实工作的简化片段,而人工编写的任务(如GDPval、TheAgentCompany基准)则覆盖多元领域与技能;若需通过自动生成实现规模化,任务设计应反映真实的领域与技能构成。

3. 推动更精细化的评估。仅衡量智能体是否完成任务,无法定位其具体失效环节。研究人员建议,从人类演示中自动提取工作流,设立中间检查点,从而更细致地评估智能体表现。该研究还提供了框架与配套资源,帮助基准设计者发现覆盖缺口、助力开发者明确改进方向、帮助用户为具体任务选择合适的自主等级。

这些结论与现实使用情况一致:Anthropic近期基于数百万次人类-智能体交互的分析显示,软件开发占公共API中所有智能体工具调用的近50%,而其他行业各自仅占几个百分点。Anthropic将当前阶段称为“智能体应用的早期阶段”。

加州大学伯克利分校及合作机构2025年末的研究也得出相似结论:企业目前大多将AI智能体作为简单、高度受控的工具,自主操作步骤极少。该研究认为,系统可靠性仍是最大障碍。

来源:https://www.163.com/dy/article/KNGRS2350511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Meta全球AI培训周:鼓励员工深度应用智能办公工具
科技数码
Meta全球AI培训周:鼓励员工深度应用智能办公工具

IT之家 3 月 28 日消息,据《商业内幕》今日报道,在 Meta,AI 已经无处不在。多位员工透露,Meta 近期开始集中举办高强度“AI 培训周”,通过密集培训和实践活动,推动员工更深入使用

热心网友
03.28
Meta AI培训周启动,高强度推动全员深度掌握AI工具
科技数码
Meta AI培训周启动,高强度推动全员深度掌握AI工具

据《商业内幕》报道,Meta近期集中举办“AI转型周”活动,通过黑客马拉松、产品演示和实验项目等形式,要求各层级员工展示借助AI工具完成的工作成果。活动重点演示AI智能体在电脑与手机间的协同操作,目

热心网友
03.28
谷歌员工热捧AI助手Smith,访问火爆致官方限流
科技数码
谷歌员工热捧AI助手Smith,访问火爆致官方限流

IT之家 3 月 27 日消息,据《商业内幕》今晚报道,多位知情人士透露,谷歌员工正在使用一款名为“Agent Smith”的内部 AI 工具,该工具可以自动处理包括编程在内的多项任务。由于使用人数

热心网友
03.28
谷歌AI工具Agent Smith因使用量超限遭访问限制应对指南
科技数码
谷歌AI工具Agent Smith因使用量超限遭访问限制应对指南

来源:环球网【环球网科技综合报道】3月28日消息,据外媒BusinessInsider 报道,日前谷歌内部推出一款名为Agent Smith的AI工具,因使用量激增、人气爆棚,已被限制访问权限。该工

热心网友
03.28
罗福莉观点:实现AGI后的下一步是机器自进化
科技数码
罗福莉观点:实现AGI后的下一步是机器自进化

“干活消耗的Token量是简单问答的10倍甚至100倍,成本大幅提高。”回答月之暗面CEO杨植麟“为什么涨价”的问题时,智谱CEO张鹏这样说道。上文这组问答,发生在今天举行的2026中关村论坛年会开

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

明日方舟终末地主线后开启小陈剧情攻略
游戏攻略
明日方舟终末地主线后开启小陈剧情攻略

在明日方舟终末地中,小陈剧情的开启需要满足一定条件并完成特定任务。首先,要确保玩家已经达到一定的游戏进度。这包括推进主线剧情到一定阶段,解锁了相应的区域和功能。随着主线剧情的推进,

热心网友
03.28
逐玉与白日提灯对比解析:没有对比就没有伤害
娱乐
逐玉与白日提灯对比解析:没有对比就没有伤害

前言《逐玉》大结局落幕那晚,我盯着屏幕良久,胸口像压了块浸水的棉絮,沉闷得喘不过气。从首播时满怀热望地守在更新页面,到中期边看边叹气、反复暂停找逻辑漏洞,再到最后几集干脆调成倍速、只为“完成任务”式

热心网友
03.28
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨
业界动态
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨

3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动

热心网友
03.28
蓝海读书官方入口与在线阅读网址使用指南
电脑教程
蓝海读书官方入口与在线阅读网址使用指南

蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线

热心网友
03.28
悟空浏览器网页正版入口在哪?下载与使用全指南
手机教程
悟空浏览器网页正版入口在哪?下载与使用全指南

在网络信息爆炸的时代,一款好用的浏览器能为我们带来便捷与丰富的体验。悟空浏览器网页版正式版入口,成为众多用户探索网络精彩的关键通道。悟空浏览器以其简洁界面和强大功能吸引着广大用户。

热心网友
03.28