首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI智能体开发过度重视编程技能而忽视劳动力市场实际需求

AI智能体开发过度重视编程技能而忽视劳动力市场实际需求

热心网友
64
转载
2026-05-20

一项最新的大规模研究揭示了一个值得行业深思的现象:当前AI智能体的开发与测试,似乎陷入了明显的“舒适区”——研发资源过度集中于编程类任务,而忽视了构成劳动力市场主体的、更为广泛的职业领域。

研究揭示 AI 智能体开发失衡:过度聚焦编程,忽视多数劳动力市场

这项由卡内基梅隆大学与斯坦福大学联合主导的研究,对AI智能体评估体系进行了一次系统性“体检”。研究人员将涵盖72342项任务的43个主流智能体基准测试,与美国真实的劳动力市场结构进行了对比分析。他们借助美国官方的O*NET职业信息数据库——一个对工作活动进行多维度精细分类的权威资源——成功将这些基准测试中的任务映射到了1016种真实职业上。

分析结果揭示了显著的失衡现状。目前的AI智能体开发与测试火力,高度集中在“计算机与数学”领域,本质上是以编程任务为核心。然而,这一领域在美国总就业人数中的占比仅为7.6%。这意味着,超过92%的劳动力市场所从事的多样化工作,在当前的AI智能体研发与评估视野中,可能处于被忽视或覆盖不足的状态。

被忽视的“高价值”与“高潜力”领域

深度分析进一步发现,一些本身数字化程度高、理论上非常适合AI智能体介入的领域,在现有基准测试中代表性严重不足。例如,管理领域的数字化率高达88%,但在所有被分析的基准测试任务中,相关任务仅占1.4%。法律工作的数字化率也达到70%,其占比却低至0.3%。建筑与工程领域(数字化率71%)的占比也只有0.7%。

这形成了一个关键的矛盾:研究指出,恰恰是这些管理、法律、工程等领域,AI智能体有望在短期内带来显著的生产力提升,经济价值巨大。但与此同时,这些领域也存在着任务目标模糊、成果需要长期验证等特殊技术挑战,可能正是这些复杂性让研究者们望而却步,转而聚焦于规则更清晰、评估更直接的编程任务。

从经济价值的角度审视,这种失衡同样突出。以各专业领域的总收入(资本分配)作为衡量尺度,管理、法律等经济价值最高的领域,在基准测试中的代表性依然严重不足。另一方面,个人服务、护理等低薪但劳动密集型、同样亟需效率提升的领域,也几乎未被现有测试体系所关注。

技能层面的严重“偏科”

这种失衡不仅体现在行业领域分布上,更深入到所需的职业技能层面。研究人员构建了一个分类体系,将职业技能归纳为四大类:信息获取、思维处理、人际互动、工作成果产出。在真实的劳动力市场中,这四类技能的需求分布相对均衡。

但智能体基准测试的“技能树”点得极为极端:几乎只聚焦于“获取信息”和“计算机操作”这两类。而这两类技能合计,仅覆盖了美国就业市场技能需求的不到5%。相反,涉及大量现实工作的“人际互动”类别(如沟通、协调、服务),在基准测试中几乎找不到踪影。

为何会出现这种严重的“偏科”?研究人员将其主要归因于评估方法上的便捷性。那些容易编写明确任务指令、也容易自动化检验输出结果的领域(比如运行一段代码看是否通过测试),自然获得了更多的研究关注。尽管这推动了这些细分领域技术的快速迭代,但研究团队也发出警告:长期如此,可能会导致AI智能体开发偏离那些对社会整体与经济回报潜力最大的领域。

值得一提的是,研究人员将OpenAI的GDPval基准测试列为一个正面案例。尽管其规模相对较小,但它覆盖了最广泛的职业领域与技能类别。这个在2025年专门设计的基准,其核心目的就是评估AI智能体对不同领域真实知识工作的影响与适应性。

现有智能体的“自主”程度究竟如何?

为了量化AI智能体在其所覆盖的工作领域内,到底有多“自主”,研究人员制定了一个可量化的自主性指标。简而言之,就是在给定的成功率阈值下,智能体能够处理的任务的最大复杂度,而复杂度是通过分层工作流中的必要步骤数来衡量的。

研究发现,即便在覆盖最充分的软件开发领域,当任务复杂度提升时,智能体的成功率也会急剧下降。总体来看,智能体在思维处理、产出具体工作成果等相对独立、闭环的活动中表现最佳。然而,即便在相对简单的任务中,它们也难以胜任信息查找检索、与人协作等需要与环境或他人进行动态、多轮交互的工作。

在少数可用于直接对比的基准测试(如SWE-bench)中,可以看到一些性能趋势:例如,OpenHands框架的表现优于SWE-agent,Claude模型在特定场景下的表现优于GPT,这在中等复杂度任务中尤为明显。但研究人员也谨慎地提醒,这些趋势未必能推广到其他复杂度级别或不同领域的任务中,并呼吁更广泛地公开智能体的详细运行轨迹数据,以便进行更系统、更公平的对比评估。

面向未来的基准测试设计原则

基于全面的分析,研究团队为未来AI智能体基准测试的设计提出了三大核心原则:

原则一:填补空白,或追求广度。 新的基准测试应专门针对管理、法律、工程等当前覆盖不足但高度数字化的高价值领域进行设计。或者,直接追求跨领域、跨技能的广泛覆盖,从设计源头避免新的“偏科”。

原则二:贴近现实,增加复杂度。 许多通过自动生成的基准测试,仅仅捕捉了真实工作的简化片段或孤立环节。相比之下,人工精心编写的任务(如GDPval、TheAgentCompany基准)则能覆盖更多元的领域与复合技能。如果希望通过自动生成来实现测试集的规模化,那么任务设计也必须反映真实的领域构成与技能组合。

原则三:推动更精细化的评估。 仅仅衡量智能体“是否最终完成了任务”是远远不够的,这种二元评估无法定位其具体在哪个环节失效。研究人员建议,可以从人类专家的工作演示中自动提取出标准工作流,并设立中间检查点,从而对智能体的表现进行更细致、更具诊断性的分步评估。

该研究不仅指出了问题,还提供了相应的分析框架与配套资源,旨在帮助基准设计者发现覆盖缺口、助力开发者明确技术改进方向、辅助终端用户为具体业务任务选择合适的智能体自主等级。

与现实应用情况高度吻合

这些研究结论,与AI行业界的实际使用情况高度吻合。Anthropic公司近期基于数百万次人机交互的分析显示,在公共API的所有智能体工具调用中,软件开发占据了近50%的份额,而其他行业各自仅占几个百分点。Anthropic将当前阶段称为“智能体应用的早期阶段”,言下之意,未来的应用道路和可能性还非常广阔。

无独有偶,加州大学伯克利分校及其合作机构在2025年末的一项研究也得出相似结论:目前,大多数企业仍将AI智能体当作简单、高度受控的自动化工具来使用,其自主操作的步骤极少。该研究认为,系统的可靠性、可预测性仍是阻碍其迈向更高自主性的最大障碍。

综合来看,这些研究共同描绘出一幅清晰的图景:AI智能体技术虽然发展迅猛,但其应用视野和评估体系仍需大幅拓宽与深化。从“编程专家”成长为能够胜任各类现实工作的“通用助手”,这条路还很长,而关键的第一步,可能就是重新审视并设计我们为它们设定的“考题”与评估标准。

来源:https://www.ithome.com/0/926/975.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

千问AI眼镜G1今日开售叠加国补后1997元起
AI资讯
千问AI眼镜G1今日开售叠加国补后1997元起

3月8日,千问品牌旗下首款AI智能眼镜“千问AI眼镜”正式开启全球预售。根据官方发布的产品路线图,这款备受瞩目的AI硬件将于2026年内全面登陆海外市场。目前,京东官方旗舰店页面显示其首发定价为2549元,消费者若成功申请政府相关数码产品补贴,最终到手价可低至1997元,性价比优势显著。 本次首发,

热心网友
05.20
Wolfspeed发布全球首款商用10kV碳化硅MOSFET助力AI数据中心电网升级
AI资讯
Wolfspeed发布全球首款商用10kV碳化硅MOSFET助力AI数据中心电网升级

本周,电力电子行业迎来一项里程碑式突破。全球领先的半导体制造商Wolfspeed于3月5日正式发布了业界首款可大规模商用的10kV碳化硅(SiC)功率MOSFET。这款高压功率器件的推出,标志着高压电力电子系统设计迎来了全新的自由度,尤其为AI数据中心供电、可再生能源并网等对能效与可靠性要求严苛的应

热心网友
05.20
AI智能体开发过度重视编程技能而忽视劳动力市场实际需求
AI资讯
AI智能体开发过度重视编程技能而忽视劳动力市场实际需求

一项最新的大规模研究揭示了一个值得行业深思的现象:当前AI智能体的开发与测试,似乎陷入了明显的“舒适区”——研发资源过度集中于编程类任务,而忽视了构成劳动力市场主体的、更为广泛的职业领域。 这项由卡内基梅隆大学与斯坦福大学联合主导的研究,对AI智能体评估体系进行了一次系统性“体检”。研究人员将涵盖7

热心网友
05.20
千问AI眼镜G1预售开启 叠加国补1997元起明日开抢
AI资讯
千问AI眼镜G1预售开启 叠加国补1997元起明日开抢

3月8日最新消息,备受关注的千问AI眼镜G1于今晚正式开售后,全渠道现货已迅速售罄。官方紧急宣布,将于3月9日上午10点全面开启全渠道预售通道,下单用户预计可在7天内收到产品。 在价格方面,千问AI眼镜G1的官方指导价为2899元。消费者通过叠加政府提供的数码产品补贴及平台限时优惠后,最终到手价可低

热心网友
05.20
阿里达摩院AI模型MAOSS精准筛查脂肪肝 高风险人群检出率提升两倍
AI资讯
阿里达摩院AI模型MAOSS精准筛查脂肪肝 高风险人群检出率提升两倍

脂肪肝筛查,即将迎来一次关键的技术升级。一项由阿里巴巴达摩院联合中国医科大学附属盛京医院、南京大学附属鼓楼医院等机构共同研发的AI模型——MAOSS,正试图改变&现状。它通过分析平扫CT影像和血清指标这些常规检查数据,不仅能精准判断肝脂肪的严重程度,更能评估肝纤维化的进展。最引人注目的数据是,它将高

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI文档助手理想编审选择指南
AI教程
AI文档助手理想编审选择指南

人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现

热心网友
05.20
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
AI资讯
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式

2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策

热心网友
05.20
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售
科技数码
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售

雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。

热心网友
05.20
极限竞速地平线6评测 开放世界赛车游戏进化详解
科技数码
极限竞速地平线6评测 开放世界赛车游戏进化详解

《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。

热心网友
05.20
AI表格制作教程:零基础一键生成动态数据图表
AI教程
AI表格制作教程:零基础一键生成动态数据图表

人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。

热心网友
05.20