游乐游手机版
首页/业界动态/文章详情

万亿数据产业中被AI困住的打工人

时间:2026-06-10 14:20
AI发展导致人力分布两极,数据标注、采集、构建等岗位涌现,但薪酬地域差异大,工作机械且天花板低。AI依赖人工解决复杂判断和物理世界翻译,这些岗位既是基石也暴露了AI局限。

先给出几个关键判断。

人工智能的演进正推动人力资源分布向两极分化:一端是上游需要深度判断与战略决策,另一端是下游负责数据打标与信息整理。中间层——那些过去由分析师、咨询顾问、秘书们重点评头论足的领域,包括分析归纳与总结提炼——正被AI工具逐步替代。

这一趋势可谓喜忧参半。好消息是,上下两端确实涌现出一些新兴岗位。数据标注、数据构建、数据采集等职位名称,正以前所未有的速度涌入招聘市场。据脉脉发布的报告显示,2026年春季招聘中,AI相关岗位数量同比激增8.7倍。这串数字背后,折射出真实需求结构的深度重构。

数据采集与具身智能紧密相连。采集员需要穿戴动作捕捉设备,记录触觉、视觉、力学等多模态信息,手把手地教导机器人如何完成抓取、行走、避障等动作。数据构建则聚焦于“杂质”的剔除:公开数据或企业数据库中常常格式混乱、错误百出,需人工逐一筛选整理。而数据标注,更像是AI产出的“裁判”——指示大模型什么样的输出是优质的,帮助其建立正向反馈机制。

这些新工种究竟是长期趋势,还是短期泡沫?是文科生的理想通途,还是新一代的“天坑”?为了探清虚实,我们与几位身处一线的从业者进行了深入交流。

“数据做题家”的真实面貌

景璃在北京某互联网大厂从事数据标注外包工作,致力于提升AI文创工具的产出质量。她大学主修戏剧影视文学。

“我标注过的品类涵盖演讲稿、小说、论文,目前做得最多的是漫剧或AI短剧的剧本。”景璃这样介绍。

这个行业里,非全职的招聘需求很大。成都的大学生文琪便找到了一份远程兼职,主要任务是英文语音转文字的标注工作。

她们的工作流程通常是这样的:电脑上展示出AI的多组输出,数据标注员从中挑选出最优版本,质检同事进行复核,负责人再抽查一轮,最终交由甲方审核。通过这种反复校准的过程,AI逐步“学会”人类的评价标准。

景璃的一些外包同事拥有数学或计算机背景,他们会承担部分数据构建工作——包括爬取数据、清洗、整理,最终用于大模型的训练与标注。在分工上,数据构建位于上游,标注则在下游。业内戏称这种工作为“做题”,没有这些“数据做题家”,各类AI工具便难以成形。

市场潜力有多大?国家数据发展研究院测算,2025年专业数据产品(含人工智能训练数据集)的产值已超过2.3万亿元。2025年3月,国家数据局数据显示,成都、沈阳、合肥等七大数据标注基地直接带动从业人员达5.8万人,相关产值超过83亿元。

盘子虽大,薪酬却差异显著。景璃和同事的月固定收入在12k至18k之间,少数人还能获得额外奖金。文琪的兼职收入每月也接近10k。

但一线城市之外,情况则截然不同。在北方一些省会城市,同等岗位的工资大约仅为北京的一半。至于小城市,薪资更低,人员流动性极高。“新员工下班等电梯时都在刷BOSS直聘找工作。”一位小城市刚入职的数据标注员透露,他第一个月的薪水只有1500元。

薪酬差异不仅源于地域,还与公司地位相关。景璃所在的公司,在数据标注出现之前就已是业内知名的外包服务商,客户涵盖多家互联网大厂。这也直接决定了招聘门槛:要求具备编剧、文学创作经验,校招生前几年本科学历即可,现在则必须是985/211院校的文学类专业。文琪的兼职要求英语专业八级,且成绩至少要达到“良好”。

AI需要“裁判”“翻译”和“保姆”

为什么AI必须依赖这些工作?

因为AI缺乏通过实践积累的判断力。当前主流AI已经学完了互联网上的公开信息,但行业中仍存在大量水下信息——隐性知识、经验判断、甚至二手消息的真伪,都需要人工甄别。数据标注就像是给AI请来了一位“信息裁判”。

以法律领域为例。AI能够熟记所有法条,但面对具体案件的证据链,它需要理解法官在特定地区的裁判倾向,知晓某些证据在实践中的采信概率——这些信息在裁判文书网上是找不到的。

景璃所处的剧本赛道也是如此。标注前,AI的产出质量很难令人满意。“从戏剧创作角度看,AI生成的内容很多存在明显问题。处理这些问题所用的标准相对简单、客观。但有时候,AI给出的几个备选都不理想,甚至很难找出最优的一个。”

如果说数据标注是信息裁判,那么具身智能的数据采集就是AI与物理世界之间的“翻译”。现实世界中的海量物理信息,人类和动物的神经系统能够自动适应,但机器人却需要人类“告诉”它真实情况。

此前有业内人士指出,大语言模型GPT-5的训练语料折合约100亿小时,而全行业积累的高质量具身数据仅约50万小时——差距高达万倍。这个巨大的缺口也催生了资本热度。头部创业公司如轮智能、帕西尼感知,估值已达到百亿级别。帕西尼感知在2025年于天津投产了全球最大的具身智能数据采集工厂,年产2亿条训练数据;并计划在2026年再建设四座超级工厂。

复杂的不仅仅是物理世界,还有企业的数据库。一位制造业人士表示,个人级和企业级AI Agent之间存在开发鸿沟——AI本质上是概率模型,难以完成企业中那些“精准且复杂”的工作,比如数据管理。

一位AI产品经理坦言:“我们目前的数据管理智能体,在正式运行前的数据清洗仍然需要人工完成。AI若真想应用于传统制造业,对数据质量的要求非常高。”原因在于,大多数制造业没有采用统一格式的数据库,不同部门使用不同标准,同一组数据在不同表格中字段名各异,而且数据中存在大量冗余和错误。AI容易产生幻觉,无法精准消化这些脏数据,必须先进行清洗、对齐和补全。

因此,AI工具要在企业中顺利运行,需要有人充当“保姆”。当前的企业级AI Agent,大多以整合服务方案的形式交付给制造业:先完成数据线上化、清洗,最后才部署Agent应用。

人和AI各自的“烦恼”

面临挑战的不仅仅是传统制造业。AI大厂的管理层也希望通过工具提升效率,但现实往往是,他们过度寄望于降本增效,却低估了基层员工在决策中的关键作用。

一些大厂员工反映,企业强制推行AI反而增加了工作压力——员工需要为AI的产出“善后”。他们在AI辅助下被要求完成更多任务,但输出结果又必须经过人工反复核对和修正。

这一现象与公开研究结果相符。员工行为分析平台ActivTrak跟踪了2024-2025年间超千家企业、总计4.43亿小时的数字化工作行为,结论是:随着AI的落地,从业者的工作量并未减少,反而周末加班增多,工作碎片化加剧。其中,协作沟通时长增加了34%,多任务处理时间增加了12%。

当然,这种压力通常不会落在数据外包人员身上。“每天10点上班、7点下班,一天工作8到9小时,白天还能时不时休息。”景璃这样描述。

尽管她觉得性价比尚可,但已在考虑转行。“我的目标是去做短剧编剧,现在这份工作很机械,做久了不利于职业发展。”她的大多数同事却认为,如今能找一份事少离家近的工作已属不易,抱着先干着的态度。

这种想法上的差异可能与群体有关。景璃刚参加工作不久,而她的同事们大多已超过30岁——在互联网大厂,这已经是平均年龄偏大的群体了。文琪也明确表示,做数据标注兼职只是为了赚取外快,正式校招时她不会考虑这个方向。她所在的兼职群里,大多是学生或需要快速挣钱的人。

这可能意味着,从事数据标注的人需要面对长期的职业生涯天花板。

这种缺乏资深人士深度参与、成长空间有限的状况,反过来也限制了AI的能力。一些头部数据标注公司曾尝试聘请专业人士,但整体效果不佳。一位资深律师向我们透露,有公司找过他,被他拒绝了——原因是报价太低。“就算你出8000元一小时,我还要掂量一下是否值得冒丢饭碗的风险,何况只给200元一小时呢?”

越需要复杂判断的领域,数据标注的成本就越高。但许多标注企业又不愿意支付足够的溢价。结果就是,这些领域的数据缺口长期存在,模型在垂直场景中的表现难以突破瓶颈。

具身智能领域也面临类似的价格困境。真机远程操作是行业公认质量最高的方案,单小时有效数据成本可高达数千元。头部公司凭借资金优势积累了最丰富的真机数据;而很多公司只能使用公开数据或仿真数据进行训练,但仿真环境与真实物理环境之间存在偏差,迁移到真机时容易出现“Sim2Real Gap”。

从长远来看,数据成本最终会被规模效应摊薄。但AI始终要面对一个根本问题:一旦出错,谁来承担责任?

责任的背后,涉及法律和社会对“人格化主体”的认定。AI不是法律主体,无法承担民事责任。如果企业用AI替代专业人士完成这些工作,一旦出现错误,责任链条将变得模糊不清。

这也是许多工作无法被AI替代的另一层原因。这些岗位,既是AI发展的基石,也是AI局限性的证明。只要AI仍在不断学习人类知识,只要物理世界仍需要被翻译成数字语言,只要社会仍需要明确的责任主体——这些岗位就会持续存在下去。

(应受访者要求,文中均为化名)

来源:https://36kr.com/p/3845748587923717
上一篇vivo X Fold6折叠屏新机原子工作台一屏四用曝光 下一篇标致E-208 GTi纯电性能车发布,传承经典GTi
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿