万亿数据产业中被AI困住的打工人

时间：2026-06-10 14:20

AI发展导致人力分布两极，数据标注、采集、构建等岗位涌现，但薪酬地域差异大，工作机械且天花板低。AI依赖人工解决复杂判断和物理世界翻译，这些岗位既是基石也暴露了AI局限。

先给出几个关键判断。

人工智能的演进正推动人力资源分布向两极分化：一端是上游需要深度判断与战略决策，另一端是下游负责数据打标与信息整理。中间层——那些过去由分析师、咨询顾问、秘书们重点评头论足的领域，包括分析归纳与总结提炼——正被AI工具逐步替代。

这一趋势可谓喜忧参半。好消息是，上下两端确实涌现出一些新兴岗位。数据标注、数据构建、数据采集等职位名称，正以前所未有的速度涌入招聘市场。据脉脉发布的报告显示，2026年春季招聘中，AI相关岗位数量同比激增8.7倍。这串数字背后，折射出真实需求结构的深度重构。

数据采集与具身智能紧密相连。采集员需要穿戴动作捕捉设备，记录触觉、视觉、力学等多模态信息，手把手地教导机器人如何完成抓取、行走、避障等动作。数据构建则聚焦于“杂质”的剔除：公开数据或企业数据库中常常格式混乱、错误百出，需人工逐一筛选整理。而数据标注，更像是AI产出的“裁判”——指示大模型什么样的输出是优质的，帮助其建立正向反馈机制。

这些新工种究竟是长期趋势，还是短期泡沫？是文科生的理想通途，还是新一代的“天坑”？为了探清虚实，我们与几位身处一线的从业者进行了深入交流。

“数据做题家”的真实面貌

景璃在北京某互联网大厂从事数据标注外包工作，致力于提升AI文创工具的产出质量。她大学主修戏剧影视文学。

“我标注过的品类涵盖演讲稿、小说、论文，目前做得最多的是漫剧或AI短剧的剧本。”景璃这样介绍。

这个行业里，非全职的招聘需求很大。成都的大学生文琪便找到了一份远程兼职，主要任务是英文语音转文字的标注工作。

她们的工作流程通常是这样的：电脑上展示出AI的多组输出，数据标注员从中挑选出最优版本，质检同事进行复核，负责人再抽查一轮，最终交由甲方审核。通过这种反复校准的过程，AI逐步“学会”人类的评价标准。

景璃的一些外包同事拥有数学或计算机背景，他们会承担部分数据构建工作——包括爬取数据、清洗、整理，最终用于大模型的训练与标注。在分工上，数据构建位于上游，标注则在下游。业内戏称这种工作为“做题”，没有这些“数据做题家”，各类AI工具便难以成形。

市场潜力有多大？国家数据发展研究院测算，2025年专业数据产品（含人工智能训练数据集）的产值已超过2.3万亿元。2025年3月，国家数据局数据显示，成都、沈阳、合肥等七大数据标注基地直接带动从业人员达5.8万人，相关产值超过83亿元。

盘子虽大，薪酬却差异显著。景璃和同事的月固定收入在12k至18k之间，少数人还能获得额外奖金。文琪的兼职收入每月也接近10k。

但一线城市之外，情况则截然不同。在北方一些省会城市，同等岗位的工资大约仅为北京的一半。至于小城市，薪资更低，人员流动性极高。“新员工下班等电梯时都在刷BOSS直聘找工作。”一位小城市刚入职的数据标注员透露，他第一个月的薪水只有1500元。

薪酬差异不仅源于地域，还与公司地位相关。景璃所在的公司，在数据标注出现之前就已是业内知名的外包服务商，客户涵盖多家互联网大厂。这也直接决定了招聘门槛：要求具备编剧、文学创作经验，校招生前几年本科学历即可，现在则必须是985/211院校的文学类专业。文琪的兼职要求英语专业八级，且成绩至少要达到“良好”。

AI需要“裁判”“翻译”和“保姆”

为什么AI必须依赖这些工作？

因为AI缺乏通过实践积累的判断力。当前主流AI已经学完了互联网上的公开信息，但行业中仍存在大量水下信息——隐性知识、经验判断、甚至二手消息的真伪，都需要人工甄别。数据标注就像是给AI请来了一位“信息裁判”。

以法律领域为例。AI能够熟记所有法条，但面对具体案件的证据链，它需要理解法官在特定地区的裁判倾向，知晓某些证据在实践中的采信概率——这些信息在裁判文书网上是找不到的。

景璃所处的剧本赛道也是如此。标注前，AI的产出质量很难令人满意。“从戏剧创作角度看，AI生成的内容很多存在明显问题。处理这些问题所用的标准相对简单、客观。但有时候，AI给出的几个备选都不理想，甚至很难找出最优的一个。”

如果说数据标注是信息裁判，那么具身智能的数据采集就是AI与物理世界之间的“翻译”。现实世界中的海量物理信息，人类和动物的神经系统能够自动适应，但机器人却需要人类“告诉”它真实情况。

此前有业内人士指出，大语言模型GPT-5的训练语料折合约100亿小时，而全行业积累的高质量具身数据仅约50万小时——差距高达万倍。这个巨大的缺口也催生了资本热度。头部创业公司如轮智能、帕西尼感知，估值已达到百亿级别。帕西尼感知在2025年于天津投产了全球最大的具身智能数据采集工厂，年产2亿条训练数据；并计划在2026年再建设四座超级工厂。

复杂的不仅仅是物理世界，还有企业的数据库。一位制造业人士表示，个人级和企业级AI Agent之间存在开发鸿沟——AI本质上是概率模型，难以完成企业中那些“精准且复杂”的工作，比如数据管理。

一位AI产品经理坦言：“我们目前的数据管理智能体，在正式运行前的数据清洗仍然需要人工完成。AI若真想应用于传统制造业，对数据质量的要求非常高。”原因在于，大多数制造业没有采用统一格式的数据库，不同部门使用不同标准，同一组数据在不同表格中字段名各异，而且数据中存在大量冗余和错误。AI容易产生幻觉，无法精准消化这些脏数据，必须先进行清洗、对齐和补全。

因此，AI工具要在企业中顺利运行，需要有人充当“保姆”。当前的企业级AI Agent，大多以整合服务方案的形式交付给制造业：先完成数据线上化、清洗，最后才部署Agent应用。

人和AI各自的“烦恼”

面临挑战的不仅仅是传统制造业。AI大厂的管理层也希望通过工具提升效率，但现实往往是，他们过度寄望于降本增效，却低估了基层员工在决策中的关键作用。

一些大厂员工反映，企业强制推行AI反而增加了工作压力——员工需要为AI的产出“善后”。他们在AI辅助下被要求完成更多任务，但输出结果又必须经过人工反复核对和修正。

这一现象与公开研究结果相符。员工行为分析平台ActivTrak跟踪了2024-2025年间超千家企业、总计4.43亿小时的数字化工作行为，结论是：随着AI的落地，从业者的工作量并未减少，反而周末加班增多，工作碎片化加剧。其中，协作沟通时长增加了34%，多任务处理时间增加了12%。

当然，这种压力通常不会落在数据外包人员身上。“每天10点上班、7点下班，一天工作8到9小时，白天还能时不时休息。”景璃这样描述。

尽管她觉得性价比尚可，但已在考虑转行。“我的目标是去做短剧编剧，现在这份工作很机械，做久了不利于职业发展。”她的大多数同事却认为，如今能找一份事少离家近的工作已属不易，抱着先干着的态度。

这种想法上的差异可能与群体有关。景璃刚参加工作不久，而她的同事们大多已超过30岁——在互联网大厂，这已经是平均年龄偏大的群体了。文琪也明确表示，做数据标注兼职只是为了赚取外快，正式校招时她不会考虑这个方向。她所在的兼职群里，大多是学生或需要快速挣钱的人。

这可能意味着，从事数据标注的人需要面对长期的职业生涯天花板。

这种缺乏资深人士深度参与、成长空间有限的状况，反过来也限制了AI的能力。一些头部数据标注公司曾尝试聘请专业人士，但整体效果不佳。一位资深律师向我们透露，有公司找过他，被他拒绝了——原因是报价太低。“就算你出8000元一小时，我还要掂量一下是否值得冒丢饭碗的风险，何况只给200元一小时呢？”

越需要复杂判断的领域，数据标注的成本就越高。但许多标注企业又不愿意支付足够的溢价。结果就是，这些领域的数据缺口长期存在，模型在垂直场景中的表现难以突破瓶颈。

具身智能领域也面临类似的价格困境。真机远程操作是行业公认质量最高的方案，单小时有效数据成本可高达数千元。头部公司凭借资金优势积累了最丰富的真机数据；而很多公司只能使用公开数据或仿真数据进行训练，但仿真环境与真实物理环境之间存在偏差，迁移到真机时容易出现“Sim2Real Gap”。

从长远来看，数据成本最终会被规模效应摊薄。但AI始终要面对一个根本问题：一旦出错，谁来承担责任？

责任的背后，涉及法律和社会对“人格化主体”的认定。AI不是法律主体，无法承担民事责任。如果企业用AI替代专业人士完成这些工作，一旦出现错误，责任链条将变得模糊不清。

这也是许多工作无法被AI替代的另一层原因。这些岗位，既是AI发展的基石，也是AI局限性的证明。只要AI仍在不断学习人类知识，只要物理世界仍需要被翻译成数字语言，只要社会仍需要明确的责任主体——这些岗位就会持续存在下去。

（应受访者要求，文中均为化名）

来源：https://36kr.com/p/3845748587923717

打工人

上一篇vivo X Fold6折叠屏新机原子工作台一屏四用曝光 下一篇标致E-208 GTi纯电性能车发布，传承经典GTi

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。