先给出几个关键判断。
人工智能的演进正推动人力资源分布向两极分化:一端是上游需要深度判断与战略决策,另一端是下游负责数据打标与信息整理。中间层——那些过去由分析师、咨询顾问、秘书们重点评头论足的领域,包括分析归纳与总结提炼——正被AI工具逐步替代。
这一趋势可谓喜忧参半。好消息是,上下两端确实涌现出一些新兴岗位。数据标注、数据构建、数据采集等职位名称,正以前所未有的速度涌入招聘市场。据脉脉发布的报告显示,2026年春季招聘中,AI相关岗位数量同比激增8.7倍。这串数字背后,折射出真实需求结构的深度重构。
数据采集与具身智能紧密相连。采集员需要穿戴动作捕捉设备,记录触觉、视觉、力学等多模态信息,手把手地教导机器人如何完成抓取、行走、避障等动作。数据构建则聚焦于“杂质”的剔除:公开数据或企业数据库中常常格式混乱、错误百出,需人工逐一筛选整理。而数据标注,更像是AI产出的“裁判”——指示大模型什么样的输出是优质的,帮助其建立正向反馈机制。
这些新工种究竟是长期趋势,还是短期泡沫?是文科生的理想通途,还是新一代的“天坑”?为了探清虚实,我们与几位身处一线的从业者进行了深入交流。
“数据做题家”的真实面貌
景璃在北京某互联网大厂从事数据标注外包工作,致力于提升AI文创工具的产出质量。她大学主修戏剧影视文学。
“我标注过的品类涵盖演讲稿、小说、论文,目前做得最多的是漫剧或AI短剧的剧本。”景璃这样介绍。
这个行业里,非全职的招聘需求很大。成都的大学生文琪便找到了一份远程兼职,主要任务是英文语音转文字的标注工作。
她们的工作流程通常是这样的:电脑上展示出AI的多组输出,数据标注员从中挑选出最优版本,质检同事进行复核,负责人再抽查一轮,最终交由甲方审核。通过这种反复校准的过程,AI逐步“学会”人类的评价标准。
景璃的一些外包同事拥有数学或计算机背景,他们会承担部分数据构建工作——包括爬取数据、清洗、整理,最终用于大模型的训练与标注。在分工上,数据构建位于上游,标注则在下游。业内戏称这种工作为“做题”,没有这些“数据做题家”,各类AI工具便难以成形。
市场潜力有多大?国家数据发展研究院测算,2025年专业数据产品(含人工智能训练数据集)的产值已超过2.3万亿元。2025年3月,国家数据局数据显示,成都、沈阳、合肥等七大数据标注基地直接带动从业人员达5.8万人,相关产值超过83亿元。
盘子虽大,薪酬却差异显著。景璃和同事的月固定收入在12k至18k之间,少数人还能获得额外奖金。文琪的兼职收入每月也接近10k。
但一线城市之外,情况则截然不同。在北方一些省会城市,同等岗位的工资大约仅为北京的一半。至于小城市,薪资更低,人员流动性极高。“新员工下班等电梯时都在刷BOSS直聘找工作。”一位小城市刚入职的数据标注员透露,他第一个月的薪水只有1500元。
薪酬差异不仅源于地域,还与公司地位相关。景璃所在的公司,在数据标注出现之前就已是业内知名的外包服务商,客户涵盖多家互联网大厂。这也直接决定了招聘门槛:要求具备编剧、文学创作经验,校招生前几年本科学历即可,现在则必须是985/211院校的文学类专业。文琪的兼职要求英语专业八级,且成绩至少要达到“良好”。
AI需要“裁判”“翻译”和“保姆”
为什么AI必须依赖这些工作?
因为AI缺乏通过实践积累的判断力。当前主流AI已经学完了互联网上的公开信息,但行业中仍存在大量水下信息——隐性知识、经验判断、甚至二手消息的真伪,都需要人工甄别。数据标注就像是给AI请来了一位“信息裁判”。
以法律领域为例。AI能够熟记所有法条,但面对具体案件的证据链,它需要理解法官在特定地区的裁判倾向,知晓某些证据在实践中的采信概率——这些信息在裁判文书网上是找不到的。
景璃所处的剧本赛道也是如此。标注前,AI的产出质量很难令人满意。“从戏剧创作角度看,AI生成的内容很多存在明显问题。处理这些问题所用的标准相对简单、客观。但有时候,AI给出的几个备选都不理想,甚至很难找出最优的一个。”
如果说数据标注是信息裁判,那么具身智能的数据采集就是AI与物理世界之间的“翻译”。现实世界中的海量物理信息,人类和动物的神经系统能够自动适应,但机器人却需要人类“告诉”它真实情况。
此前有业内人士指出,大语言模型GPT-5的训练语料折合约100亿小时,而全行业积累的高质量具身数据仅约50万小时——差距高达万倍。这个巨大的缺口也催生了资本热度。头部创业公司如轮智能、帕西尼感知,估值已达到百亿级别。帕西尼感知在2025年于天津投产了全球最大的具身智能数据采集工厂,年产2亿条训练数据;并计划在2026年再建设四座超级工厂。
复杂的不仅仅是物理世界,还有企业的数据库。一位制造业人士表示,个人级和企业级AI Agent之间存在开发鸿沟——AI本质上是概率模型,难以完成企业中那些“精准且复杂”的工作,比如数据管理。
一位AI产品经理坦言:“我们目前的数据管理智能体,在正式运行前的数据清洗仍然需要人工完成。AI若真想应用于传统制造业,对数据质量的要求非常高。”原因在于,大多数制造业没有采用统一格式的数据库,不同部门使用不同标准,同一组数据在不同表格中字段名各异,而且数据中存在大量冗余和错误。AI容易产生幻觉,无法精准消化这些脏数据,必须先进行清洗、对齐和补全。
因此,AI工具要在企业中顺利运行,需要有人充当“保姆”。当前的企业级AI Agent,大多以整合服务方案的形式交付给制造业:先完成数据线上化、清洗,最后才部署Agent应用。
人和AI各自的“烦恼”
面临挑战的不仅仅是传统制造业。AI大厂的管理层也希望通过工具提升效率,但现实往往是,他们过度寄望于降本增效,却低估了基层员工在决策中的关键作用。
一些大厂员工反映,企业强制推行AI反而增加了工作压力——员工需要为AI的产出“善后”。他们在AI辅助下被要求完成更多任务,但输出结果又必须经过人工反复核对和修正。
这一现象与公开研究结果相符。员工行为分析平台ActivTrak跟踪了2024-2025年间超千家企业、总计4.43亿小时的数字化工作行为,结论是:随着AI的落地,从业者的工作量并未减少,反而周末加班增多,工作碎片化加剧。其中,协作沟通时长增加了34%,多任务处理时间增加了12%。
当然,这种压力通常不会落在数据外包人员身上。“每天10点上班、7点下班,一天工作8到9小时,白天还能时不时休息。”景璃这样描述。
尽管她觉得性价比尚可,但已在考虑转行。“我的目标是去做短剧编剧,现在这份工作很机械,做久了不利于职业发展。”她的大多数同事却认为,如今能找一份事少离家近的工作已属不易,抱着先干着的态度。
这种想法上的差异可能与群体有关。景璃刚参加工作不久,而她的同事们大多已超过30岁——在互联网大厂,这已经是平均年龄偏大的群体了。文琪也明确表示,做数据标注兼职只是为了赚取外快,正式校招时她不会考虑这个方向。她所在的兼职群里,大多是学生或需要快速挣钱的人。
这可能意味着,从事数据标注的人需要面对长期的职业生涯天花板。
这种缺乏资深人士深度参与、成长空间有限的状况,反过来也限制了AI的能力。一些头部数据标注公司曾尝试聘请专业人士,但整体效果不佳。一位资深律师向我们透露,有公司找过他,被他拒绝了——原因是报价太低。“就算你出8000元一小时,我还要掂量一下是否值得冒丢饭碗的风险,何况只给200元一小时呢?”
越需要复杂判断的领域,数据标注的成本就越高。但许多标注企业又不愿意支付足够的溢价。结果就是,这些领域的数据缺口长期存在,模型在垂直场景中的表现难以突破瓶颈。
具身智能领域也面临类似的价格困境。真机远程操作是行业公认质量最高的方案,单小时有效数据成本可高达数千元。头部公司凭借资金优势积累了最丰富的真机数据;而很多公司只能使用公开数据或仿真数据进行训练,但仿真环境与真实物理环境之间存在偏差,迁移到真机时容易出现“Sim2Real Gap”。
从长远来看,数据成本最终会被规模效应摊薄。但AI始终要面对一个根本问题:一旦出错,谁来承担责任?
责任的背后,涉及法律和社会对“人格化主体”的认定。AI不是法律主体,无法承担民事责任。如果企业用AI替代专业人士完成这些工作,一旦出现错误,责任链条将变得模糊不清。
这也是许多工作无法被AI替代的另一层原因。这些岗位,既是AI发展的基石,也是AI局限性的证明。只要AI仍在不断学习人类知识,只要物理世界仍需要被翻译成数字语言,只要社会仍需要明确的责任主体——这些岗位就会持续存在下去。
(应受访者要求,文中均为化名)
