2025年6月8日,国家数据局正式发布了《推进行业高质量数据集建设行动的实施方案》。该方案围绕行业高质量数据集的全链路——从供给、流通到应用,部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大重点行动。核心目标十分明确:到2028年底,建成一批覆盖关键领域、经过真实业务场景验证的行业高质量数据集,最终形成“场景拉动数据、数据驱动模型、模型赋能应用、应用创造价值”的产业闭环。北京社科院副研究员王鹏认为,这份方案与近期上线试运行的国家数据集管理服务系统,构成了“政策+平台”的双轮驱动,标志着我国高质量数据集建设正式从各自为战的分散探索,迈入集约化、标准化、产业化发展的新阶段。

具体来看,在强基扩容行动方面,方案重点聚焦科学研究、工业制造等19个领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等新兴方向,加速推进高质量数据集建设。中国工业互联网研究院院长鲁春丛指出,一个中等规模的智能工厂,仅人、机、料、法、环等各类要素的连接点就多达1200至1500个。而我国类似的大中型智能制造企业超过600万家。这些连接点每日产生的海量数据,蕴含着极其丰富的工业机理。然而现实是,对这些数据的开发与利用仍处于初级阶段,潜在价值远未充分释放。方案特别强调要发挥“链主”单位的引领作用,支持它们以联合体等形式,推动产业链上下游协同共建与资源整合,从而持续扩大高质量数据集的供给规模。在王鹏看来,这一部署正是破解当前各行业数据价值释放不足这一核心难题的关键所在。
数据标注是将知识与经验注入训练数据的核心环节,也是高质量数据集建设中不可或缺的一环。在标注攻坚行动方面,方案大力推动数据标注模式从“以人为主”向“人机协同、专家深度参与”的多层次模式转变,推动标注工作迈向专业化、智能化方向。这一举措直击工业数据标注的痛点。根据鲁春丛的调研,许多智能化改造项目中,数据汇聚、清洗、标注、治理等基础性工作,往往占据了项目投入的绝大部分。要真正降低人工智能的训练推理成本,必须率先解决这些基础瓶颈。
为此,方案在提质增效行动中提出了新思路:发挥数据合成技术的作用,利用模型、仿真系统等生成数据,以解决稀缺场景数据集难以获取、真实场景数据采集成本较高等长期问题。同时,鼓励各行业、各地区与国家数据标准联动,加快重点领域高质量数据集标准的研制工作。更重要的是,持续完善“数据质量验证+模型应用反馈”的测评方法,加快建设覆盖多行业、多场景、多模态的测评数据集,从而更有效地评估高质量数据集的实际应用效果。
应用赋能行动则强调“以模引数、用数赋模”的原则,要求打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,加速人工智能应用落地。归根结底,就是要推动形成“场景—数据—模型”协同发展的良性循环。通过发挥“人工智能+”的场景牵引作用,实现数据供给与应用场景的精准匹配,做到以用促建,让真实需求反过来吸引更多数据资源汇聚,从而驱动高质量数据集的有效供给与持续优化。
最后,管理服务行动和价值释放行动为数据要素的流通提供了制度保障。方案明确要落实数据持有权、使用权、经营权的三权分置制度,并建设“物理分散、逻辑集中”的国家数据集管理服务系统。清华大学法学院教授申卫星分析指出,这种数据产权结构性分置的做法,遵循了“谁投入、谁贡献、谁受益”的原则:持有权侧重自主管控,使用权对应内部处理,而经营权则指向对外流通。将数据经营权与其他权利分离,有利于在保护各方权益的前提下,为数据价值的释放留出充足空间。在价值释放方面,方案大胆提出探索以词元(Token)为基础的价值体系,推动商业模式从单一的基础数据包销售,向API调用、全栈服务梯次升级。同时,鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元化的资产化创新模式,从根本上拓宽数据价值的转化渠道。
