数据要素正加速成为人工智能时代的“新石油”,而高质量、智能化的数据更是在构筑数字中国的新底座。在“十五五”规划开局之年,国家层面首次对数据如何赋能人工智能发展,给出了系统性的顶层设计与部署方案。
6月8日,国家数据局正式对外发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。这份文件紧密围绕行业高质量数据的供给、流通、应用等核心环节,规划了六大专项行动,为数据如何更有效地支撑人工智能的创新发展,规划出一条清晰的实践路径。
先来梳理几个核心观点。高质量数据集,不仅是训练和优化AI模型的基础资源,更是释放数据要素潜能的关键载体。中国信通院人工智能研究所的闫树副总工程师在接受采访时指出,该方案是落实国家“人工智能+”战略、培育数据要素市场的关键举措。当前,人工智能已发展到大模型、智能体和具身智能为代表的新阶段,数据不再只是辅助角色,而是驱动创新的核心生产要素。该方案聚焦于行业高质量数据集,本质上是在夯实人工智能发展的数据基座。
六大专项行动:覆盖全生命周期的系统布局
算力、算法、数据,构成了人工智能的三大支柱。而在三者之中,数据目前恰恰是制约AI进一步发展的最大短板。随着“人工智能+”进入规模化落地与产业深耕的关键时期,对行业高质量数据集的需求自然水涨船高。
《实施方案》明确的六大专项行动分别是:强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放。在闫树看来,这六项行动并非彼此割裂,而是围绕行业高质量数据集建设的全生命周期,进行了一次系统性的闭环规划。它们相互衔接,构成了一条从“资源汇聚—加工治理—质量提升—场景应用—规范管理—价值释放”的完整链条。
具体来看,每一项行动都对应着明确的任务目标。强基扩容行动,重点解决“数据从哪来、怎么供给”的问题,核心是推动行业数据资源的汇聚与规模化供给;标注攻坚行动,聚焦“数据如何加工”这一痛点,通过高水平的数据标注来提升数据的可训练、可学习与可应用水平;提质增效行动,回应“数据好不好用”的关切,通过建立质量评估与治理优化机制,显著提升数据集的可信度;应用赋能行动,解决“数据怎么用”的落地难题,推动数据集在行业大模型、智能体及重点场景中实现真正应用;管理服务行动,完善“怎么管理”的体系,健全标准规范和平台支撑工具;而价值释放行动,则着眼于“价值如何兑现”,推动数据资源向数据资产转化,积极探索流通交易与价值实现的有效路径。
值得关注的是,在强基扩容行动中,《实施方案》明确圈定了24个具体的行业领域。其中既包括科学研究、工业制造、农业农村、智慧能源、交通运输等19个重点行业,也涵盖了低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个前沿创新领域。
闫树对此分析指出,对于重点行业而言,高质量数据集是推动智能化升级的关键基础。例如,在工业、医疗、交通和能源等领域,高质量数据可以有力支撑行业大模型和智能决策系统的研发与应用,从而带动生产效率的提升与资源配置的优化。而创新行业面临的局面则有所不同——像具身智能、低空经济、自动驾驶这些前沿方向,发展势头迅猛,但普遍面临专业数据和场景数据匮乏的困境。《实施方案》将这些方向纳入重点支持范畴,显然是希望加速形成数据驱动创新、场景牵引应用的发展模式,推动新技术、新产品更快地走向落地。
高质量数据需求:从补充资源升级为产业刚需
为什么行业高质量数据集的重要性在当下被凸显出来?
在中国发展高层论坛2026年年会上,国家数据局党组书记、局长刘烈宏给出了一个生动且准确的定义。他表示,随着人工智能从基础大模型向行业大模型纵深拓展,与实体经济的融合日益加深,行业高质量数据集正在取代通用语料,成为决定模型落地效果的关键变量。换句话说,只有推动AI与各行各业深度融合,技术势能才能真正转化为发展动能。
国家数据发展研究院院长胡坚波也撰文指出,AI技术正在加速渗透到各行各业,高质量数据的需求呈现出爆发式增长。一个显著的趋势是,互联网上公开数据的挖掘空间正在持续收窄,模型能力的进一步提升必须依赖金融、医疗、工业等领域长期积累的专有、非显性化数据。在此背景下,行业高质量数据集已经从“锦上添花”的补充资源,转变为“产业刚需”的核心要素。此外,具身智能、世界模型等新范式要求机器理解物理世界的空间结构与运行规律,这又激发了对3D、视频等多模态数据的大规模需求,同时对数据采集与标注的质量标准也提出了更为严苛的要求。
诺亦腾机器人的市场公关负责人檀煜鑫向记者表示,具身智能要让机器人在真实世界里完成感知、决策与执行,离不开大规模、多模态、高精度的真实数据。然而,这类数据获取成本高、场景覆盖少、标准化程度低,这些短板直接制约了行业从“实验室演示”走向“规模化落地”。在他看来,具身智能下一阶段的竞争关键,不仅在于机器人本体本身,更在于能否形成高质量、可复用、可流通的数据资产。《实施方案》从供给、标注、提质到应用的全链条部署,相当于为具身智能搭建了一个国家层面的基础设施支撑。当高质量数据集不再是各家公司自采自用的“数据孤岛”,而是形成标准化、可流通、可跨本体复用的产业资源,规模化落地才能真正迎来提速。
事实上,近期国家连续出台的多个人工智能领域文件,都重点提及了高质量数据集建设。4月底,工信部与国家数据局联合印发的《关于联合实施2026年“模数共振”行动的通知》,明确提出面向钢铁、石化化工等20个领域,要产出推广价值高、技术可行性强的人工智能应用场景,并构建一批行业通识与行业专识的高质量数据集。而6月10日工信部印发的《“人工智能+信息通信”创新发展实施意见(2026—2028年)》中,也明确要求在信息通信领域的重点场景打造一批高质量数据集。
刘烈宏在前述演讲中明确表示,国家数据局已将2026年定位为“数据价值释放年”。聚焦数据赋能人工智能创新发展,将通过深入实施六大行动,力争形成一批更好满足AI就绪度要求、能够有效训练先进模型或智能体、真正解决行业实际难题的高质量数据集。目标十分清晰:实现数据供给的量和质双提升,让人工智能深入千行百业,加速与实体经济的全面融合。
