游乐游手机版
首页/科技数码/文章详情

国家首次发文推进高质量数据集建设聚焦24重点和创新领域

时间:2026-06-13 11:15
国家层面首次发文推进高质量数据集建设,聚焦24个重点和创新领域,实施六大专项行动,覆盖数据供给、加工、应用等全生命周期,旨在夯实人工智能发展底座,推动数据要素价值释放。

数据要素正加速成为人工智能时代的“新石油”,而高质量、智能化的数据更是在构筑数字中国的新底座。在“十五五”规划开局之年,国家层面首次对数据如何赋能人工智能发展,给出了系统性的顶层设计与部署方案。

6月8日,国家数据局正式对外发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。这份文件紧密围绕行业高质量数据的供给、流通、应用等核心环节,规划了六大专项行动,为数据如何更有效地支撑人工智能的创新发展,规划出一条清晰的实践路径。

先来梳理几个核心观点。高质量数据集,不仅是训练和优化AI模型的基础资源,更是释放数据要素潜能的关键载体。中国信通院人工智能研究所的闫树副总工程师在接受采访时指出,该方案是落实国家“人工智能+”战略、培育数据要素市场的关键举措。当前,人工智能已发展到大模型、智能体和具身智能为代表的新阶段,数据不再只是辅助角色,而是驱动创新的核心生产要素。该方案聚焦于行业高质量数据集,本质上是在夯实人工智能发展的数据基座。

六大专项行动:覆盖全生命周期的系统布局

算力、算法、数据,构成了人工智能的三大支柱。而在三者之中,数据目前恰恰是制约AI进一步发展的最大短板。随着“人工智能+”进入规模化落地与产业深耕的关键时期,对行业高质量数据集的需求自然水涨船高。

《实施方案》明确的六大专项行动分别是:强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放。在闫树看来,这六项行动并非彼此割裂,而是围绕行业高质量数据集建设的全生命周期,进行了一次系统性的闭环规划。它们相互衔接,构成了一条从“资源汇聚—加工治理—质量提升—场景应用—规范管理—价值释放”的完整链条。

具体来看,每一项行动都对应着明确的任务目标。强基扩容行动,重点解决“数据从哪来、怎么供给”的问题,核心是推动行业数据资源的汇聚与规模化供给;标注攻坚行动,聚焦“数据如何加工”这一痛点,通过高水平的数据标注来提升数据的可训练、可学习与可应用水平;提质增效行动,回应“数据好不好用”的关切,通过建立质量评估与治理优化机制,显著提升数据集的可信度;应用赋能行动,解决“数据怎么用”的落地难题,推动数据集在行业大模型、智能体及重点场景中实现真正应用;管理服务行动,完善“怎么管理”的体系,健全标准规范和平台支撑工具;而价值释放行动,则着眼于“价值如何兑现”,推动数据资源向数据资产转化,积极探索流通交易与价值实现的有效路径。

值得关注的是,在强基扩容行动中,《实施方案》明确圈定了24个具体的行业领域。其中既包括科学研究、工业制造、农业农村、智慧能源、交通运输等19个重点行业,也涵盖了低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个前沿创新领域。

闫树对此分析指出,对于重点行业而言,高质量数据集是推动智能化升级的关键基础。例如,在工业、医疗、交通和能源等领域,高质量数据可以有力支撑行业大模型和智能决策系统的研发与应用,从而带动生产效率的提升与资源配置的优化。而创新行业面临的局面则有所不同——像具身智能、低空经济、自动驾驶这些前沿方向,发展势头迅猛,但普遍面临专业数据和场景数据匮乏的困境。《实施方案》将这些方向纳入重点支持范畴,显然是希望加速形成数据驱动创新、场景牵引应用的发展模式,推动新技术、新产品更快地走向落地。

高质量数据需求:从补充资源升级为产业刚需

为什么行业高质量数据集的重要性在当下被凸显出来?

在中国发展高层论坛2026年年会上,国家数据局党组书记、局长刘烈宏给出了一个生动且准确的定义。他表示,随着人工智能从基础大模型向行业大模型纵深拓展,与实体经济的融合日益加深,行业高质量数据集正在取代通用语料,成为决定模型落地效果的关键变量。换句话说,只有推动AI与各行各业深度融合,技术势能才能真正转化为发展动能。

国家数据发展研究院院长胡坚波也撰文指出,AI技术正在加速渗透到各行各业,高质量数据的需求呈现出爆发式增长。一个显著的趋势是,互联网上公开数据的挖掘空间正在持续收窄,模型能力的进一步提升必须依赖金融、医疗、工业等领域长期积累的专有、非显性化数据。在此背景下,行业高质量数据集已经从“锦上添花”的补充资源,转变为“产业刚需”的核心要素。此外,具身智能、世界模型等新范式要求机器理解物理世界的空间结构与运行规律,这又激发了对3D、视频等多模态数据的大规模需求,同时对数据采集与标注的质量标准也提出了更为严苛的要求。

诺亦腾机器人的市场公关负责人檀煜鑫向记者表示,具身智能要让机器人在真实世界里完成感知、决策与执行,离不开大规模、多模态、高精度的真实数据。然而,这类数据获取成本高、场景覆盖少、标准化程度低,这些短板直接制约了行业从“实验室演示”走向“规模化落地”。在他看来,具身智能下一阶段的竞争关键,不仅在于机器人本体本身,更在于能否形成高质量、可复用、可流通的数据资产。《实施方案》从供给、标注、提质到应用的全链条部署,相当于为具身智能搭建了一个国家层面的基础设施支撑。当高质量数据集不再是各家公司自采自用的“数据孤岛”,而是形成标准化、可流通、可跨本体复用的产业资源,规模化落地才能真正迎来提速。

事实上,近期国家连续出台的多个人工智能领域文件,都重点提及了高质量数据集建设。4月底,工信部与国家数据局联合印发的《关于联合实施2026年“模数共振”行动的通知》,明确提出面向钢铁、石化化工等20个领域,要产出推广价值高、技术可行性强的人工智能应用场景,并构建一批行业通识与行业专识的高质量数据集。而6月10日工信部印发的《“人工智能+信息通信”创新发展实施意见(2026—2028年)》中,也明确要求在信息通信领域的重点场景打造一批高质量数据集。

刘烈宏在前述演讲中明确表示,国家数据局已将2026年定位为“数据价值释放年”。聚焦数据赋能人工智能创新发展,将通过深入实施六大行动,力争形成一批更好满足AI就绪度要求、能够有效训练先进模型或智能体、真正解决行业实际难题的高质量数据集。目标十分清晰:实现数据供给的量和质双提升,让人工智能深入千行百业,加速与实体经济的全面融合。

来源:https://www.163.com/dy/article/KV8G52FS0512D03F.html
上一篇智源研究院全球首个通用世界基座模型 从预测词到预测物理状态 下一篇英特尔萤火虫计划:手机零件重塑低价笔记本
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。