6月8日,国家数据局正式发布了《关于推进行业高质量数据集建设行动的实施方案》。该方案的核心亮点是:围绕人工智能应用需求,提出要不断丰富行业高质量数据集的建设形态。换言之,数据集的供给不再局限于“有什么用什么”,而是要根据AI不同发展阶段的实际需求进行精准匹配。
具体而言,方案明确了几个重点方向。首先,多模态数据集将迎来持续扩容——除了文本、代码、图像、音频、视频等常见格式,点云、时序数据、科学数据等更专业的数据类型也被列入重点建设清单。这些数据集将覆盖人工智能从预训练、指令微调、强化学习到评测的完整生命周期。
其次,知识库、知识图谱、本体等结构化知识资产的重要性显著提升。方案明确提出,要加快复杂任务规划、长程推理、人机交互、决策执行等数据集的构建——这显然是在为智能体(Agent)这类新型智能应用形态奠定基础。可以理解为,仅拥有“静态数据”是不够的,还需要能够支撑逻辑推理与动态决策的“活知识”。
值得关注的是,方案特别提及了具身智能场景。针对物理交互、环境感知、运动控制等环节,要加快构建真机交互数据集。同时,积极运用仿真模拟与合成技术来扩大数据供给——这对机器人训练而言是一条高效路径,因为真实环境中的数据采集成本高、周期长。此外,方案还前瞻性地提出要面向世界模型等前沿方向推进数据集建设,展现出对下一代AI架构的战略布局。

