高质量数据集：政府工作报告为何点名海彬访谈

时间：2026-03-07 18:49

人工智能时代，高质量数据受到政策重视。2026年政府工作报告提到，要打造智能经济新形态。数据是人工智能的燃料，政府工作报告提及，要深化数据资源开发利用，健全数据要素基础制度，建设高质量数据集。“数据

人工智能时代，高质量数据受到政策重视。

2026年政府工作报告提到，要打造智能经济新形态。数据是人工智能的燃料，政府工作报告提及，要深化数据资源开发利用，健全数据要素基础制度，建设高质量数据集。

“数据质量直接影响模型的表现。”五一视界（06651.HK）首席技术官鲍世强对第一财经记者表示。人工智能从生成式AI（比如文生图）向物理AI（比如人形机器人）进化，但训练物理AI所需要的强交互数据，在互联网世界难以找到。“进入物理AI，数据问题的重要程度、严峻程度更大了。”

高质量数据日渐稀缺

政府对于人工智能的期待在提高。

2026年政府工作报告，要求深化拓展“人工智能+”，促进新一代智能终端和智能体加快推广，推动重点行业领域人工智能商业化规模化应用，培育智能原生新业态新模式。

3月6日，国家发展改革委主任郑栅洁在十四届全国人大四次会议经济主题记者会上说，“十五五”末人工智能相关产业规模将增长到10万亿元以上。

这不是政府工作报告第一次提及人工智能和数据。2025年政府工作报告同样提到，持续推进“人工智能+”行动，加快完善数据基础制度，深化数据资源开发利用，促进和规范数据跨境流动。

2026年政府工作报告，进一步点名“建设高质量数据集”。

数据，是人工智能发展不可或缺的燃料。

人工智能的发展，有赖于三个维度的进步：算力、算法和数据。相比数据，芯片所代表的算力和深度学习等代表的算法更广为人知。实际上，在大语言模型训练过程中，高质量数据非常重要。

数据也分优劣。比如乾隆所作的1500首诗，没办法与杜甫的1500首诗相提并论；《自然》杂志发表的论文质量，远高过网络上流传的小作文。优质的数据，更有可能训练出优质的大语言大模型。

何况，人工智能从感知AI、生成式AI、智能体AI逐步向物理AI演进。它们对于数据的要求更高了。

在互联网上，各类文字、图片、视频数据相对丰富，它们可以用来训练生成式AI，大语言模型和视觉模型因此可以产出优质的文字、视频和图片。比如，豆包开发的Seedance2.0模型已经可以产生栩栩如生的视频。

鲍世强认为，在物理AI阶段，数据问题变得更加突出和严峻了。这些互联网数据，很难用于物理AI训练，比如智能驾驶和人形机器人。

智能驾驶的早期阶段，低级别的智驾车辆上路需要人工干预，行驶途中收集到的数据用于提高智能驾驶的能力；现在智能驾驶已进入规模化量产应用阶段。

“智能驾驶现在面对的核心问题之一，不再只是数据量，而是数据价值密度的问题。我可以获取大量的数据，但是这里边真正对训练、测试有价值的数据比例还在下降。因为，智驾能力比较差的时候，外部数据都有用；随着智驾能力提升，正常数据没有太大的作用了。那种危险的工况，或者奇怪场景的数据，更有价值。”鲍世强表示。

具身智能、人形机器人训练所需高质量数据，比智能驾驶更加复杂和难以获取。

真实世界里，汽车通常运行在可控的道路环境上；而人形机器人在真实世界运转的话，必须适应更多样化的需求，比如爬上一座小山，从洗衣机里取出衣物并折叠好。

“具身智能，我认为目前落地的关键瓶颈之一，实际上就是数据。因为具身智能需要强交互环境的数据。互联网上文本数据、图像数据、视频数据，这些都不会跟你产生动作交互，它是一个死的数据，并不能直接使用。”鲍世强表示。

数据，如何能更好

生成式AI快速发展后，几乎耗尽了公共领域的数据。

这些公域数据，比如科技期刊论文，互联网小说等，已经被人工智能充分利用。但是私域数据还没有被充分挖掘，在制药产业、服装品牌、医院等千行百业，隐藏着高质量、高价值的数据。这些垂直领域的行业数据，很多都没有收集或激活，更没有被大模型所习得。

大语言模型回答通用问题的能力已经非常强了。它能力的进一步提升，所需要的数据不再只是通用互联网数据，而是垂直领域的专家知识，比如医疗影像数据和医生的真知灼见。

除了私域数据，合成数据也被寄予厚望。

大模型公司阶跃星辰方面认为，2026年AI数据集有望在合成数据、多模态融合、垂直领域深耕上取得显著进展，合成数据将成为核心突破方向。

所谓合成数据，是指通过生成模型、仿真、重建扩展等方式，在原始数据上产生的更多的数据。比如《论语》是原始数据，但此后各代大家所撰写的《论语》注释，则可被简略视为合成数据。

理论上，合成数据的规模是没有上限的，但合成数据的质量是关键。合成数据通常难以达到真实数据的质量，因此影响大模型的训练效果。

2026年开年，OpenClaw等智能体的惊艳表现令世界瞩目。2026年智能体渗透率有望实现大的飞跃。这使得智能体场景的数据合成，成为大模型企业的核心竞争力。阶跃星辰方面认为，结合具体的智能体应用，从真实场景、真实需求中提取并合成长链智能体数据，对模型性能有至关重要的作用。

在物理AI领域，真实交互数据目前仍然是基础。合成数据通常建立在真实数据基础之上，用于扩展覆盖范围、增强长尾样本和提升训练与测试效率。换言之，这是完成1-100的工作；而具身智能现在尚且缺乏0-1阶段的数据积累，合成数据也还没法发挥最大功效。

鲍世强表示，当下具身智能的很多核心工作，就是围绕获取0-1阶段的交互数据而展开的。比如，不少企业通过员工穿戴配置了传感器的手套操作，或者遥控操作机器人完成多样化的动作而采集相关数据。

“遥操真机去采集的方式，数据质量肯定是最高的，但是这个方式主要的问题是成本很高。”鲍世强说，所以现在很多地方都在建创新中心，支持数据集的建设。国家层面也希望通过整个行业的力量去解决基础数据获取的问题。

数据的标准化，也有待推进。

“当前数据标准体系仍不完善。不要说具身智能了，即使在智驾领域，不同厂商之间在数据格式、语义定义、标注体系和质量要求上也存在较大差异，导致数据复用和共享成本很高。”鲍世强期待，2026年在数据的标准化方面有一些进展，这也能促进数据的共享。

来源：https://www.163.com/dy/article/KNEIKB3J0519DDQ2.html

算法海斌智能体大模型人工智能政府工作报告

上一篇智能服务如何像水电一样便捷？未来生活新趋势解析 下一篇AI浪潮中女性力量：她们如何成为技术落地的关键翻译者

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-07

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

科技数码 · 2026-07-07

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

科技数码 · 2026-07-07

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

科技数码 · 2026-07-07

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

科技数码 · 2026-07-07

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1