2025年12月17日至18日,全球数据技术大会在北京举行。华为公司副总裁、数据存储产品线总裁袁远在会上,分享了华为在数据基础设施领域的思考与实践。
袁远指出,随着智能体AI新时代的到来,各行各业都在更加深入、全面地运用数据,使其成为AI训练与推理的“语言”与“知识库”,从而创造出更大的价值。当前,用于AI的数据量同比增长高达41%,数据资源共享日益活跃,越来越多的行业及技术企业选择进入数据市场,通过扩大数据资产的规模、精度与多样性,在智能化竞争中占据领先地位。此外,高质量数据集的建设正在加速。截至目前,我国已建成超过500PB的高质量数据集。AI的快速发展,在巩固数据要素核心地位的同时,正推动传统IT架构从“以算力为中心”向“以数据为中心”深刻转变。
袁远同时强调:“中国已是全球数据大国,但数据‘语料’建设仍面临关键挑战。”他指出,我国数据留存率仅为2.8%,存在海量数据“存不下”、存储成本高、能耗大等问题;行业高质量数据稀缺,例如我国医疗模型训练数据量仅为西方领先国家的10%左右;数据共享率不足25%,大量数据仍存储于“孤岛”之中;数据安全风险突出,全球年度数据泄露事件已高达470余亿条。
面对这些挑战,袁远结合《国家数据基础设施建设指导意见》与华为实践,提出了三点建议。
首先在城市层面,宜充分发挥城市枢纽作用,打造先进存力中心,推动公共数据和行业数据的汇聚、治理与可信流通,支撑城市数字经济发展。其次在行业层面,建议建设数据共享协作平台,推动数据从分散利用走向智能融合,让高质量行业知识库为整个生态赋能。最后在企业层面,企业作为最早开始重视、挖掘数据资产的先行者,需着力建设AI数据湖底座,加强全域数据共享、高效管理与敏捷使用。
“以自动驾驶为例,通过AI数据湖整合路测、仿真、高精地图等多种数据,提供百万车辆数据高速接入、EB级数据高效管理、全球站点数据跨域流动等关键能力,让环境感知、行人避让等多智能体协同工作,从而保障在极端条件与特定场景下的行车安全。”袁远解释道。
袁远表示,先进的数据基础设施建设离不开持续的技术创新。未来,华为将继续加大投入,引领AI数据湖的发展方向,助力各界逐步解决数据收集、存储、治理与应用中的难题,推动AI技术落地,共同释放数据要素的巨大价值。
