
2025年9月18日,昆明 —— 今日上午,2025年国家网络安全宣传周人工智能安全治理分论坛在昆明举行,会上正式向社会发布中文互联网基础语料3.0版本。
在中央网信办相关职能部门的指导下,中国网络空间安全协会联合国家互联网应急中心等机构,在此前已发布的中文互联网基础语料1.0与2.0版本基础上,进一步整合企业、高校及科研单位的协同资源,依托人工智能安全治理专业委员会建立的语料共建共享机制,持续推进高质量可信数据的汇聚工作。经过严格的信源筛选、内容过滤和数据去重等系统化处理流程,最终形成新版语料并面向社会公开。
此次发布的中文互联网基础语料3.0扩大了优质中文 的数据来源范围,强化了对违法不良信息的过滤能力,总数据量达120GB,可为大规模语言模型训练及人工智能技术发展提供坚实可靠的中文数据支撑。
有需求的用户可通过访问中国网络空间安全协会正式,进入“中文互联网语料资源平台”页面,完成注册与身份认证后,即可下载使用相关语料资源。
协会相关负责人表示,中文互联网基础语料3.0的发布是多方协作推进高质量语料建设的重要阶段性成果,显著提升了优质中文语料的供给水平。下一步,协会将联合国家互联网应急中心及相关行业力量,持续完善中文互联网基础语料体系建设,为人工智能领域的技术创新与产业进步提供有力保障。
