12月27日,国家市场监督管理总局发布消息称,近日《人工智能大模型》系列国家标准已正式实施。
作为国内首部针对通用大模型的国家标准,该系列标准填补了技术评价体系的空白,明确了性能、安全与服务能力要求;与之配套的测评能力,也已获得中国合格评定国家认可委员会认可。
基于该标准构建的“求索”-LMBench 测评基准,整合了测评方法、数据集与自动化平台,目前已成为行业公认的“能力标尺”。这一测评体系已形成主流大模型的白名单,为央国企选型提供了可靠依据,同时支撑了中国石化、南方电网等建设行业大模型,完成了对华为盘古、讯飞星火、中国移动“九天”等模型的实际场景验证。
截至目前,标准配套工具已完成千余项测评任务,调用大模型超95万次,精准识别幻觉控制、内容安全等共性问题,助力近30家厂商完成技术迭代,推动了“研发—测评—应用—升级”闭环的形成。
值得一提的是,标准的国际化进程也在同步推进。面向东盟,已编制英语、老挝语、高棉语版本,填补了区域性空白;此外,中国的开源模型架构已被新加坡等国的项目实际采纳。

