中国信息通信研究院(简称"信通院")日前发布重磅消息,"方升"人工智能基准测试体系迎来3.0版本的全面升级。这一突破性进展代表着我国AI评估技术实现质的飞跃。新版评测系统不只是简单扩充基础测试项目,更重要的是在全球范围内率先纳入全模态理解、长期记忆等10项前沿智能能力评估指标,为工业智能化、金融科技创新等关键领域打造了更精准的评判标准。
据悉,3.0版本创造性地增加了模型底层特征分析模块,系统性评估参数规模、推理速度等核心技术指标。着眼人工智能未来发展,专门设计了高阶智能测试单元,重点验证模型在多模态交互、复杂决策等领域的实战能力。信通院技术专家强调,这种分层评估架构既可精准把握当前产业现状,又能为科研攻关指明方向。
为确保评估结果的公信力,信通院同步启动了三大基础建设工程。首当其冲是测试数据库的扩容计划,将新增300万条跨语言、跨领域的标准化测试数据。其次是评测方法的创新突破,聚焦高质量合成数据生成、动态质量监控等核心技术研发。最具前瞻性的是智能化评测基座的建设,通过打造多智能体协同仿真环境,实现对复杂系统交互能力的精确度量。
最新季度的测评结果显示,参与评估的141个主流大模型和7个智能系统展现出差异化优势。测试涵盖基本认知、逻辑推演、编程生成、多模态理解等核心维度。数据分析表明,GPT-5依然保持综合性能领先,但国产模型表现抢眼——阿里巴巴通义千问3.0和月之暗面Kimi K2在特定应用场景已与国际顶尖水平比肩。特别值得注意的是,多模态模型在视觉识别领域突破明显,但在需要复杂推理的任务链上仍需提升。
专项代码能力测试揭示了行业普遍存在的技术痛点。虽然参评模型在简单编码任务上得心应手,但在实际工程涉及的架构设计、异常处理等关键环节表现欠佳。业内专家认为,这凸显了AI技术从理论研究到产业落地过程中亟待解决的工程化难题。
伴随着评测体系的持续精进,信通院已建立双月发布的常态化评估机制。相关负责人表示,下一阶段将重点推进评测标准的国际化进程,通过与全球顶尖研究机构深度合作,助力中国AI评估体系赢得国际话语权,为科技自主创新和产业转型升级提供坚实支撑。
