科学家:多数大语言模型测试标准存缺陷,难以客观评分
11月8日消息,科技媒体The Decoder今日报道称,牛津大学与华盛顿大学等机构联合发布的一项国际研究指出,目前大多数大语言模型的测试标准存在严重的方法论缺陷,这使得人们难以客观衡量人工智能的真实进展。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究人员系统梳理了2018至2024年间顶级人工智能学术会议发布的445篇基准测试论文,这些会议涵盖ICML、ICLR、NeurIPS、ACL等权威平台。在邀请29名领域专家进行评审后,发现这些论文均存在至少一个重大方法论漏洞。
研究报告显示,这些基准定义中普遍存在术语模糊或概念争议的问题。虽然78%的基准能够说明测试内容,但其中半数未能清晰定义"推理""对齐""安全性"等核心概念,导致研究结论缺乏可信度。

值得注意的是,约61%的基准测试评估了复合型能力,例如"智能体行为"。这类测试通常同时涉及意图理解、结构化输出生成等多个子任务,而这些子任务鲜少被单独评估,导致最终结果难以合理解读。
数据采样方法也是基准测试的另一个薄弱环节。约93%的论文采用便利抽样,12%完全依赖便利抽样,这些样本无法代表真实使用场景。此外,38%的测试复用了现有数据集,许多研究甚至直接使用其他测试集。这种做法可能扭曲大语言模型的实际表现,无法真实反映模型在复杂数学推理方面的能力水平。
此外,超过80%的研究使用"完全匹配率"作为评分标准,但仅16%采用统计校验方法来比较不同模型间的差异,还有13%使用人工评判。大多数测试未能提供不确定性统计或置信区间,严重削弱了结果的可信度。
研究团队也提出了具体改进建议。他们强调后续测试需要明确定义测试目标和边界,确保评估过程不掺杂无关任务,同时需要防范数据污染问题。建议采用严谨的统计与误差分析方法,从定量和定性两个维度着手,让研究结论更加准确可靠。
相关攻略
来源:科技日报科技日报记者 金凤 通讯员 谢智华如果你想咨询梨的栽培技术、遗传性状、产业政策等信息,向大语言模型“问梨”提问,即可获得专家级的解决方案。3月28日,世界首个开放式可用的梨行业大语言模
IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,
"> ">所谓大语言模型,英文简称LLM(Large Language Model),指的就是一种使用大量语言文本,通过智能数据训练,得出人们所需要的文本的计算机模型。比较经典的LLM,有美国的Op
IT之家 3 月 12 日消息,山洪暴发是全球致死率最高的气象灾害之一,每年造成超过 5000 人死亡,同时也是最难预测的灾害之一。而谷歌认为,他们以一种出人意料的方式破解了这一难题 —— 通过阅读
3月2日消息,今日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3 5、无参考音频的音色设计模型Fun-AudioGen-VD。据介绍,两款模型均引入了强大的“指令遵
热门专题
热门推荐
3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro
Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界
格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。
顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,
小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”





