科学家：多数大语言模型测试标准存缺陷，难以客观评分

首页

热心网友

转载

2025-11-09

11月8日消息，科技媒体The Decoder今日报道称，牛津大学与华盛顿大学等机构联合发布的一项国际研究指出，目前大多数大语言模型的测试标准存在严重的方法论缺陷，这使得人们难以客观衡量人工智能的真实进展。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

研究人员系统梳理了2018至2024年间顶级人工智能学术会议发布的445篇基准测试论文，这些会议涵盖ICML、ICLR、NeurIPS、ACL等权威平台。在邀请29名领域专家进行评审后，发现这些论文均存在至少一个重大方法论漏洞。

研究报告显示，这些基准定义中普遍存在术语模糊或概念争议的问题。虽然78%的基准能够说明测试内容，但其中半数未能清晰定义"推理""对齐""安全性"等核心概念，导致研究结论缺乏可信度。

科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

值得注意的是，约61%的基准测试评估了复合型能力，例如"智能体行为"。这类测试通常同时涉及意图理解、结构化输出生成等多个子任务，而这些子任务鲜少被单独评估，导致最终结果难以合理解读。

数据采样方法也是基准测试的另一个薄弱环节。约93%的论文采用便利抽样，12%完全依赖便利抽样，这些样本无法代表真实使用场景。此外，38%的测试复用了现有数据集，许多研究甚至直接使用其他测试集。这种做法可能扭曲大语言模型的实际表现，无法真实反映模型在复杂数学推理方面的能力水平。

此外，超过80%的研究使用"完全匹配率"作为评分标准，但仅16%采用统计校验方法来比较不同模型间的差异，还有13%使用人工评判。大多数测试未能提供不确定性统计或置信区间，严重削弱了结果的可信度。

研究团队也提出了具体改进建议。他们强调后续测试需要明确定义测试目标和边界，确保评估过程不掺杂无关任务，同时需要防范数据污染问题。建议采用严谨的统计与误差分析方法，从定量和定性两个维度着手，让研究结论更加准确可靠。

来源:https://www.ithome.com/0/895/954.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：百度文心大模型5.0预览版发布：文本能力全球第二、国内第一下一篇：AI引发灾难：代码无审核与数据滥用警示

相关攻略

科技数码

问梨重磅发布：全球首个开放式梨行业大语言模型

来源：科技日报科技日报记者金凤通讯员谢智华如果你想咨询梨的栽培技术、遗传性状、产业政策等信息，向大语言模型“问梨”提问，即可获得专家级的解决方案。3月28日，世界首个开放式可用的梨行业大语言模

热心网友

03.30

科技数码

DeepZang发布：全球首个藏语AI大模型开启智能时代

IT之家 3 月 16 日消息，据《西藏日报》报道，3 月 15 日，全球首个藏语大语言模型 DeepZang 在拉萨正式发布，标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越，

热心网友

03.16

科技数码

大语言模型如何重塑搜索引擎？机遇与挑战深度解析

"> ">所谓大语言模型，英文简称LLM（Large Language Model），指的就是一种使用大量语言文本，通过智能数据训练，得出人们所需要的文本的计算机模型。比较经典的LLM，有美国的Op

热心网友

03.14

科技数码

谷歌Gemini大模型：阅读500万篇新闻预测山洪

IT之家 3 月 12 日消息，山洪暴发是全球致死率最高的气象灾害之一，每年造成超过 5000 人死亡，同时也是最难预测的灾害之一。而谷歌认为，他们以一种出人意料的方式破解了这一难题 —— 通过阅读

热心网友

03.12

业界动态

阿里新语音模型：可定制角色与背景音乐的freestyle创作

3月2日消息，今日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3 5、无参考音频的音色设计模型Fun-AudioGen-VD。据介绍，两款模型均引入了强大的“指令遵

热心网友

03.03

热门推荐

网络安全

OPPO Find X9s Pro实拍对比Ultra：细节更真实，手感更胜

3月31日消息，OPPO将于4月21日举行新品发布会，推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日，OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友

03.31

电脑教程

揭秘Yandex网页版免注册入口，2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ，该链接通过skip_sslsignin=1参数直连最新服务器，自动跳过登录验证，支持多语言、多服务快捷访问，具备轻量界

热心网友

03.31

科技数码

日元3月大跌13.23%，创2020年3月以来最大单月跌幅

格隆汇3月31日｜日经225指数收盘下跌822 13点，跌幅1 58%，报51063 72点。日经225指数3月收跌13 23%，创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友

03.31

科技数码

顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%，报35 02港元，最高触及35 7港元；顺丰控股A股(002352 SZ)涨4%，报38 23元，创一个半月新高。消息面上，顺丰控股披露了2025年年度报告，

热心网友

03.31

科技数码

小吉空调双十服务：提升家居空间美学的专业方案

小吉空调以“双十”服务，向用户交付家居空间的美学方案家电行业的竞争，长期围绕产品参数与外观设计展开;但当产品趋同成为常态，品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友

03.31