首页 游戏 软件 资讯 排行榜 专题
首页
AI
科学家:多数大语言模型测试标准存缺陷,难以客观评分

科学家:多数大语言模型测试标准存缺陷,难以客观评分

热心网友
83
转载
2025-11-09

11月8日消息,科技媒体The Decoder今日报道称,牛津大学与华盛顿大学等机构联合发布的一项国际研究指出,目前大多数大语言模型的测试标准存在严重的方法论缺陷,这使得人们难以客观衡量人工智能的真实进展。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究人员系统梳理了2018至2024年间顶级人工智能学术会议发布的445篇基准测试论文,这些会议涵盖ICML、ICLR、NeurIPS、ACL等权威平台。在邀请29名领域专家进行评审后,发现这些论文均存在至少一个重大方法论漏洞。

研究报告显示,这些基准定义中普遍存在术语模糊或概念争议的问题。虽然78%的基准能够说明测试内容,但其中半数未能清晰定义"推理""对齐""安全性"等核心概念,导致研究结论缺乏可信度。

科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分

值得注意的是,约61%的基准测试评估了复合型能力,例如"智能体行为"。这类测试通常同时涉及意图理解、结构化输出生成等多个子任务,而这些子任务鲜少被单独评估,导致最终结果难以合理解读。

数据采样方法也是基准测试的另一个薄弱环节。约93%的论文采用便利抽样,12%完全依赖便利抽样,这些样本无法代表真实使用场景。此外,38%的测试复用了现有数据集,许多研究甚至直接使用其他测试集。这种做法可能扭曲大语言模型的实际表现,无法真实反映模型在复杂数学推理方面的能力水平。

此外,超过80%的研究使用"完全匹配率"作为评分标准,但仅16%采用统计校验方法来比较不同模型间的差异,还有13%使用人工评判。大多数测试未能提供不确定性统计或置信区间,严重削弱了结果的可信度。

研究团队也提出了具体改进建议。他们强调后续测试需要明确定义测试目标和边界,确保评估过程不掺杂无关任务,同时需要防范数据污染问题。建议采用严谨的统计与误差分析方法,从定量和定性两个维度着手,让研究结论更加准确可靠。

来源:https://www.ithome.com/0/895/954.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

问梨重磅发布:全球首个开放式梨行业大语言模型
科技数码
问梨重磅发布:全球首个开放式梨行业大语言模型

来源:科技日报科技日报记者 金凤 通讯员 谢智华如果你想咨询梨的栽培技术、遗传性状、产业政策等信息,向大语言模型“问梨”提问,即可获得专家级的解决方案。3月28日,世界首个开放式可用的梨行业大语言模

热心网友
03.30
DeepZang发布:全球首个藏语AI大模型开启智能时代
科技数码
DeepZang发布:全球首个藏语AI大模型开启智能时代

IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,

热心网友
03.16
大语言模型如何重塑搜索引擎?机遇与挑战深度解析
科技数码
大语言模型如何重塑搜索引擎?机遇与挑战深度解析

"> ">所谓大语言模型,英文简称LLM(Large Language Model),指的就是一种使用大量语言文本,通过智能数据训练,得出人们所需要的文本的计算机模型。比较经典的LLM,有美国的Op

热心网友
03.14
谷歌Gemini大模型:阅读500万篇新闻预测山洪
科技数码
谷歌Gemini大模型:阅读500万篇新闻预测山洪

IT之家 3 月 12 日消息,山洪暴发是全球致死率最高的气象灾害之一,每年造成超过 5000 人死亡,同时也是最难预测的灾害之一。而谷歌认为,他们以一种出人意料的方式破解了这一难题 —— 通过阅读

热心网友
03.12
阿里新语音模型:可定制角色与背景音乐的freestyle创作
业界动态
阿里新语音模型:可定制角色与背景音乐的freestyle创作

3月2日消息,今日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3 5、无参考音频的音色设计模型Fun-AudioGen-VD。据介绍,两款模型均引入了强大的“指令遵

热心网友
03.03

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜
网络安全
OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜

3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友
03.31
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连
电脑教程
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界

热心网友
03.31
日元3月大跌13.23%,创2020年3月以来最大单月跌幅
科技数码
日元3月大跌13.23%,创2020年3月以来最大单月跌幅

格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友
03.31
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元
科技数码
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,

热心网友
03.31
小吉空调双十服务:提升家居空间美学的专业方案
科技数码
小吉空调双十服务:提升家居空间美学的专业方案

小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友
03.31