首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
OpenAI破解大模型幻觉难题,重塑评估机制以减少错误输出

OpenAI破解大模型幻觉难题,重塑评估机制以减少错误输出

热心网友
33
转载
2025-09-08

OpenAI研究人员近日表示,他们已找到解决大语言模型一个关键难题的方法,即减少模型在输出信息时产生的“幻觉”现象。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

所谓“幻觉”,指的是大语言模型在生成内容时会输出看似合理但实际上并不准确的信息。这种问题广泛存在于当前主流模型中,成为影响其可靠性的一大障碍。

研究人员在一篇新发表的论文中指出,幻觉现象的根源在于模型的训练机制。目前的训练方式更倾向于奖励模型“猜测”答案,而不是鼓励它在面对不确定信息时坦承“我不知道”。这种机制导致模型倾向于表现得像一个“善于应试的考生”,即使在信息不明确的情况下也会尝试给出一个看似正确的回答。

OpenAI在上月的一篇文章中提到,其他模型在处理不确定性时的表现也有所不同。例如,某些模型在面对缺乏明确答案的问题时,会倾向于选择不回答或表达不确定。虽然这有助于减少错误信息的输出,但也可能降低模型的实用性,因为用户期望获得更多的有效回应。

研究人员认为,幻觉问题难以根除的主要原因之一,是当前主流评估体系的导向。这些评估方法往往将“猜测出正确答案”视为高分表现,而将“无法回答”或“不确定”视为低分表现。这种机制进一步强化了模型猜测行为的倾向。

“现实世界并非非黑即白的判断题,”研究人员在论文中指出,“但目前的评估标准却把模型训练成了始终处于考试状态的答题机器,忽略了现实中普遍存在的不确定性。”

他们建议,解决这一问题的根本方法在于重新设计模型的评估和评分机制。理想的评估体系应当对猜测行为进行惩罚,而不是对模型的不确定性表达予以扣分。只有当评分机制能够准确反映模型在面对不确定时的合理反应,才能真正减少幻觉现象的发生。

在相关说明中,研究人员进一步强调,当前以准确率为核心的评估标准已经难以适应更复杂的应用场景。如果排行榜继续奖励那些依靠猜测获得高分的模型,那么未来的大模型仍会被持续训练为依赖运气的“应试机器”。

来源:https://ai.zol.com.cn/1043/10437771.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜
网络安全
OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜

3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友
03.31
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连
电脑教程
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界

热心网友
03.31
日元3月大跌13.23%,创2020年3月以来最大单月跌幅
科技数码
日元3月大跌13.23%,创2020年3月以来最大单月跌幅

格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友
03.31
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元
科技数码
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,

热心网友
03.31
小吉空调双十服务:提升家居空间美学的专业方案
科技数码
小吉空调双十服务:提升家居空间美学的专业方案

小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友
03.31