游乐游手机版
首页/科技数码/文章详情

OpenAI破解大模型幻觉难题,重塑评估机制以减少错误输出

时间:2025-09-08 12:28
OpenAI研究人员近日表示,他们已找到解决大语言模型一个关键难题的方法,即减少模型在输出信息时产生的“幻觉”现象。所谓“幻觉”,指的是大语言模型在生成内容时会输出看似合理但实际上并不准确的信息。这

OpenAI研究人员近日表示,他们已找到解决大语言模型一个关键难题的方法,即减少模型在输出信息时产生的“幻觉”现象。

所谓“幻觉”,指的是大语言模型在生成内容时会输出看似合理但实际上并不准确的信息。这种问题广泛存在于当前主流模型中,成为影响其可靠性的一大障碍。

研究人员在一篇新发表的论文中指出,幻觉现象的根源在于模型的训练机制。目前的训练方式更倾向于奖励模型“猜测”答案,而不是鼓励它在面对不确定信息时坦承“我不知道”。这种机制导致模型倾向于表现得像一个“善于应试的考生”,即使在信息不明确的情况下也会尝试给出一个看似正确的回答。

OpenAI在上月的一篇文章中提到,其他模型在处理不确定性时的表现也有所不同。例如,某些模型在面对缺乏明确答案的问题时,会倾向于选择不回答或表达不确定。虽然这有助于减少错误信息的输出,但也可能降低模型的实用性,因为用户期望获得更多的有效回应。

研究人员认为,幻觉问题难以根除的主要原因之一,是当前主流评估体系的导向。这些评估方法往往将“猜测出正确答案”视为高分表现,而将“无法回答”或“不确定”视为低分表现。这种机制进一步强化了模型猜测行为的倾向。

“现实世界并非非黑即白的判断题,”研究人员在论文中指出,“但目前的评估标准却把模型训练成了始终处于考试状态的答题机器,忽略了现实中普遍存在的不确定性。”

他们建议,解决这一问题的根本方法在于重新设计模型的评估和评分机制。理想的评估体系应当对猜测行为进行惩罚,而不是对模型的不确定性表达予以扣分。只有当评分机制能够准确反映模型在面对不确定时的合理反应,才能真正减少幻觉现象的发生。

在相关说明中,研究人员进一步强调,当前以准确率为核心的评估标准已经难以适应更复杂的应用场景。如果排行榜继续奖励那些依靠猜测获得高分的模型,那么未来的大模型仍会被持续训练为依赖运气的“应试机器”。

来源:https://ai.zol.com.cn/1043/10437771.html
上一篇《夺宝奇兵》新预告公开 年内登陆XGP 下一篇美中嘉和(02453):成功构建自主进化的多模态智能体架构,智能体检报告系统开始试用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南
科技数码 · 2026-06-07

2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南

国补政策一落地,身边不少朋友都开始在盘算换新机。学生党、年轻姑娘、还有那些天天拍短视频的创作者,成了这波购机主力。大家普遍头疼的是:手里预算就那么多,想要颜值、拍照、续航都兼顾,实在不容易。这次我们把vivo几款热门机型真机摸了个遍,结合实验室实测数据,从影像、做工、续航到补贴后到手价,一步步拆解。

SHEIN污染问题与环保管理框架全面解读
科技数码 · 2026-06-07

SHEIN污染问题与环保管理框架全面解读

SHEIN希音环保表现,关键要看这个框架 关注SHEIN希音的环保问题,其实是在探讨一个非常现实的话题:作为一家全球性的时尚零售商,它究竟如何应对服装行业长期面临的环境挑战——资源消耗、库存积压、碳排放、包装与纺织废弃物?如果能够把这些议题梳理清楚,那么对SHEIN希音的整体环保表现,心里也就大致有

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%
科技数码 · 2026-06-07

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%

苹果官方翻新商店再次迎来新品上架。6月5日,据MacRumors报道,美国官网的官方翻新专区悄然上线了三款2025年9月发布的智能手表——Apple Watch Series 11、Apple Watch Ultra 3以及Apple Watch SE 3。这是该系列机型首次通过翻新渠道销售,折扣幅

飞牛fnOS上线OPPO一加相册互联功能
科技数码 · 2026-06-07

飞牛fnOS上线OPPO一加相册互联功能

近日,飞牛 fnOS 发布重要更新:ARM 设备上的飞牛相册迎来大幅升级,其中最受关注的亮点是正式支持 OPPO 和一加设备互联。值得一提的是,此前 X86 平台已实现该功能,此次更新为 ARM 用户补齐了这项实用功能。 具体来说,OPPO 与飞牛之间的互联打通了四个关键场景,每项体验都非常实在:

小米米家植萃系列智能香氛机首发229元支持澎湃智联
科技数码 · 2026-06-07

小米米家植萃系列智能香氛机首发229元支持澎湃智联

米家智能香氛机植萃系列现已正式开售。大家最关心的价格方面,官方建议零售价为299元,而首发优惠价直接降至229元,性价比十足。 这款香氛机的核心亮点在于选用了奇华顿Orpur高端精油,天然植物萃取,气味清新自然,不刺鼻也不显廉价。它提供三种香型:风铃草、红茶、薰衣草,分别对应清甜、醇厚、舒缓的不同风