首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
引文幻觉下降的AI新模型,准确率逼近人类专家

引文幻觉下降的AI新模型,准确率逼近人类专家

热心网友
22
转载
2026-02-05

来源:科技日报

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


科技日报记者 张梦然

《自然》杂志日前报道了一个开源语言模型“OpenScholar”,它在精确进行文献综述方面有望超越商用大语言模型。例如,在该研究开展的实验中,GPT4o在78%到90%的情况下会出现引用幻觉,而“OpenScholar”的引用准确率则已接近人类专家的水准。虽然仍需持续优化,但这个工具有望帮助科学家处理日益繁杂的科研文献综述工作。

科学文献综述对于支撑循证决策、完善科研进程和引导新发现都至关重要。然而,文献发表数量的快速增长让研究人员难以全面掌握领域动态。商用大语言模型虽然能够提供一定辅助,却容易出现错误,例如在归因能力上的局限性以及频繁的引用幻觉。

为了生成准确、全面且表述清晰的科学文献综述,美国华盛顿大学的研究团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强型语言模型。其他系统也采用过类似框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专用数据库以及一套自我评估机制相结合,从而优化了其输出质量。

研究团队还创建了一个名为“ScholarQABench”的基准工具,用以评估文献综述的自动化水平。测试结果显示,“OpenScholar”的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器提供的答案更为实用。

团队总结道,上述结果以及引用幻觉的大幅减少,证明了“OpenScholar”未来有望支持和推动科研工作。但他们也指出,该系统仍有局限性,并强调基于语言模型的系统无法使科学文献综述实现完全自动化。他们同时向学界开放了“ScholarQABench”和“OpenScholar”,以鼓励进一步的研究与优化。

总编辑圈点

科研人员每天寻找有价值的论文,就好比在信息的“海洋”里捞取“珍珠”。但如今海水暴涨,真正有用之物和虚假错乱之物一同浮上水面。以往大家用的是通用的“万能捞网”,比如GPT。但它网眼太大,捞上来的可能是“塑料珠子”,也就是虚假或错误的引用,需要花费大量时间去甄别筛选,甚至可能被误导。而这个“OpenScholar”,是一张专门为这片科学海洋设计的网。它不求万能,追求可靠,并且所有科学家都能一起改进这个工具,让它更精准。这有望将科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。

来源:https://www.163.com/dy/article/KL0C6ORG0514R9OJ.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

研究警示:需警惕人工智能的“过度谄媚”风险
科技数码
研究警示:需警惕人工智能的“过度谄媚”风险

新一期美国《科学》杂志发表的一项研究显示,当人类用户就人际困境等问题向人工智能(AI)模型寻求建议时,AI常表现得过度迎合或谄媚,甚至对于一些有害甚至违法的提问,AI也常常肯定用户的立场。美国斯坦福

热心网友
03.28
钟柯平:反对将国际学术交流政治化的立场与应对
科技数码
钟柯平:反对将国际学术交流政治化的立场与应对

近日,人工智能领域国际学术会议NeurIPS(神经信息处理系统大会)在其2026年会议征稿指南中,公然依据美国单边制裁名单,将一批包括中国机构在内的组织排除在投稿范围之外。此举把政治霸权引入学术交流

热心网友
03.26
MiniMax大模型赋能GeneClaw,驱动生物医药研发智能化升级
科技数码
MiniMax大模型赋能GeneClaw,驱动生物医药研发智能化升级

转载自:minimax开放平台3 月 25 日,minimax 大模型正式接入临港实验室面向生物医药研发打造的科学智能体 geneclaw。临港实验室依托自主研发的元生 origene 智能体与开源

热心网友
03.26
2025全球工程前沿189项成果:AI重塑工程范式新跃迁
科技数码
2025全球工程前沿189项成果:AI重塑工程范式新跃迁

3月25日,2026中关村论坛年会开幕式暨全体会议上,中国工程院院长李晓红发布 "2025全球工程前沿 "。在9个领域共遴选出94个工程研究前沿和95个工程开发前沿,直指未来工程科技发展核心。人工智能与

热心网友
03.26
2025中国科学十大进展发布:2D-硅基混合架构闪存芯片入选
电脑教程
2025中国科学十大进展发布:2D-硅基混合架构闪存芯片入选

3月25日消息,今日,国家自然科学基金委员会发布2025年度“中国科学十大进展”。全功能二维半导体 硅基混合架构异质集成闪存芯片、嫦娥六号样品首次揭示月背演化历史和巨型撞击效应等入选。2025年度“

热心网友
03.25

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

Numbers表格单元格内如何强制换行?两种实用方法详解
电脑教程
Numbers表格单元格内如何强制换行?两种实用方法详解

Numbers表格中多行文本显示异常的五种解决方法:一、启用自动换行;二、用Option+Return插入手动换行符;三、公式中用CHAR(10)嵌入换行;四、双击后粘贴保留换行的

热心网友
03.28
在PowerPoint中设置演示文稿打开时自动播放背景视频的方法
手机教程
在PowerPoint中设置演示文稿打开时自动播放背景视频的方法

在制作ppt演示文稿时,为了增添视觉效果和吸引力,常常会添加背景视频。而设置背景视频打开时自动播放,能让演示一开始就抓住观众的注意力。下面就来详细介绍如何在视频工具栏中进行这一设置

热心网友
03.28
哈夫克增援刷新点位置详解:三角洲行动关键点位
游戏攻略
哈夫克增援刷新点位置详解:三角洲行动关键点位

在三角洲行动中,了解哈夫克增援点的刷新位置对于玩家在战斗中获取优势至关重要。地图分布规律哈夫克增援点在地图上的分布有一定规律。通常会出现在资源丰富、战略意义重要的区域。比如连接不同

热心网友
03.28
《古墓丽影9》如何联机?多人模式完整教程
游戏资讯
《古墓丽影9》如何联机?多人模式完整教程

一、联机前提条件确保你的手机系统符合游戏要求,且网络连接稳定流畅,推荐使用wi-fi网络以避免联机过程中的卡顿和延迟。同时,游戏需更新到最新版本,以保证联机功能的正常运行。二、创建

热心网友
03.28
沧元图前传解析:凤凰之火的燃烧,都是娘子在抱你啊
娱乐
沧元图前传解析:凤凰之火的燃烧,都是娘子在抱你啊

追完《沧元图》前传《东宁府的夏天》第三集,情绪还没缓过来——前半段哭到鼻子发酸,后半段又姨母笑到嘴角僵硬,这一集的情绪起伏,真的太戳人了。上一集里,孟川拼尽全力陨灭了真龙太子的真身,本以为危机彻底解

热心网友
03.28