引文幻觉下降的AI新模型,准确率逼近人类专家
来源:科技日报
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

科技日报记者 张梦然
《自然》杂志日前报道了一个开源语言模型“OpenScholar”,它在精确进行文献综述方面有望超越商用大语言模型。例如,在该研究开展的实验中,GPT4o在78%到90%的情况下会出现引用幻觉,而“OpenScholar”的引用准确率则已接近人类专家的水准。虽然仍需持续优化,但这个工具有望帮助科学家处理日益繁杂的科研文献综述工作。
科学文献综述对于支撑循证决策、完善科研进程和引导新发现都至关重要。然而,文献发表数量的快速增长让研究人员难以全面掌握领域动态。商用大语言模型虽然能够提供一定辅助,却容易出现错误,例如在归因能力上的局限性以及频繁的引用幻觉。
为了生成准确、全面且表述清晰的科学文献综述,美国华盛顿大学的研究团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强型语言模型。其他系统也采用过类似框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专用数据库以及一套自我评估机制相结合,从而优化了其输出质量。
研究团队还创建了一个名为“ScholarQABench”的基准工具,用以评估文献综述的自动化水平。测试结果显示,“OpenScholar”的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器提供的答案更为实用。
团队总结道,上述结果以及引用幻觉的大幅减少,证明了“OpenScholar”未来有望支持和推动科研工作。但他们也指出,该系统仍有局限性,并强调基于语言模型的系统无法使科学文献综述实现完全自动化。他们同时向学界开放了“ScholarQABench”和“OpenScholar”,以鼓励进一步的研究与优化。
总编辑圈点
科研人员每天寻找有价值的论文,就好比在信息的“海洋”里捞取“珍珠”。但如今海水暴涨,真正有用之物和虚假错乱之物一同浮上水面。以往大家用的是通用的“万能捞网”,比如GPT。但它网眼太大,捞上来的可能是“塑料珠子”,也就是虚假或错误的引用,需要花费大量时间去甄别筛选,甚至可能被误导。而这个“OpenScholar”,是一张专门为这片科学海洋设计的网。它不求万能,追求可靠,并且所有科学家都能一起改进这个工具,让它更精准。这有望将科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。
相关攻略
“在复旦大学建设世界顶尖的交叉学科研究平台,让充满探索乐趣的基础科学真正推动人类健康进步”——这是舒校坤教授全职回归母校复旦时立下的目标,也是他二十多年科研生涯最真实的写照。 “科学研究本身就是一件充满乐趣的事。”舒校坤教授常常强调这一点。他认为,科研最大的动力,来自于对未知世界纯粹的好奇与探索欲。
我是一个爱听歌的人 对于爱听歌的人来说,耳机突然不见了,这事儿可真够让人着急的。尤其我那副耳机,接口还有点特别,用的是现在不太常见的D型充电口。翻箱倒柜折腾了半天,还是一无所获,心里难免空落落的。看着手边几副闲置的普通耳机和充电器,一个念头突然冒了出来——为什么不自己动手,做一个呢? 说干就干。我挑
梦想如果遥不可及,是不是应该放弃? 答案是不能。梦想,从来不只是终点,它更是我们出发的起点和一路前行的动力。失去梦想的指引,人生便容易陷入迷茫。所以,敢想,才是敢为的第一步。成为一名科学家,为祖国的科学事业添砖加瓦,这就是我的梦想,一个属于我的、小小的中国梦。它或许微不足道,但于我而言,却重若千钧。
《开学第一课》观后感:科学创造的魅力 一年一度的《开学第一课》如期播出,今年的主题“创造向未来”,可谓意味深长,引人深思。 仰望星空,那深邃无垠的夜空总能唤起人类最原始的好奇与神秘感。古往今来,这份对苍穹的遐想,从未停止。 回溯历史,在科技尚未启蒙的年代,关于“天上宫阙”的神话便已流传甚广。从《西游
湖北省潜江市园林四中刘恩民 那个星期六的上午,一辆大巴载着我们学校的几位同学,缓缓驶出了校园。我们的“科技一日游”,就这么开始了。前往武汉的路上,带队导游风趣得很,带着大家做游戏,还听我们唱起了校歌。说来也怪,连我这个出了名的“晕车王”,一路上竟也没觉得半点头晕。 感觉没过多久,大巴已经稳稳停下——
热门专题
热门推荐
迅捷路由器双频开启后网速变慢?三步系统调优,释放千兆真实性能 很多朋友发现,家里的迅捷路由器明明开启了2 4G和5G双频,可用起来网速反而时快时慢,追剧卡顿、游戏高延迟成了家常便饭。这背后,问题往往出在几个容易被忽视的细节上:默认开启的“双频合一”功能、信道自动选择的“偷懒”逻辑,以及频段配置与使用
选择虚拟币交易所需综合考量安全性、交易对、费用及用户体验。头部平台各具特色:币安适合多元交易者,Coinbase便于新手入门,OKX在衍生品领域领先,Kraken以安全合规著称。新兴平台如Bybit、KuCoin则在特定市场或功能上表现突出。投资者应根据自身需求,优先考虑资产安全与合规性,再结合交易习惯选择合适平台。
荣耀100 Pro不支持红外遥控功能,硬件层面未配备红外发射模块,因此无法直接通过手机发射红外信号控制传统空调。根据荣耀官方技术规格及多轮实测验证,该机型未集成红外硬件,系统设置中亦无“智能遥控”入口,桌面实用工具文件夹内亦未预置相关应用;用户若需实现空调控制,须借助荣耀智慧空间APP接入兼容的智能
华硕主板重启后U盘启动失效?系统性排查与精准解决 遇到华硕主板重启后U盘启动失效这事儿,确实挺让人头疼。但你不用焦虑,这通常不是什么玄学问题,根源往往出在引导设置、启动介质或固件兼容性这几个有章可循的技术环节上。咱们一步步来,把问题拆解清楚。 一、确认BIOS启动顺序与设备识别状态 第一步,得先让主
U盘数据恢复:从逻辑故障到物理损坏的全攻略 遇到U盘数据丢失或彻底“罢工”时,别慌,路通常有两条:要么借助靠谱的软件工具自行尝试,要么交给有资质的专业机构处理。如何选?其实关键看故障类型。对于分区丢失、误删除、中毒这类逻辑性故障,市面上的专业恢复工具是主力军,像数据蛙恢复专家、DiskGenius、





