游乐游手机版
首页/科技数码/文章详情

引文幻觉下降的AI新模型,准确率逼近人类专家

时间:2026-02-05 11:07
来源:科技日报科技日报记者 张梦然《自然》4日报道了一个开源语言模型“OpenScholar”,其在准确进行文献综述方面可超越商用大语言模型。比如,在该研究开展的实验中,GPT4o会在78%至90%

来源:科技日报


科技日报记者 张梦然

《自然》杂志日前报道了一个开源语言模型“OpenScholar”,它在精确进行文献综述方面有望超越商用大语言模型。例如,在该研究开展的实验中,GPT4o在78%到90%的情况下会出现引用幻觉,而“OpenScholar”的引用准确率则已接近人类专家的水准。虽然仍需持续优化,但这个工具有望帮助科学家处理日益繁杂的科研文献综述工作。

科学文献综述对于支撑循证决策、完善科研进程和引导新发现都至关重要。然而,文献发表数量的快速增长让研究人员难以全面掌握领域动态。商用大语言模型虽然能够提供一定辅助,却容易出现错误,例如在归因能力上的局限性以及频繁的引用幻觉。

为了生成准确、全面且表述清晰的科学文献综述,美国华盛顿大学的研究团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强型语言模型。其他系统也采用过类似框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专用数据库以及一套自我评估机制相结合,从而优化了其输出质量。

研究团队还创建了一个名为“ScholarQABench”的基准工具,用以评估文献综述的自动化水平。测试结果显示,“OpenScholar”的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器提供的答案更为实用。

团队总结道,上述结果以及引用幻觉的大幅减少,证明了“OpenScholar”未来有望支持和推动科研工作。但他们也指出,该系统仍有局限性,并强调基于语言模型的系统无法使科学文献综述实现完全自动化。他们同时向学界开放了“ScholarQABench”和“OpenScholar”,以鼓励进一步的研究与优化。

总编辑圈点

科研人员每天寻找有价值的论文,就好比在信息的“海洋”里捞取“珍珠”。但如今海水暴涨,真正有用之物和虚假错乱之物一同浮上水面。以往大家用的是通用的“万能捞网”,比如GPT。但它网眼太大,捞上来的可能是“塑料珠子”,也就是虚假或错误的引用,需要花费大量时间去甄别筛选,甚至可能被误导。而这个“OpenScholar”,是一张专门为这片科学海洋设计的网。它不求万能,追求可靠,并且所有科学家都能一起改进这个工具,让它更精准。这有望将科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。

来源:https://www.163.com/dy/article/KL0C6ORG0514R9OJ.html
上一篇短视频叙事进阶:内容形态如何超越“标签化”? 下一篇美企对华竞争受阻,为何仍要加码中国汽车市场?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5