来源:科技日报

科技日报记者 张梦然
《自然》杂志日前报道了一个开源语言模型“OpenScholar”,它在精确进行文献综述方面有望超越商用大语言模型。例如,在该研究开展的实验中,GPT4o在78%到90%的情况下会出现引用幻觉,而“OpenScholar”的引用准确率则已接近人类专家的水准。虽然仍需持续优化,但这个工具有望帮助科学家处理日益繁杂的科研文献综述工作。
科学文献综述对于支撑循证决策、完善科研进程和引导新发现都至关重要。然而,文献发表数量的快速增长让研究人员难以全面掌握领域动态。商用大语言模型虽然能够提供一定辅助,却容易出现错误,例如在归因能力上的局限性以及频繁的引用幻觉。
为了生成准确、全面且表述清晰的科学文献综述,美国华盛顿大学的研究团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强型语言模型。其他系统也采用过类似框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专用数据库以及一套自我评估机制相结合,从而优化了其输出质量。
研究团队还创建了一个名为“ScholarQABench”的基准工具,用以评估文献综述的自动化水平。测试结果显示,“OpenScholar”的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器提供的答案更为实用。
团队总结道,上述结果以及引用幻觉的大幅减少,证明了“OpenScholar”未来有望支持和推动科研工作。但他们也指出,该系统仍有局限性,并强调基于语言模型的系统无法使科学文献综述实现完全自动化。他们同时向学界开放了“ScholarQABench”和“OpenScholar”,以鼓励进一步的研究与优化。
总编辑圈点
科研人员每天寻找有价值的论文,就好比在信息的“海洋”里捞取“珍珠”。但如今海水暴涨,真正有用之物和虚假错乱之物一同浮上水面。以往大家用的是通用的“万能捞网”,比如GPT。但它网眼太大,捞上来的可能是“塑料珠子”,也就是虚假或错误的引用,需要花费大量时间去甄别筛选,甚至可能被误导。而这个“OpenScholar”,是一张专门为这片科学海洋设计的网。它不求万能,追求可靠,并且所有科学家都能一起改进这个工具,让它更精准。这有望将科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。
