游乐游手机版
首页/AI热点日报/热点详情

Nature曝光:大量论文被暗中高价卖给AI训练,作者不知情

类型:热点整理2026-07-05
学术出版商将研究论文打包出售给科技公司用于训练AI大模型,如泰勒与弗朗西斯与微软达成1000万美元交易。多数作者对此毫不知情,且论文一旦被用于训练便无法撤回。学术界态度复杂,目前缺乏公平的使用规则与补偿机制。

想过没有,你辛辛苦苦写的研究论文,可能已经在悄悄“哺育”AI了。这并不是危言耸听——不少学术出版商正将自己的成果打包出售给开发AI模型的科技公司,而科研界对此的反应颇为复杂,尤其是那些根本不知情的作者们。业内专家普遍认为,如果你的论文目前还没被某个大型语言模型(LLM)盯上,那大概率也只是时间问题。

最近,一个标志性事件是英国学术出版商泰勒与弗朗西斯(Taylor & Francis)与微软达成了一笔价值1000万美元的交易,允许微软利用其丰富的研究数据来提升AI系统的能力。而在更早的六月,美国出版商威利(Wiley)也通过类似协议进账2300万美元,将旗下内容用于生成式AI模型的训练。可以说,学术内容正在成为一种新的“数据矿产”。

华盛顿大学的AI研究员Lucy Lu Wang一针见血地指出:“只要一篇论文在网上存在,不管是开放获取还是藏在付费墙后面,它都可能已经被喂进了某个大模型。而且,一旦论文被用于训练,事后想撤回来是根本不可能的。”

Nature惊人内幕:无数论文被偷偷高价出售喂AI 作者毫不知情

为什么学术论文会成为AI公司的“香饽饽”?原因很简单:LLM的训练需要海量数据,而互联网上质量参差不齐的文本中,学术论文以其极高的信息密度和完整的逻辑结构脱颖而出。通过分析数以亿计这样的高质量语言片段,模型才能学会生成流畅且内容准确的文本,尤其在科学领域,这种数据对提升AI的推理能力至关重要。

事实上,购买高质量数据集最近已成为一种明显的行业趋势,不仅仅是学术出版界,许多知名媒体和内容平台也开始与AI开发者合作,授权出售自己的内容。背后的逻辑很现实:与其让你的作品在不知情的情况下被无声无息地爬取,不如主动达成协议,至少能获得经济回报。可以预见,未来这类合作只会更加频繁。

当然,也有例外。像大型人工智能网络(Large-scale Artificial Intelligence Network)这类开发者,选择保持数据集的开放性,但更多开发生成式AI的公司却对训练数据的来源讳莫如深,用专家的话说——“我们对他们的训练数据几乎一无所知”。可以推断,像arXiv这样的开放源代码平台和PubMed等学术数据库,无疑是AI公司重点抓取的目标。

一个棘手的难题是,如何证明某篇论文是否真的被某个LLM训练过?研究人员想出过一个法子:用论文中一些不那么常见的句子去测试模型,看它能否准确地输出原文。但这招并不绝对可靠,因为开发者完全可以通过技术手段对模型进行调整,避免其直接复制训练数据。换句话说,你想抓到实锤,很难。

Nature惊人内幕:无数论文被偷偷高价出售喂AI 作者毫不知情

退一步说,即便真的证明了某个LLM使用了特定文本,下一步又该如何?围绕“版权侵权”的争议正在升温。出版商们坚持认为,未经授权使用受版权保护的文本就是侵权;但也有强有力的反对意见指出,LLM并不是简单的复制粘贴,而是通过学习内容的模式和逻辑来生成全新的文本。目前,一场具有里程碑意义的诉讼正在美国进行。《纽约时报》起诉了微软和ChatGPT的开发者OpenAI,指控它们在未获许可的情况下,大量使用其新闻内容训练模型。这个案子的判决结果,很可能会为整个行业定下基调。

有意思的是,对于自己的作品被纳入LLM训练数据这件事,学术界内部的态度也并非铁板一块。不少学者其实持欢迎态度,尤其当这些模型能够提升科研的准确性和效率时。但并非所有人都能如此坦然,也有相当一部分研究者感到自己的工作价值受到了威胁。

现阶段,一个让很多科研作者感到挫败的现实是:在出版商做出“卖数据”的决定时,他们几乎没有发言权。而对于已经公开发表的内容,如何分配信用、论文被使用后有没有相应的补偿机制,目前都一片空白。一位研究者的话或许道出了许多人的心声:“我们希望有AI模型的帮助,但我们也渴望一个公平的游戏规则。而现在,我们还没有找到那个解决方案。”

来源:https://www.1ai.net/18073.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。