Nature曝光：大量论文被暗中高价卖给AI训练，作者不知情_AI热点日报

Nature曝光：大量论文被暗中高价卖给AI训练，作者不知情

类型：热点整理2026-07-05

学术出版商将研究论文打包出售给科技公司用于训练AI大模型，如泰勒与弗朗西斯与微软达成1000万美元交易。多数作者对此毫不知情，且论文一旦被用于训练便无法撤回。学术界态度复杂，目前缺乏公平的使用规则与补偿机制。

想过没有，你辛辛苦苦写的研究论文，可能已经在悄悄“哺育”AI了。这并不是危言耸听——不少学术出版商正将自己的成果打包出售给开发AI模型的科技公司，而科研界对此的反应颇为复杂，尤其是那些根本不知情的作者们。业内专家普遍认为，如果你的论文目前还没被某个大型语言模型（LLM）盯上，那大概率也只是时间问题。

最近，一个标志性事件是英国学术出版商泰勒与弗朗西斯（Taylor & Francis）与微软达成了一笔价值1000万美元的交易，允许微软利用其丰富的研究数据来提升AI系统的能力。而在更早的六月，美国出版商威利（Wiley）也通过类似协议进账2300万美元，将旗下内容用于生成式AI模型的训练。可以说，学术内容正在成为一种新的“数据矿产”。

华盛顿大学的AI研究员Lucy Lu Wang一针见血地指出：“只要一篇论文在网上存在，不管是开放获取还是藏在付费墙后面，它都可能已经被喂进了某个大模型。而且，一旦论文被用于训练，事后想撤回来是根本不可能的。”

Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

为什么学术论文会成为AI公司的“香饽饽”？原因很简单：LLM的训练需要海量数据，而互联网上质量参差不齐的文本中，学术论文以其极高的信息密度和完整的逻辑结构脱颖而出。通过分析数以亿计这样的高质量语言片段，模型才能学会生成流畅且内容准确的文本，尤其在科学领域，这种数据对提升AI的推理能力至关重要。

事实上，购买高质量数据集最近已成为一种明显的行业趋势，不仅仅是学术出版界，许多知名媒体和内容平台也开始与AI开发者合作，授权出售自己的内容。背后的逻辑很现实：与其让你的作品在不知情的情况下被无声无息地爬取，不如主动达成协议，至少能获得经济回报。可以预见，未来这类合作只会更加频繁。

当然，也有例外。像大型人工智能网络（Large-scale Artificial Intelligence Network）这类开发者，选择保持数据集的开放性，但更多开发生成式AI的公司却对训练数据的来源讳莫如深，用专家的话说——“我们对他们的训练数据几乎一无所知”。可以推断，像arXiv这样的开放源代码平台和PubMed等学术数据库，无疑是AI公司重点抓取的目标。

一个棘手的难题是，如何证明某篇论文是否真的被某个LLM训练过？研究人员想出过一个法子：用论文中一些不那么常见的句子去测试模型，看它能否准确地输出原文。但这招并不绝对可靠，因为开发者完全可以通过技术手段对模型进行调整，避免其直接复制训练数据。换句话说，你想抓到实锤，很难。

Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

退一步说，即便真的证明了某个LLM使用了特定文本，下一步又该如何？围绕“版权侵权”的争议正在升温。出版商们坚持认为，未经授权使用受版权保护的文本就是侵权；但也有强有力的反对意见指出，LLM并不是简单的复制粘贴，而是通过学习内容的模式和逻辑来生成全新的文本。目前，一场具有里程碑意义的诉讼正在美国进行。《纽约时报》起诉了微软和ChatGPT的开发者OpenAI，指控它们在未获许可的情况下，大量使用其新闻内容训练模型。这个案子的判决结果，很可能会为整个行业定下基调。

有意思的是，对于自己的作品被纳入LLM训练数据这件事，学术界内部的态度也并非铁板一块。不少学者其实持欢迎态度，尤其当这些模型能够提升科研的准确性和效率时。但并非所有人都能如此坦然，也有相当一部分研究者感到自己的工作价值受到了威胁。

现阶段，一个让很多科研作者感到挫败的现实是：在出版商做出“卖数据”的决定时，他们几乎没有发言权。而对于已经公开发表的内容，如何分配信用、论文被使用后有没有相应的补偿机制，目前都一片空白。一位研究者的话或许道出了许多人的心声：“我们希望有AI模型的帮助，但我们也渴望一个公平的游戏规则。而现在，我们还没有找到那个解决方案。”

来源：https://www.1ai.net/18073.html

Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

延伸阅读

补充最近整理过的热点入口。

Nature曝光：大量论文被暗中高价卖给AI训练，作者不知情

相关热点

延伸阅读