2月24日,IT之家发布消息称,全球顶尖人工智能模型通过特定提示词,能够生成与畅销小说内容几乎逐字相同的文本,这对AI行业声称其系统不存储受版权保护作品的说法提出了新的质疑。

近期多项研究表明,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型,对训练数据的记忆能力远超此前认知。
AI与法律专家向媒体透露,这种"记忆"能力可能对全球AI企业应对数十起版权诉讼产生重大影响,直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中"学习",而非存储副本。
伦敦帝国理工学院应用数学与计算机科学教授指出:"越来越多证据表明,模型记忆现象比此前认为的更为普遍。"
长期以来,AI企业均否认存在记忆行为。在2024年致美国版权局的一封信中,谷歌曾表示:"模型本身并不存储训练数据副本,无论文本、图像或其他格式。"
AI行业还主张,使用受版权书籍训练模型属于"合理使用",认为该技术将原作品转化为具有全新意义的内容。
但上月发布的一项研究显示,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让OpenAI、谷歌、Anthropic和xAI的大语言模型,输出了多部作品的数千字内容。
通过让模型补全书中句子,谷歌Gemini 2.5高精度重现了小说76.8%的内容,xAI的Grok 3则生成了70.3%。研究人员还通过特殊技术绕过了Anthropic的Claude 3.7 Sonnet的安全限制,几乎提取了整部小说的完整原文。
这一结论建立在去年一项研究基础之上:该研究发现,Meta的Llama等开源模型,会记住训练数据中特定书籍的大量内容。
此前AI专家并不确定,安全防护更严格、能阻止不当内容生成的闭源模型,是否也会出现大规模记忆现象。
参与该研究的耶鲁大学研究员表示:"尽管设有防护机制,模型仍能记住整段文本,这令人意外。"
研究人员尚未弄清大语言模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。
这种记忆特性还可能对医疗、教育等其他领域产生严重影响,训练数据泄露可能引发隐私与保密问题。
法律专家表示,这可能使AI企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。
英国品诚梅森律师事务所知识产权合伙人称,这些研究发现"可能对那些主张AI模型不存储、不复制任何版权作品的观点构成挑战"。
AI模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic使用部分受版权内容训练大语言模型可被视为合理使用,因其具有"转化性"。但法院同时认定,存储盗版作品"本质上、无可挽回地构成侵权",最终该AI企业以巨额达成和解。
德国去年11月的一项判决认定,OpenAI因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会提起,被视为欧盟标志性判例。
美国律师事务所合伙人认为,无需特殊技术即可完整复制一整本书"显然构成版权侵权",但问题在于"此类情况是否普遍到足以让AI模型承担连带侵权责任"。
Anthropic表示,斯坦福与耶鲁研究中使用的特殊技术对普通用户并不实用,提取文本所需成本高于直接购买作品。该公司还称,其模型不存储特定数据集副本,只是学习训练数据中词汇与字符的模式和关联关系。
xAI、OpenAI和谷歌均未回应置评请求。
帝国理工学院的教授指出,AI实验室设置防护机制防止训练数据被提取,这一事实本身就说明他们知晓问题存在。
芝加哥大学计算机科学教授质疑,AI实验室从一开始是否真的需要使用受版权内容来训练前沿模型。"无论技术上能否实现,问题在于我们应不应该这么做。"教授表示,"法律层面最终应坚守立场,成为整个过程的裁决者。"
