AI模型存储版权风险解析:畅销书逐字复现警示
2月24日,IT之家发布消息称,全球顶尖人工智能模型通过特定提示词,能够生成与畅销小说内容几乎逐字相同的文本,这对AI行业声称其系统不存储受版权保护作品的说法提出了新的质疑。

近期多项研究表明,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型,对训练数据的记忆能力远超此前认知。
AI与法律专家向媒体透露,这种"记忆"能力可能对全球AI企业应对数十起版权诉讼产生重大影响,直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中"学习",而非存储副本。
伦敦帝国理工学院应用数学与计算机科学教授指出:"越来越多证据表明,模型记忆现象比此前认为的更为普遍。"
长期以来,AI企业均否认存在记忆行为。在2024年致美国版权局的一封信中,谷歌曾表示:"模型本身并不存储训练数据副本,无论文本、图像或其他格式。"
AI行业还主张,使用受版权书籍训练模型属于"合理使用",认为该技术将原作品转化为具有全新意义的内容。
但上月发布的一项研究显示,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让OpenAI、谷歌、Anthropic和xAI的大语言模型,输出了多部作品的数千字内容。
通过让模型补全书中句子,谷歌Gemini 2.5高精度重现了小说76.8%的内容,xAI的Grok 3则生成了70.3%。研究人员还通过特殊技术绕过了Anthropic的Claude 3.7 Sonnet的安全限制,几乎提取了整部小说的完整原文。
这一结论建立在去年一项研究基础之上:该研究发现,Meta的Llama等开源模型,会记住训练数据中特定书籍的大量内容。
此前AI专家并不确定,安全防护更严格、能阻止不当内容生成的闭源模型,是否也会出现大规模记忆现象。
参与该研究的耶鲁大学研究员表示:"尽管设有防护机制,模型仍能记住整段文本,这令人意外。"
研究人员尚未弄清大语言模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。
这种记忆特性还可能对医疗、教育等其他领域产生严重影响,训练数据泄露可能引发隐私与保密问题。
法律专家表示,这可能使AI企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。
英国品诚梅森律师事务所知识产权合伙人称,这些研究发现"可能对那些主张AI模型不存储、不复制任何版权作品的观点构成挑战"。
AI模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic使用部分受版权内容训练大语言模型可被视为合理使用,因其具有"转化性"。但法院同时认定,存储盗版作品"本质上、无可挽回地构成侵权",最终该AI企业以巨额达成和解。
德国去年11月的一项判决认定,OpenAI因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会提起,被视为欧盟标志性判例。
美国律师事务所合伙人认为,无需特殊技术即可完整复制一整本书"显然构成版权侵权",但问题在于"此类情况是否普遍到足以让AI模型承担连带侵权责任"。
Anthropic表示,斯坦福与耶鲁研究中使用的特殊技术对普通用户并不实用,提取文本所需成本高于直接购买作品。该公司还称,其模型不存储特定数据集副本,只是学习训练数据中词汇与字符的模式和关联关系。
xAI、OpenAI和谷歌均未回应置评请求。
帝国理工学院的教授指出,AI实验室设置防护机制防止训练数据被提取,这一事实本身就说明他们知晓问题存在。
芝加哥大学计算机科学教授质疑,AI实验室从一开始是否真的需要使用受版权内容来训练前沿模型。"无论技术上能否实现,问题在于我们应不应该这么做。"教授表示,"法律层面最终应坚守立场,成为整个过程的裁决者。"
相关攻略
世界早就变了。 过去几年,从看到同事用AI快速产出一篇优秀的科技媒体文章,到发现AI甚至能模仿我的用词、节奏和行文逻辑,让我几乎挑不出修改意见——AI几乎是瞬间就完成了对人的跨越。 与此同时,今天的创作者每天也像导演一样尝试不同的影视风格,或者借助智能体(Agent)的能力去编写软件、扩展世界观,甚
美国最高法院近期作出了一项具有里程碑意义的裁决,对人工智能生成内容的版权归属问题给出了明确答案。当地时间3月2日,最高法院宣布,拒绝受理一起关于AI创作艺术品版权认定的关键上诉。这意味着,由计算机科学家斯蒂芬·泰勒(Stephen Thaler)为其AI系统“DABUS”争取作品版权的法律诉讼,在美
昨日,歌手李荣浩公开喊话单依纯称对方在李荣浩方婉拒翻唱授权的情况下,强行侵权演唱《李白》。李荣浩本人高强度回复侵权事件,随后单依纯“滑跪”道歉,发长文就侵犯李荣浩《李白》版权一事发表道歉声明。而在等
3月16日,拓竹科技声明称,拓竹科技旗下MakerWorld平台与泡泡玛特IP版权的相关问题,引起了社会各界的广泛关注与讨论,目前,拓竹方面已与泡泡玛特进行了磋商并达成和解,相关问题内容已经全面下架
在AI竞速的白热化阶段,版权合规正成为科技巨头不可忽视的“减速带”。今年2月,迪士尼向字节跳动发函,指控其在训练和开发Seedance 2 0模型时未经许可使用迪士尼作品,并要求停止侵权。如今这一版
热门专题
热门推荐
对于《梦幻西游》的玩家来说,在69级卡级打造一个高效的任务号,门派的选择直接关系到游戏体验的流畅度与性价比。综合评估,方寸山在69级这个阶段,展现出了极强的综合实力,无论是日常刷任务还是挑战高难度玩法,都能提供稳定且出色的表现。 日常任务中的高性价比选择 如果你的核心需求是快速、高效地完成日常任务,
近期,手游《冬末守护者》的关注度不断走高,许多玩家都在询问同一个核心问题:这款游戏究竟何时才能正式上线开放游玩? 通常而言,一款手游从研发完毕到全面公测,往往会经过封闭测试、删档内测、不删档测试等多个关键阶段,最终才迎来面向全体玩家的正式公测。这个周期长短不一,确实难以给出固定答案。不过,无需焦虑,
自1996年启航的《宝可梦》系列,早已成为全球无数训练家心中不朽的冒险传奇。而《宝可梦朱紫》的推出,无疑为这片广阔的帕底亚地区注入了全新的探索活力。在众多实力强劲的宝可梦中,巨钳螳螂以其标志性的钢铁巨钳和卓越的物理攻击能力,赢得了大量玩家的深度青睐。如果你也正在筹划,如何将这只虫与钢属性的强大战士纳
对于《梦幻西游》的平民玩家而言,在化生寺与普陀山之间做出选择,常常是一个需要仔细权衡的难题。这两个辅助门派定位相近,但在实际玩法、团队作用以及资源投入上却存在显著差异。本文将从任务效率、玩家对战(PK)表现以及装备养成成本三大核心维度,为您进行一次全面的对比解析,帮助您找到最适合自己的门派。 核心结
近日,《极限竞速:地平线6》玩家社区中发生了一件引发热议的趣事。一位ID为@Starshinefallng的玩家在社交媒体上分享了自己在游戏中遭遇的“离奇”内容审核事件,让不少玩家和高达粉丝感到困惑。 据该玩家发布的游戏截图显示,他当时正试图为自己的虚拟爱车定制一块个性化车牌,输入的是《机动战士高达





