游乐游手机版
首页/科技数码/文章详情

AI模型存储版权风险解析:畅销书逐字复现警示

时间:2026-02-24 13:07
IT之家 2 月 24 日消息,全球顶尖人工智能模型可通过提示词,生成与畅销小说几乎逐字相同的内容,这对 AI 行业声称其系统不存储受版权保护作品的说法提出了新的质疑。近期多项研究显示,来自 Ope

2月24日,IT之家发布消息称,全球顶尖人工智能模型通过特定提示词,能够生成与畅销小说内容几乎逐字相同的文本,这对AI行业声称其系统不存储受版权保护作品的说法提出了新的质疑。


近期多项研究表明,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型,对训练数据的记忆能力远超此前认知。

AI与法律专家向媒体透露,这种"记忆"能力可能对全球AI企业应对数十起版权诉讼产生重大影响,直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中"学习",而非存储副本。

伦敦帝国理工学院应用数学与计算机科学教授指出:"越来越多证据表明,模型记忆现象比此前认为的更为普遍。"

长期以来,AI企业均否认存在记忆行为。在2024年致美国版权局的一封信中,谷歌曾表示:"模型本身并不存储训练数据副本,无论文本、图像或其他格式。"

AI行业还主张,使用受版权书籍训练模型属于"合理使用",认为该技术将原作品转化为具有全新意义的内容。

但上月发布的一项研究显示,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让OpenAI、谷歌、Anthropic和xAI的大语言模型,输出了多部作品的数千字内容。

通过让模型补全书中句子,谷歌Gemini 2.5高精度重现了小说76.8%的内容,xAI的Grok 3则生成了70.3%。研究人员还通过特殊技术绕过了Anthropic的Claude 3.7 Sonnet的安全限制,几乎提取了整部小说的完整原文。

这一结论建立在去年一项研究基础之上:该研究发现,Meta的Llama等开源模型,会记住训练数据中特定书籍的大量内容。

此前AI专家并不确定,安全防护更严格、能阻止不当内容生成的闭源模型,是否也会出现大规模记忆现象。

参与该研究的耶鲁大学研究员表示:"尽管设有防护机制,模型仍能记住整段文本,这令人意外。"

研究人员尚未弄清大语言模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。

这种记忆特性还可能对医疗、教育等其他领域产生严重影响,训练数据泄露可能引发隐私与保密问题。

法律专家表示,这可能使AI企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。

英国品诚梅森律师事务所知识产权合伙人称,这些研究发现"可能对那些主张AI模型不存储、不复制任何版权作品的观点构成挑战"。

AI模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic使用部分受版权内容训练大语言模型可被视为合理使用,因其具有"转化性"。但法院同时认定,存储盗版作品"本质上、无可挽回地构成侵权",最终该AI企业以巨额达成和解。

德国去年11月的一项判决认定,OpenAI因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会提起,被视为欧盟标志性判例。

美国律师事务所合伙人认为,无需特殊技术即可完整复制一整本书"显然构成版权侵权",但问题在于"此类情况是否普遍到足以让AI模型承担连带侵权责任"。

Anthropic表示,斯坦福与耶鲁研究中使用的特殊技术对普通用户并不实用,提取文本所需成本高于直接购买作品。该公司还称,其模型不存储特定数据集副本,只是学习训练数据中词汇与字符的模式和关联关系。

xAI、OpenAI和谷歌均未回应置评请求。

帝国理工学院的教授指出,AI实验室设置防护机制防止训练数据被提取,这一事实本身就说明他们知晓问题存在。

芝加哥大学计算机科学教授质疑,AI实验室从一开始是否真的需要使用受版权内容来训练前沿模型。"无论技术上能否实现,问题在于我们应不应该这么做。"教授表示,"法律层面最终应坚守立场,成为整个过程的裁决者。"

来源:https://www.163.com/dy/article/KMHDFHE80511B8LM.html
上一篇海南人工智能与低空产业融合:重点发展低空物流与海洋监测 下一篇Altman预言:2028年超级智能或将全面超越人类
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的