根据1月17日的行业报道,知名科技媒体 Ars Technica 披露,美国俄亥俄州南区地方法院的迈克尔·沃森法官近日作出一项裁决,要求安娜档案馆立即永久停止从其网站WorldCat.org及OCLC服务器抓取、分发或存储任何数据。
需要说明的是,安娜档案馆是目前全球规模最大的非营利性开放数字图书馆搜索引擎,由一个化名为“安娜”的匿名团队于2024年底创建。该平台本身并不直接托管文件,而是通过对多个大型“影子图书馆”的元数据进行索引和整合来运作。截至2026年1月,其索引库已收录超过6165万本图书和9568万篇学术论文。
WorldCat 是由世界图书馆联合组织运营的全球最大在线联合目录。它汇聚了来自全球72000多个国家和地区图书馆的馆藏信息,涵盖图书、期刊、论文、视听资料等多种资源。这一平台不仅帮助用户查找和发现世界各地的图书馆资源,也有效支持了馆际间的合作与资源共享。
更为关键的是,法院在裁决中责令安娜档案馆必须删除其持有的所有WorldCat数据副本,包括已发布的种子文件。由于被告方未出庭应诉,法院直接作出了缺席判决,并认定OCLC提出的核心指控成立。
判决书指出,自2024年10月起,安娜档案馆开始利用自动化软件对WorldCat进行大规模数据抓取。为了绕过网站的防护机制,这些爬虫程序伪装成来自谷歌和必应的合法搜索引擎机器人,直接向服务器发送请求。
OCLC 提供的证据显示,这种高强度的持续攻击长达一年之久,不仅严重拖慢了系统的运行速度,更直接导致服务器多次出现损坏甚至崩溃的情况。
在法律层面,法院支持了OCLC关于“违约”和“动产侵权”的索赔请求。前者指安娜档案馆违反了WorldCat的使用条款,后者则指控其行为对服务器造成了实质性损害。
然而,并非所有指控都获得了法院的支持。法官以证据不足为由,驳回了关于“侵权性干扰合同关系”的指控;同时,以联邦版权法已优先覆盖为由,裁定“不当得利”的主张不能单独成立。
事实上,安娜档案馆曾在2024年10月的一篇博客文章中公开承认了抓取行为,并辩称WorldCat拥有“世界上最大的图书馆元数据集合”,抓取数据是为了制作一份“需要保存的图书清单”。
尽管法院已下达强制命令,但考虑到该平台一贯的运营模式及其背后的匿名团队,加上其从未出庭应诉的态度,业内普遍对判决的实际执行力持悲观态度,认为其主动配合删除数据的可能性微乎其微。
