刻在石头上的碑文会风化,写在纸上的文字会被遗忘
千百年来,如何长期保存信息始终是人类文明面临的核心挑战。互联网的诞生,曾被广泛视为这一难题的终极解决方案——一个近乎永恒的数字信息载体。“互联网是有记忆的”,这句我们曾经深信不疑的格言,如今正面临前所未有的考验。

然而,这一共识在2015年遭遇了来自其奠基者之一的沉重质疑。TCP/IP协议与互联网架构的联合设计者、时任谷歌副总裁的温顿·瑟夫,提出了一个在当时颇具震撼性的观点。他指出,随着数字技术的飞速迭代与存储格式的持续更替,我们今天上传到互联网的海量照片、文档与各类文件,在未来极有可能因无法读取而彻底丢失。人类或将因此步入一个“数字黑暗时代”,我们的后代甚至可能找不到关于21世纪的完整历史记录。
作为互联网的创始人之一,温顿·瑟夫的警告绝非危言耸听。过去十年间,他的预言正一步步从理论担忧演变为我们触手可及的现实困境。
消失的网页与失效的快照
让我们先看一组关键数据。2023年,美国皮尤研究中心发布的一份研究报告揭示了一个令人不安的趋势:截至2023年10月,在2013年至2023年这十年间曾经存在过的网页中,已有高达25%的状态变成了“404 Not Found”(页面未找到)。这意味着,平均每四个网页中就有一个已经永久性地消失了。紧接着在2024年,谷歌、百度、必应这三大主流搜索引擎又相继做出了一个重要决定:全面取消网页快照(或“网页快照”)功能。这等于又关闭了一扇能够回溯历史网页内容的关键窗口。
如果说以往互联网信息的散佚,大多源于网站因运营成本问题而主动关闭服务,那么近期发生的一系列事件,则让“数字黑暗时代”的阴影变得更加具体,甚至带有一丝讽刺意味。根据《连线》杂志近期的报道,《今日美国》、《纽约时报》、《卫报》等多家全球知名新闻媒体,开始集体屏蔽互联网档案馆旗下著名的“时光机”网页快照功能,不再允许其网络爬虫抓取和存档自己的页面内容。

这里有一个颇具戏剧性的案例。《连线》在报道中提到,《今日美国》不久前曾刊发一篇深度调查报道,揭露美国移民与海关执法局如何拖延披露其拘留政策的社会影响。而这篇报道所依据的关键历史数据,恰恰来自互联网档案馆的“时光机”。对此,互联网档案馆的负责人布鲁斯特·凯尔(注:原文为马克·格雷厄姆,实际创始人为布鲁斯特·凯尔,此处按原文保留)颇感无奈地表示:“他们能够完成这篇调查报道,正是得益于‘时光机’保存的历史网页。可现在,他们却反过来封禁了我们对这些页面的访问权限。”
各家媒体给出的官方解释听起来似乎各有苦衷。《今日美国》的发言人表示,此举是公司全面封禁所有自动化爬虫程序政策的一部分,并非专门针对互联网档案馆。《卫报》的高管则解释,主要是担忧人工智能公司滥用为存档目的而抓取的内容数据。据统计,目前已有超过20家主流新闻网站,屏蔽了互联网档案馆用于存档的专用爬虫程序。

无妄之灾:当存档者成为“替罪羊”
作为全球最知名的非营利性数字图书馆,互联网档案馆一直是公众回溯网络历史最有效的工具之一,但这也让它近年来频频陷入争议与诉讼。早在2023年,其旨在保护黑胶唱片录音的“Great 78项目”,就曾遭遇索尼等唱片巨头的版权诉讼,最终导致数千份已数字化的历史录音被迫下架。如今,新闻媒体们又以保护版权为由,拒绝其收录“网络记忆”。
这就引出了一个核心疑问:新闻媒体的数字化进程始于本世纪初,互联网档案馆收录其网页的历史也超过二十年,为何直到现在才突然大张旗鼓地以“保护版权”为由进行封禁?
实际上,从某种意义上说,互联网档案馆这次是遭遇了“无妄之灾”。这些媒体真正想要防范和对抗的,并非这个公益性的数字存档机构,而是来自各大AI厂商用于训练模型的数据爬虫。
版权博弈下的新逻辑
关于新闻媒体与OpenAI、Anthropic等人工智能巨头之间的版权诉讼与纠纷,如今已是屡见不鲜。但问题在于,在全球主要经济体都将AI发展视为核心战略的背景下,版权大棒打在财力雄厚、势头正盛的AI厂商身上,往往收效甚微。通过传统法律途径来保护自身内容资产不被无偿利用,对媒体机构而言正变得越来越困难且成本高昂。

既然无法完全阻止自家记者、编辑产出的高质量新闻内容成为训练AI大模型的“数据饲料”,新闻媒体的商业逻辑也随之发生了根本性转变。当自己的内容不可避免地会变成未来可能冲击自身的“工具”时,他们选择了一个更为现实的策略:将这潜在的“威胁”转化为收入,即把这部分内容“卖个好价钱”。也就是说,积极与OpenAI等AI厂商达成内容授权合作协议,从被无偿使用转变为有偿交易。
这个选择背后是残酷的商业现实与计算。将内容授权给AI公司,固然存在“饮鸩止渴”的长期风险,毕竟终有一天AI的写作与内容生成能力可能超越人类记者。但是,如果放任互联网档案馆将自己的历史新闻内容免费公之于众,那么媒体连眼前这笔可观的授权费用都难以获得。在巨大的生存与营收压力面前,互联网档案馆所代表的“全球网民公共历史存档利益”,便不得不为现实的商业利益让路了。
不得不说,AI大模型技术的崛起确实深刻地重塑了互联网世界的运行规则与利益格局。未来,这种通过“建立数据围墙”来保护自身数字资产的方式,或将成为网络内容生态的新常态。Web 3.0所畅想的去中心化理想和创作者经济,正在以一种出人意料、甚至有些面目全非的方式,悄然变为现实。数字记忆的长期保存与公共访问,从未像今天这样,处于商业利益、技术发展与公共福祉的复杂三角博弈之中。
