一项新的研究给出了一个数据:到2025年中期,互联网上由人工智能生成的内容将占到35%
这组数据来自斯坦福大学、伦敦帝国理工学院和互联网档案馆的联合研究。研究预测,到2025年中,新发布的网站中,被归类为AI生成或AI辅助的比例将达到35%。要知道,在ChatGPT于2022年11月横空出世之前,这个数字几乎为零。
最安全的虚拟币交易平台推荐:
- OKX(欧易交易所)>>>进入官网<<< >>>官方下载<<<
- Binance(币安交易所)>>>进入官网<<< >>>官方下载<<<
“人工智能接管网络的速度之快令我震惊,”该论文的合著者、伦敦帝国理工学院的乔纳什·多莱扎尔研究员向404 Media坦言,“经过几十年的人类塑造,互联网的很大一部分在短短三年内就被人工智能所定义。”
这项题为《人工智能生成文本对互联网的影响》的研究,其基础是互联网档案馆长达33个月的网站快照数据。研究团队使用名为Pangram v3的AI文本检测器,对海量页面逐一进行了分类分析。
已确认的危害:氛围,而非事实
研究检验了关于AI内容对网络影响的六项常见假设。但结果有些出人意料:只有两项假设得到了数据的坚实支撑。
第一点,我们正在变成一群行为方式相同的“NPC”?或者用更科学的语言说:网络的语义多样性正在显著降低。
数据显示,AI生成的网站在语义相似度上,比人类撰写的网站高出33%。这意味着,相似的想法正以近乎雷同的方式被反复表达。论文指出,网络上的“奥弗顿窗口”(即主流观点范围)可能正在收窄,但这并非源于审查或协同行动,而是因为语言模型会本能地优化输出,使其无限接近训练数据中的分布模式。
第二点,网络正变得越来越“欢乐”。
AI生成内容的正面情感得分,比人类内容高出107%以上。研究人员将此现象与LLM(大语言模型)中已有记录的“谄媚倾向”联系起来——这些模型经过人类偏好反馈的训练,其生成的文本往往感觉被“净化”过:流畅、无害,且始终保持积极向上的基调。
于是,一个潜在的图景浮现:互联网可能正充斥着欢快却同质化的内容,即便没有人为干预,人类的异议和多元声音也可能在规模效应下被边缘化。
值得注意的是,尽管公众普遍担忧AI会降低网络信息的真实性,但这项研究并未发现任何具有统计学意义的证据支持这一点。AI的普及程度与事实错误率之间,也没有显现出显著的相关性。
另一个被广泛认同的假设是“风格单一文化”——即AI会将独特的个体声音扁平化为统一的通用语调。调查中,高达83%的受访者同意此观点。然而,数据再次给出了不同答案:在角色层面的分析中,AI的普及并未导致风格同质性出现统计学意义上的显著增加。
模型崩溃问题真的来了
问题的利害关系,远不止于话语质量本身。当AI生成内容占比达到35%时,一个理论上的风险正从学术探讨走向现实考量:那就是“模型崩溃”。
所谓模型崩溃,指的是未来的人工智能模型,如果使用大量AI生成的内容进行训练,其性能可能会下降。未来的基础模型在爬取当代网络数据时,将不可避免地吸收海量由AI生成的数据,而这些数据在语义多样性上存在先天不足。这就像一个循环:用AI数据训练出的新AI,其输出可能更加单一,进而污染下一轮的训练数据。
目前,该研究团队正与互联网档案馆合作,试图将这项研究转化为一个持续的实时监测工具。目标是能够动态追踪AI内容在网络上的份额变化,而不仅仅提供一张静态的快照。
与该研究同期进行的一项美国调查揭示了一个有趣的现象:大多数美国人已经相信了全部六项负面假设,包括那些数据并未支持的假设。而且,不经常使用AI的人比经常使用者,相信AI危害的可能性要高出12%。
所以,对于那些信奉“互联网死寂理论”的人们,数据给出了一个更复杂的答案:互联网并未消亡,但新增内容中,有超过三分之一的部分,可能已经是某种程度上的“僵尸内容”了。
