Cloudflare近期向人工智能行业发出了一项“最后通牒”,要求所有AI企业必须将用于传统搜索(例如Google搜索)的爬虫,与用于AI智能体及模型训练的爬虫严格分开。本周三,Cloudflare正式宣布:从2026年9月15日起,在默认设置下,所有“混合用途”的爬虫将被禁止抓取带有广告的页面——除非网站所有者主动调整相关配置。

换句话说,那些既执行搜索任务、又为智能体提供服务、还要拿数据训练模型的爬虫,在默认状态下将无法访问这些网站。新规覆盖新注册客户、现有客户新建的站点,以及所有现有的免费用户。这一变动可能对AI模型提供商从互联网获取训练数据的方式,以及他们驱动智能体服务的路径产生深远影响。
Cloudflare揭示了一个现实中的矛盾:大多数网站所有者自然希望自己的内容能被搜索引擎收录,也乐于被AI服务引用,但前提是——自己的知识产权不能被无偿使用。
值得注意的是,Cloudflare特别点名了“全球最大搜索引擎”(明眼人都知道指的是Google),称其获取的信息量几乎是其他AI公司的两倍。原因就在于,这家搜索巨头让网站很难做到“既保持可被搜索发现,又不让内容被用于AI目的”。
Google方面也给出了回应。他们表示自己提供了一款名为Google Extended的爬虫工具,允许网站所有者选择退出——将内容排除在Gemini Apps、Vertex API等AI产品的训练之外,而且这一选择不会影响网站在Google搜索中的正常收录。不过,Google的核心爬虫Googlebot仍会继续抓取页面,用于搜索功能以及AI概述(AI Overviews)和AI搜索模式(AI Mode)这类AI相关功能。
“如今互联网上的大部分流量已经不再由人类产生,我们必须迈出更大的步子,加速行动,才能推动形成一个可持续的生态系统。”Cloudflare联合创始人兼CEO马修·普林斯在公告中这样表示。他提到的背景是:机器人流量刚刚首次超过了人类流量——这个节点原本预计要到明年才会出现。
普林斯还补充道:“Cloudflare的新工具和伙伴关系,为网站所有者带来了更多的可见度和商业机会,同时也有利于那些爬虫意图明确、行为透明的AI公司。我们希望这次默认设置的调整,能倒逼混合用途爬虫将搜索功能与智能体使用、模型训练彻底分开。”
在帮助用户构建AI系统的同时,Cloudflare近年来陆续推出了一系列工具,让发布者在AI时代能更好地掌控自己的内容。例如,他们之前推出过“按次抓取付费”(Pay Per Crawl)功能,允许网站向AI爬虫收费。现在这个功能正在升级为“按使用付费”(Pay Per Use)模式——发布者可以在内容真正被AI利用并产生价值时才收费,而不是仅仅因为内容被爬虫抓取就收费。
这一变化还有另一个好处:节省AI模型提供商的带宽和算力消耗。Cloudflare的数据显示,AI爬虫超过50%的抓取流量,其实是在重复抓取那些根本没有更新过的页面。
目前,Cloudflare已经与Ceramic.ai和You.com两家公司率先推进这个机制。发布者选择加入后,一旦他们的内容出现在Ceramic的AI搜索结果中,或者被You.com访问优质内容时,就能获得相应报酬。Cloudflare表示,其他AI公司也可以根据自己的业务特点,灵活定制合作模式。
Q&A
Q1:Cloudflare的新规对AI公司爬虫有什么具体要求?
A:简单来说,Cloudflare要求AI公司把用于传统搜索的爬虫和用于AI智能体及模型训练的爬虫分开运营。从2026年9月15日起,默认设置会封锁所有混合用途爬虫对含广告页面的访问,除非网站所有者主动更改设置。这项变更适用于新客户、现有客户新建的站点以及所有免费用户。
Q2:“按使用付费”(Pay Per Use)模式是如何运作的?
A:这个模式是在原有“按次抓取付费”基础上升级的。发布者在内容真正被AI利用并产生价值时才能获得报酬,而不是单纯因为内容被爬虫抓取就收费。目前Cloudflare已与Ceramic.ai和You.com合作,发布者选择加入后,内容出现在相关AI搜索结果中或被访问时即可获得报酬。
Q3:Google对Cloudflare关于混合爬虫的指责是如何回应的?
A:Google回应称,他们提供了名为Google Extended的专用爬虫工具,允许网站所有者选择退出将内容用于Gemini Apps和Vertex API等AI产品的训练,同时不影响网站在Google搜索中的正常收录。不过,Google核心爬虫Googlebot仍会抓取页面,用于搜索功能及AI概述(AI Overviews)、AI搜索模式(AI Mode)等AI相关功能。
