全球领先的互联网基础设施服务商 Cloudflare 近日推出了一项重大举措——本月1日,该公司宣布将加强对网络爬虫的精细化管控,依据爬虫的实际行为为其打上不同标签,例如搜索抓取、数据采集、模型训练等类别。尤为值得关注的是,自2026年9月15日起,Cloudflare 将默认禁止AI训练类爬虫访问任何包含广告的网页。这一时间节点的公布,让众多业内人士开始重新审视:内容生态的博弈已迈入全新阶段。

Cloudflare 的态度非常明确:绝大多数网站所有者内心充满矛盾——他们既希望自身内容能被AI系统发现并引用,又不愿因此白白牺牲广告收益。理想情况下,负责任的AI企业应当清晰标识其爬虫的具体用途。然而现实是,市面上存在着大量“混合型爬虫”,它们一边抓取数据用于搜索索引,一边顺手将数据用于模型训练,用途模糊且边界不清。
这正是新规的高明之处:Cloudflare 的爬虫管理器会为混合型爬虫匹配其所有行为模式。换句话说,只要网站所有者明确禁止了该爬虫的某一种行为,那么该爬虫就无法从该网站抓取任何数据。这一招直接封死了所有后门,干净利落。
除此之外,Cloudflare 还在为网站所有者准备全新的归因业务洞察仪表板,旨在帮助他们适应从传统SEO到GEO(生成引擎优化),再到AEO(答案引擎优化)的搜索优化演进趋势。同时,即将上线的页面变动监控功能,可有效避免爬虫对未更新内容进行无意义的重复抓取。更值得关注的是,Cloudflare 正在推进“按使用计价”的抓取付费模式——这意味着,未来内容被爬取可能不再是免费的“午餐”,而是可以量化为网站实际收入的一部分。
