Cloudflare新规批量拦截混合AI爬虫_AI热点日报

Cloudflare新规批量拦截混合AI爬虫

类型：热点整理2026-07-03

这恐怕是近期AI行业最值得关注的一则消息。Cloudflare，全球最大的CDN和网络安全平台之一，刚刚发布了其服务默认规则的重大更新，并给全行业AI企业划定了一条清晰的红线：9月15日。简单来说，从9月15日起，所有AI厂商必须将“搜索爬虫”与“模型训练爬虫”、“AI袋里爬虫”彻底拆分。那些尚未

这恐怕是近期AI行业最值得关注的一则消息。Cloudflare，全球最大的CDN和网络安全平台之一，刚刚发布了其服务默认规则的重大更新，并给全行业AI企业划定了一条清晰的红线：9月15日。

简单来说，从9月15日起，所有AI厂商必须将“搜索爬虫”与“模型训练爬虫”、“AI袋里爬虫”彻底拆分。那些尚未完成区分的“混合型爬虫”，如果再去访问带有广告页面的网站，将直接被Cloudflare系统自动拦截，没有商量的余地。

但问题的关键在于，这次新规的覆盖面到底有多广？来看具体细节：影响范围几乎囊括了所有使用Cloudflare服务的场景——新入驻平台的客户、老用户新建的站点，以及全部免费用户的网站，统统统一生效，无一例外。换句话说，这不是一个可选配置，而是默认强制执行。

当然，网站管理员如果确实希望放行某些混合爬虫，也不是完全没有办法，唯一的出路是手动修改后台配置。但这项调整的直接后果是，它从根本上改变了AI企业获取网页训练素材的渠道。

很多站长的心态是：愿意开放内容给传统搜索引擎做收录，因为那能带来流量；但绝不希望自己的知识产权被AI企业以“训练”的名义无偿大规模采集。Cloudflare对此直言不讳：谷歌的爬虫兼具搜索与AI数据采集功能，想让网站做到“仅开放搜索、但隔绝AI训练抓取”，技术上几乎不可能。

面对这一争议，谷歌的回应倒是来得很快——他们推出了一个专属的机器人工具，供站点屏蔽AI训练取用，同时保证不影响搜索收录。听起来是个折中方案。但一个关键问题在于，其核心爬虫仍然会同步为搜索内置的AI功能采集数据，这两者之间想要彻底割裂，恐怕没那么简单。

Cloudflare的CEO在一次行业对话中直言：机器人流量早就远超人类访问了，整个行业生态都急需规范，约束这些形形色色的抓取行为。

值得注意的是，Cloudflare正在持续加码对内容方的保护工具。自2024年推出防AI爬虫工具以来，这一次的方案更是直接升级到了“按价值计费”模式。过去的做法是按抓取次数收费，现在则变成了按使用量付费（Pay Per Use），核心逻辑是：根据你的内容在AI产品中产生的实际收益来结算。

数据可以说明一切：超过半数的AI爬虫会反复抓取那些没有任何更新的页面。付费机制的引入，显然能有效减少这种无效流量，同时也能让创作者真正从中获益。

目前，这套付费方案已经在两家AI企业中试点。内容被AI产品调用后，站长可以直接获取收益。在版权监管日趋严格的大环境下，Cloudflare的新规既倒逼AI企业提升抓取透明度，也让网页创作者重新掌握了对内容的更多控制权。

这才是这场变革真正的关键所在。

来源：https://caip.org.cn/news/detail?id=47312

ai

补充最近整理过的热点入口。