Cloudflare新规：AI公司需为内容付费，默认拦截混合爬虫_AI热点日报

Cloudflare新规：AI公司需为内容付费，默认拦截混合爬虫

类型：热点整理2026-07-03

Cloudflare宣布2026年9月起默认拦截混合用途爬虫抓取广告页面，要求AI公司将搜索爬虫与AI训练爬虫分离。同时推出按使用付费模式，内容被AI利用时才收费。Google则提供GoogleExtended工具允许网站选择退出AI训练，但核心爬虫仍用于AI功能。

Cloudflare近期向人工智能行业发出了一项“最后通牒”，要求所有AI企业必须将用于传统搜索（例如Google搜索）的爬虫，与用于AI智能体及模型训练的爬虫严格分开。本周三，Cloudflare正式宣布：从2026年9月15日起，在默认设置下，所有“混合用途”的爬虫将被禁止抓取带有广告的页面——除非网站所有者主动调整相关配置。

Cloudflare新规要求AI公司为内容付费，混合爬虫将被默认拦截

换句话说，那些既执行搜索任务、又为智能体提供服务、还要拿数据训练模型的爬虫，在默认状态下将无法访问这些网站。新规覆盖新注册客户、现有客户新建的站点，以及所有现有的免费用户。这一变动可能对AI模型提供商从互联网获取训练数据的方式，以及他们驱动智能体服务的路径产生深远影响。

Cloudflare揭示了一个现实中的矛盾：大多数网站所有者自然希望自己的内容能被搜索引擎收录，也乐于被AI服务引用，但前提是——自己的知识产权不能被无偿使用。

值得注意的是，Cloudflare特别点名了“全球最大搜索引擎”（明眼人都知道指的是Google），称其获取的信息量几乎是其他AI公司的两倍。原因就在于，这家搜索巨头让网站很难做到“既保持可被搜索发现，又不让内容被用于AI目的”。

Google方面也给出了回应。他们表示自己提供了一款名为Google Extended的爬虫工具，允许网站所有者选择退出——将内容排除在Gemini Apps、Vertex API等AI产品的训练之外，而且这一选择不会影响网站在Google搜索中的正常收录。不过，Google的核心爬虫Googlebot仍会继续抓取页面，用于搜索功能以及AI概述（AI Overviews）和AI搜索模式（AI Mode）这类AI相关功能。

“如今互联网上的大部分流量已经不再由人类产生，我们必须迈出更大的步子，加速行动，才能推动形成一个可持续的生态系统。”Cloudflare联合创始人兼CEO马修·普林斯在公告中这样表示。他提到的背景是：机器人流量刚刚首次超过了人类流量——这个节点原本预计要到明年才会出现。

普林斯还补充道：“Cloudflare的新工具和伙伴关系，为网站所有者带来了更多的可见度和商业机会，同时也有利于那些爬虫意图明确、行为透明的AI公司。我们希望这次默认设置的调整，能倒逼混合用途爬虫将搜索功能与智能体使用、模型训练彻底分开。”

在帮助用户构建AI系统的同时，Cloudflare近年来陆续推出了一系列工具，让发布者在AI时代能更好地掌控自己的内容。例如，他们之前推出过“按次抓取付费”（Pay Per Crawl）功能，允许网站向AI爬虫收费。现在这个功能正在升级为“按使用付费”（Pay Per Use）模式——发布者可以在内容真正被AI利用并产生价值时才收费，而不是仅仅因为内容被爬虫抓取就收费。

这一变化还有另一个好处：节省AI模型提供商的带宽和算力消耗。Cloudflare的数据显示，AI爬虫超过50%的抓取流量，其实是在重复抓取那些根本没有更新过的页面。

目前，Cloudflare已经与Ceramic.ai和You.com两家公司率先推进这个机制。发布者选择加入后，一旦他们的内容出现在Ceramic的AI搜索结果中，或者被You.com访问优质内容时，就能获得相应报酬。Cloudflare表示，其他AI公司也可以根据自己的业务特点，灵活定制合作模式。

Q&A

Q1：Cloudflare的新规对AI公司爬虫有什么具体要求？

A：简单来说，Cloudflare要求AI公司把用于传统搜索的爬虫和用于AI智能体及模型训练的爬虫分开运营。从2026年9月15日起，默认设置会封锁所有混合用途爬虫对含广告页面的访问，除非网站所有者主动更改设置。这项变更适用于新客户、现有客户新建的站点以及所有免费用户。

Q2：“按使用付费”（Pay Per Use）模式是如何运作的？

A：这个模式是在原有“按次抓取付费”基础上升级的。发布者在内容真正被AI利用并产生价值时才能获得报酬，而不是单纯因为内容被爬虫抓取就收费。目前Cloudflare已与Ceramic.ai和You.com合作，发布者选择加入后，内容出现在相关AI搜索结果中或被访问时即可获得报酬。

Q3：Google对Cloudflare关于混合爬虫的指责是如何回应的？

A：Google回应称，他们提供了名为Google Extended的专用爬虫工具，允许网站所有者选择退出将内容用于Gemini Apps和Vertex API等AI产品的训练，同时不影响网站在Google搜索中的正常收录。不过，Google核心爬虫Googlebot仍会抓取页面，用于搜索功能及AI概述（AI Overviews）、AI搜索模式（AI Mode）等AI相关功能。

来源：https://ai.zhiding.cn/2026/0702/3192232.shtml

ai

延伸阅读

补充最近整理过的热点入口。

Cloudflare新规：AI公司需为内容付费，默认拦截混合爬虫

相关热点

延伸阅读