Meta新爬虫部署，为AI模型大规模收集数据_AI热点日报

Meta新爬虫部署，为AI模型大规模收集数据

类型：热点整理2026-07-05

Meta发布新网络爬虫MetaExternalAgent，用于抓取网页文本和对话数据以训练AI模型。目前仅2%网站屏蔽该爬虫，远低于GPTBot的25%。此举旨在为Llama系列模型补充增量训练数据，加速模型迭代。

Meta近期低调推出了一项全新举措——发布了一款全新的网络爬虫，专门用于从互联网上采集数据，为其AI模型提供训练素材。这一动作并未大张旗鼓地宣传，但多家追踪网络爬虫的第三方公司已经察觉并开始关注。

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

这款代号为Meta External Agent的新爬虫于上月正式上线。其运作方式与OpenAI的GPTBot如出一辙：广泛抓取网页内容，例如新闻文章文本、在线讨论区对话——简而言之，就是AI训练数据的“搬运工”。

根据历史记录，Meta确实在7月底悄然更新了面向开发者的网站页面，其中一页标签揭示了新爬虫的存在。但截至目前，官方始终未公开发布相关消息。这种低调处理的方式，反而更加引人注目。

Meta旗下的Llama系列模型，是目前规模最大的大型语言模型之一。尽管最新版本Llama 3的训练数据来源尚未公开，但初代版本确实使用了Common Crawl这类公开数据集。值得注意的是，今年早些时候，扎克伯格在财报电话会议上曾自信地表示：自家社交平台积累的数据集，已经“超越了Common Crawl”。

既然如此，为什么还要推出新爬虫？答案显而易见：Meta的数据“库存”可能已经不足。 Llama需要持续迭代，Meta AI的功能也在不断扩展，高质量的新增训练数据始终是刚需。即便旧的数据再丰富，也难以支撑模型日益庞大的规模。

根据Dark Visitors的数据，全球约25%的热门网站已屏蔽了GPTBot，但屏蔽Meta新爬虫的网站仅有2%。换句话说，大多数网站尚未反应过来，Meta因此获得了充裕的“数据采集”窗口期。不过，随着隐私与版权问题持续发酵，这种“先下手为强”的策略究竟能持续多久，仍是一个未知数。

来源：https://www.1ai.net/18437.html

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

延伸阅读

补充最近整理过的热点入口。

Meta新爬虫部署，为AI模型大规模收集数据

相关热点

延伸阅读