Meta近期低调推出了一项全新举措——发布了一款全新的网络爬虫,专门用于从互联网上采集数据,为其AI模型提供训练素材。这一动作并未大张旗鼓地宣传,但多家追踪网络爬虫的第三方公司已经察觉并开始关注。

这款代号为Meta External Agent的新爬虫于上月正式上线。其运作方式与OpenAI的GPTBot如出一辙:广泛抓取网页内容,例如新闻文章文本、在线讨论区对话——简而言之,就是AI训练数据的“搬运工”。
根据历史记录,Meta确实在7月底悄然更新了面向开发者的网站页面,其中一页标签揭示了新爬虫的存在。但截至目前,官方始终未公开发布相关消息。这种低调处理的方式,反而更加引人注目。
Meta旗下的Llama系列模型,是目前规模最大的大型语言模型之一。尽管最新版本Llama 3的训练数据来源尚未公开,但初代版本确实使用了Common Crawl这类公开数据集。值得注意的是,今年早些时候,扎克伯格在财报电话会议上曾自信地表示:自家社交平台积累的数据集,已经“超越了Common Crawl”。
既然如此,为什么还要推出新爬虫?答案显而易见:Meta的数据“库存”可能已经不足。 Llama需要持续迭代,Meta AI的功能也在不断扩展,高质量的新增训练数据始终是刚需。即便旧的数据再丰富,也难以支撑模型日益庞大的规模。
根据Dark Visitors的数据,全球约25%的热门网站已屏蔽了GPTBot,但屏蔽Meta新爬虫的网站仅有2%。换句话说,大多数网站尚未反应过来,Meta因此获得了充裕的“数据采集”窗口期。不过,随着隐私与版权问题持续发酵,这种“先下手为强”的策略究竟能持续多久,仍是一个未知数。
