12月21日消息,据科技媒体The Verge昨日报道,谷歌近日已对网络爬虫工具开发商SerpApi提起诉讼,指控其通过非法手段规避反爬虫机制,大量窃取受版权保护的内容。

谷歌在诉状中指出,SerpApi的行为已违反版权相关法律。该公司通过“欺骗性手段”自动访问并抓取谷歌的搜索结果,规模“令人震惊”,并将这些抓取到的数据出售给其客户。
具体而言,SerpApi通过非常规手段绕过了谷歌的SearchGuard反爬虫技术。
谷歌在诉讼中还透露,公司开发并部署SearchGuard的目的正是为了阻止侵权行为并保护合作伙伴,而SerpApi则动用了多种手法来规避这套系统。其具体应对方式是:每天向谷歌发送数以亿计的自动化查询请求进行伪装,这些返回的请求看起来与正常真人用户的访问行为别无二致。

谷歌认为,自家搜索引擎中包含大量受版权保护的内容,而SerpApi的行为无视了公司在获取版权方面进行的投入,使他人在无需承担同等成本的情况下坐享其成。
谷歌请求法院下令禁止SerpApi继续使用此类突破性技术,并要求其销毁相关反爬虫工具。
值得关注的是,社交媒体Reddit曾在今年10月起诉SerpApi以及另外两家爬虫公司,并在诉状中指出,被告方为AI初创公司Perplexity抓取Reddit帖子。谷歌在本次诉讼中也简要提及了此次事件,但并未直接点名具体公司。
注:爬虫是一种自动化程序,用于在互联网上批量访问网页、抓取并解析网页内容。典型的爬虫可以向目标网页发起访问请求,并扒取HTML、JSON、图片等数据,解析文字、链接、价格、图片等有用信息,最后保存到数据库。
