12月22日,全球最大的音乐流媒体平台Spotify遭遇了一次严重数据泄露。事件由数字档案馆“安娜的档案”主导,该组织近乎完整地抓取了Spotify平台的内容,下载了约300TB音乐文件,并通过BT种子进行非法分发。
Spotify官方已承认此次事件,并通过外媒Android Authority发表声明:“我们在调查未经授权访问时发现,有第三方抓取了公开元数据,并通过非法手段绕过DRM保护,从而获取了平台上的部分音频文件。目前事件仍在调查中。”

泄露的文件数量约为8600万首歌曲,占Spotify全部曲库的37%,却覆盖了平台99.9%的播放量。大多数音频仍保持Spotify原始的OGG Vorbis 160kbps格式;仅有热度评分为0的歌曲被重新编码为75kbps,以降低存储占用。
据外媒Tom‘s Hardware报道,泄露数据还包括25.6亿条元数据记录,覆盖了Spotify上99.6%的收听量,并被整理为可查询的SQL数据库。”安娜的档案“还对Spotify API进行了近乎无损的JSON重建,包含18.6亿个唯一ISRC编号,涵盖全部录音标识、专辑信息、艺人资料和封面图像。
“安娜的档案”发布的博客对这次数据抓取进行了详细说明,并附带大量统计图表。例如,Spotify平台约70%的歌曲几乎无人收听,而最受欢迎的0.1%曲目占据了绝大多数关注度。平台上的音乐以单曲为主,120 BPM是最常见的节奏。
“安娜的档案”称,此次行动的目的在于“音乐保存”。该组织认为,Spotify的曲库分发机制过度偏向热门艺人和音质表现,因此需要建立一个“旨在涵盖人类历史上所有音乐作品”的权威BT种子列表。
种子文件由“安娜的档案”自行托管,音频数据采用其自定义的Anna‘s Archive Containers封装格式。元数据已率先公开,其余音频内容将按照受欢迎程度分级,以大规模分批次方式陆续发布。这次抓取事件的长期影响,仍有待时间验证。
