微软近期推出的MAI系列AI模型,在宣传中一贯强调其“完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据”,并反复宣称仅采用“企业级、安全且经过商业授权的数据”。然而,最新公开的技术论文却为这一说法撕开了一道裂痕。
具体而言——科技媒体The Decoder于昨日(6月5日)发布报道指出,MAI模型的部分训练数据实际上来源于未获授权的开放网络数据集。也就是说,微软在训练过程中并未完全依赖商业授权的“受控数据”,而是悄然混入了Common Crawl这类互联网公开抓取的内容。这与之前对外强调的“企业级、干净且商业授权数据”之间,存在明显落差。

细读论文中的具体描述,微软实际采用的是“公开可得数据”与“授权的人类生成数据”混合策略——既使用了授权语料库,也没有放弃互联网公开资源。至于这些网络数据的获取方式,微软声称通过自家爬虫抓取,并遵循了Robots Exclusion Protocol(即robots.txt协议),以及相关的元标签和HTML控制规则。
然而争议点正在于此。对于未被robots.txt明确禁止的内容,平台通常默认其可被抓取,内容保护的责任实际上被转嫁到了数据所有者身上。这种逻辑,通俗来说有点像“你没有锁门,就等于你同意我进入”——在法律与伦理的灰色地带,这种做法是否合规,恐怕并非一句“遵守了协议”就能定论。
