AI时代,如何做好“搞数据”这件头等大事
就在一个月前,微软为玩家带来了游戏AI助手Gaming Copilot,旨在协助玩家应对高难度挑战、提升操作技巧,同时深入解析游戏机制。然而,当大家正为这位"AI游戏搭子"欢呼时,却有细心的玩家赫然发现,这个所谓的助手竟然悄悄扮演着"特洛伊木马"的角色。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近一次更新后,海外游戏论坛ResetEra的用户发现,自动安装在电脑上的Gaming Copilot会悄无声息地上传游戏截图和录屏内容。在其隐私设置中,"文本模型训练"选项竟然默认处于开启状态。不过该用户也略带宽慰地提到,微软尚未完全失去底线,至少收录用户语音对话的选项目前还处于关闭状态。
消息传出,玩家社区顿时一片哗然。原本期待这位AI助手能随时响应召唤,解决游戏过程中遇到的难题,不再需要频繁切出游戏查阅攻略。没想到Gaming Copilot竟是个隐藏的"间谍",暗中觊觎着大家的隐私数据。

不得不说,微软在"坑玩家"这件事上几乎形成了习惯。此前的"Edge游戏助手"让电脑变卡顿也就罢了,如今的Gaming Copilot更是把玩家当成了"人肉电池"。这次数据收集行为绝非无心之失,而是有意为之,目的就是让玩家在不知不觉中交出个人数据。
至于微软为何要如此"口蜜腹剑",看完接下来的消息,各位想必就能心领神会。就在Gaming Copilot被曝光会自动上传数据的几乎同一时间,"美国贴吧"Reddit在纽约联邦法院起诉了AI搜索新锐Perplexity AI,指控其通过"工业规模的非法抓取"行为,未经许可复制Reddit用户的评论以牟取商业利益。

数据如同化石燃料般正在枯竭,AI革命正疯狂"吸干"互联网数据的海洋,这是AI专业人士从去年就开始不断发出的警告。而在2025年,AI行业更是出现了一个耐人寻味的现象:各大厂商的模型不约而同地放弃了通用化路线,开始追逐差异化优势。比如OpenAI的GPT-5擅长搜索、谷歌的Gemini 2精于数学推理,而Anthropic的Claude 4则在代码生成方面表现出色。
事实上,不同厂商的AI模型各有所长,根本原因在于它们在RLHF(基于人类反馈的强化学习)阶段采取了不同策略。按照OpenAI前首席科学家Ilya Sutskever的说法,决定RLHF阶段效果的关键,除了算法优劣外,数据质量更是决定性因素。这背后反映出一个现实:大模型的迭代已经从纯粹的参数规模膨胀,转向了高质量数据的萃取。
大模型的训练本就依赖海量数据,如果输入的数据存在错漏,训练出的模型自然会"学坏",输出结果同样会成为"垃圾"。没错,与人类一样,一旦接触低质信息过多,大模型也会出现认知退化的"脑腐"现象。

大模型持续暴露于垃圾数据的具体表现,包括推理能力下降、上下文理解能力变差、伦理规范意识减弱等系统性退化,且这一趋势具有不可逆性,难以通过后期微调修复。为避免自家模型不进反退,各大AI厂商自然也开始千方百计地寻求高质量数据。
但遗憾的是,论文、书籍等高质量数据已被消耗殆尽。由于AI厂商一口气吞噬了过去三十年间互联网世界积累的绝大部分知识,才造就了大模型在过去两年迎来"寒武纪生命大爆发"。如今凝聚了人类智慧结晶的高质量数据濒临枯竭,AI厂商被迫在沙海淘金,尽管Reddit的社交数据、Gaming Copilot收集的玩家行为数据质量堪忧,但好歹也是能产出保证的数据。

如今的矛盾之处在于,不仅AI厂商认识到一切数据都有价值,像Reddit这样的数据拥有者也不例外。从某种意义上说,AI初创企业的至暗时刻其实是2025年,因此在此之后,巨头和初创企业获取数据能力的差距,会让后者再难获得弯道超车的机会。
以微软和Perplexity AI为例,在合法合规的情况下,前者获取数据的能力显然碾压后者。毕竟微软旗下产品极为丰富,Office可以贡献办公数据、Gaming Copilot能带来游戏数据,因此微软能够收集到量大而全的数据。
反观Perplexity AI,尽管作为AI搜索独角兽在赛道中崭露头角,甚至其AI搜索引擎一度让谷歌搜索左支右绌。可Perplexity AI仅有AI搜索这一个产品,这就注定了他们只能从1500万活跃用户身上获取数据。如果仅靠自家用户获取数据,Perplexity AI注定将迎来"加拉帕戈斯化",即在孤立的市场环境下进行"最适化",从而丧失与区域外的互换性,进而导致产品与主流需求脱节。

如果Perplexity AI不向外界"掠夺"数据,他们的AI出现"脑腐"的概率自然要远高于微软的Copilot。简而言之,AI赛道百舸争流、千帆竞逐的场面,很有可能在未来一两年内结束。因为拥有数据的平台不会让AI厂商平白无故地拿走数据,这就会导致资金匮乏的初创企业失去数据源。
毕竟当微软等AI大厂能利用旗下各种产品悄悄获取用户数据,而Perplexity AI等初创企业只能去"抢"的情况下,长此以往,双方的差距只会越来越大。
【本文图片来自网络】
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





