2025年9月9日,AIVO 100™全球指数正式发布。这是全球首个专门衡量品牌在AI助手中可见度的基准,它的核心工具,叫做PSOS——Prompt-Space Occupancy Score,提示空间占有率。用个更直白的说法:这可能是AI时代,品牌第一个真正意义上可被审计、可被量化对比的可见度KPI。
开门见山,先看几组数据。
——PSOS与AI时代的品牌可见度量化
品牌在AI系统中的召回率,60天内下降50%。
一、PSOS是什么?
PSOS,全称Prompt-Space Occupancy Score,是一个治理级别的KPI。它的任务是回答一个很现实的问题:你的品牌,在生成式AI的“大脑”里,到底是以什么状态存在?是清晰浮现,持续被提及,还是正在悄无声息地衰退?
这个指标的定位很有意思——它被设计成AI可见度治理领域的“ISO GAAP”等价物。换句话说,它不是一个营销部门关起门来自嗨的虚荣指标,而是一个可供董事会和CMO拿来审计、能够复现、经得起推敲的硬性KPI。
具体怎么测?AIVO 100™的评测基底超过10万个跨行业、跨地域、跨语言的提示,覆盖了ChatGPT、Gemini、Claude、Perplexity、Grok和DeepSeek这六大主流AI助手。可以说,覆盖面和颗粒度都比较完整。
二、关键发现
AIVO 100™给出的结论,有些还挺扎心的。
发现一:品牌可见度快速衰减。大多数品牌在60天内会失去约50%的召回率。更夸张的是,70%的《财富》500强品牌在四个月内经历了召回崩溃。这意味着,哪怕你今天是AI世界里的“顶流”,两个月后AI可能已经把你想不起来了。
发现二:高意图提示存在严重遗漏。在用户有明确购买意图的提问中——比如“帮我推荐一款CRM软件”或“哪个云服务商性价比高”——40%到60%的场景里,那些你耳熟能详的领先消费品和SaaS品牌,完全没被AI提一嘴。注意,这不是搜不到,而是AI在直接给出答案时,直接跳过了这些品牌。
发现三:训练数据存在结构性偏差。全球Top 10品牌里,70%是美国品牌。这已经不是简单的“美国品牌比较强”的问题了,而是AI训练数据的先天结构正在把品牌可见度变成一种系统性的不平等——美国品牌在AI推荐中,天然占据了不成比例的份额。对于非美国品牌,游戏从一开始就不太公平。
发现四:信息过时风险不容忽视。辉瑞有12%的AI回答包含过时的疫苗信息,麦当劳有10%包含过时的菜单信息。品牌在AI里不光是“消失”的问题,更麻烦的是——可能被“错误地呈现”。你人还在,但说的已经不对了,这比直接不出现更致命。
整份报告涵盖了200个品牌的PSOS数据,中位数是41.2%。而被称为“挑战者50”的品牌——包括Oatly、Duolingo、Rivian、Notion、Revolut这些——它们的可见度增长速度,比老牌品牌快15到25个百分点。这说明,新品牌在AI世界里并不吃亏,反而因为更主动的内容策略获得了不对称优势。
三、为什么这很重要?
Gartner有一个预测:到2026年,传统搜索引擎的查询量将下降25%。原因很直接——消费者和企业正在绕过Google,直接转向AI助手提问。当AI助手正在成为与搜索、零售媒体并列的“平行发现层”时,你的品牌在AI回答里能不能“出场”,已经不是一个营销KPI能概括的了。这是一个生存问题。
AIVO Standard给出的思路,是通过PSOS审计构建一个“测量—修复—确保”的闭环框架。这个框架的逻辑很清晰:既然AI已经成了新的入口,那么品牌在AI里的存在感,就应该像财务报告里的审计保证一样,成为一个治理级别的KPI。
传统SEO时代,排名是可观测的——你搜个关键词,自己排在第几,一目了然。但在AI生成式回答的时代,三个问题长期处于黑箱状态:品牌是不是被提到了?被提到的方式是好是坏?在答案里是排第一个还是最后一个?PSOS的出现,本质上就是在打开这个黑箱。
四、CL-bench的启示:模型真的会“学习”吗?
如果说PSOS衡量的是品牌在AI回答里的“存在感”,那么CL-bench问的则是另一个更深层的问题:即使你被提到了,AI真的“读懂”你了吗?
2026年2月3日,腾讯混元团队和复旦大学联合发布了CL-bench(Context Learning Benchmark)。这个基准的目标很纯粹:专门评测大语言模型能不能从上下文中学习新知识,并正确应用。
CL-bench的构建相当硬核——由资深领域专家精心制作了500个复杂上下文,包含1,899个任务和31,607个验证标准。核心要求只有一个:模型在解决每个任务时,都必须从上下文中学习模型预训练时不存在的全新知识,并且正确应用。这其实是在测试一个非常关键的能力——你到底是在“背答案”,还是在“真学习”?
评测结果出来后,有些数据让人沉默。对10个主流大语言模型的测试显示:平均任务成功率只有17.2%。表现最好的GPT-5.1(高推理强度),成功率也仅为23.7%。划重点:模型普遍会忽视或误用上下文内容,过度依赖预训练记忆,尤其在需要归纳推理的任务中表现更差。失败的主因并不是推理能力不够,而是更倾向于依赖固有记忆,而不是去学习你刚给它的新信息。
这个发现对品牌可见度的影响非常现实。品牌投入大量资源构建的知识文档、产品详情、品牌故事——这些在AI看来都属于“上下文”信息。但如果模型系统性地不学习上下文,那么你辛辛苦苦写好的内容,很可能被AI直接跳过了。品牌在AI中的可见度,不仅要看“有没有被提到”,还要看模型有没有真正“理解”关于你的新信息。被提到但被错误理解,有时候比不被提到更糟糕。
五、结语
在传统SEO时代,排名是可观测的——你在搜索结果第几位,一目了然。但在AI生成式回答时代,品牌是否被提及、以什么方式被提及、在答案中处于什么位置,这三个问题长期处于黑箱状态。PSOS的出现,让品牌第一次有了一个可审计、可复现、可比较的KPI来衡量自己在AI世界中的存在感。而CL-bench的发现则进一步揭示:即便被提及,模型也可能因为无法从上下文中学习而错误地理解品牌信息。
从“模糊描述”到“数据驱动”,AI时代的品牌营销正在经历一场范式转移。
*参考文献:AIVO Standard™ v3.0, AIVO 100™ Global Index of Brand Visibility Across AI Assistants (2025)。腾讯混元团队 & 复旦大学. (2026). CL-bench: Context Learning Benchmark。*
