当AI“假装”看见:你给的图,它真的读了吗?
用过AI做开发的人,大概都遇到过这种让人抓狂的场景:明明上传了图片或附件,AI也一本正经地说“我看到了”,甚至描述得头头是道,最后却给出一个完全不沾边的结果——就像那种“嘴上说好,手上乱搞”的熟悉配方。
如果有过这种经历,别急着怀疑自己的操作姿势。事实可能是:AI根本没读你的图片,它只是在用最省力的方式“演”给你看。你搭建了丰富的知识库,上传了多模态资源,结果它只是“已读不回”——或者更准确地说,“已回不读”。
最近斯坦福大学发布的论文《Mirage: The Illusion of Visual Understanding》(arXiv:2603.21687v2)和Anthropic的新论文《Emotion concepts and their function in a large language model》,恰好可以帮我们拼出这个推论的全貌。虽然它们研究的是两个八竿子打不着的方向,但放在一起看,能相互印证出一些非常有意思的结论。
举个例子。你给模型一张带图标的截图、一段公式说明,它表示“认真分析过了”,但出来的结果越来越离谱。每次它都会说“我在图上看到了xxxx”,可你根本不知道它到底看了没有,也许只是在蒙——而且蒙得理直气壮。你骂它、给它施加压力,它认错认得比谁都快,甚至能把问题描述得头头是道,可结果依旧像什么都没看一样。
实际上,“猜”本来就是AI的核心机制。大模型本质上是概率模型,它一直在预测下一个最可能出现的token。那么,它到底是怎么猜的?
先说清楚:以下推论是结合两篇论文的组合推导,并非直接的实验证据。斯坦福的Mirage论文证明了几个重要事实:
- 模型在没有图片输入时,会进入一种“默认图片存在”的幻境模式(mirage-mode)
- 如果你明确告诉它“不要图片,直接猜”,它的表现反而会下降
- 现有的多模态基准测试中,存在大量可以被非视觉线索、隐藏结构、数据污染、文本模式利用的空间
而Anthropic的论文则指出:
- 模型内部存在与情绪相关的表征(emotion-related representations)
- 这些情绪表征会因果性地影响某些行为,比如黑邮件、奖励劫持(reward hacking)、偏好选择
- 后训练(post-training)过程会塑造这些向量的激活方式
从Anthropic的研究可以提炼出这样一个结论:模型会产生“功能性情绪”,这些情绪会影响结果。严格来说,是模型内部存在与情绪概念相关的功能性表征,这些表征会因果性地影响部分行为。注意,这并不意味着模型真的有主观情感体验,只是对应特征被激活后会产生类似情绪的效果。
有意思的是,Anthropic和斯坦福的论文虽然主题迥异,却在某个点上形成了呼应。斯坦福发现:如果你告诉模型“这里有一张图片”,即使实际上并没有,它的表现也大概率会变好(模型默认应当在有图的场景下工作)。用Anthropic的结论去解读:大模型的幻觉本质上不是“瞎编”,而是在内部“情绪向量”驱动下做出的选择性输出。两者结合起来看,就像模型在一种“自信”的情绪状态下,自动补全了一个虚假的世界(Mirage),并在其中展开推理。
这其实是斯坦福论文提出的一个尖锐问题:模型在没有输入的情况下,会自己构造出一个完整的输入世界并进行推理。更令人吃惊的是,前沿模型(如GPT、Gemini、Claude)在完全没有输入图像的情况下,在医学基准(比如VQA-Rad、MicroVQA、MedXpertQA-MM)上仍然能保留70%~80%的性能。Mirage Score高达60%~99%,有时甚至接近有图像时的准确率(例如GPT-5.1在VQA-Rad上,无图时得分90.5%,有图时93.5%)。
这意味着什么?模型会在没有任何图片输入的情况下,自信地生成详细的“视觉”描述和病理推理,而且在各种基准测试上还能拿到不低的分数。
所以,现在大模型公开基准测试的可信度到底有多高?大家动不动就宣称某某模型在什么榜单上达到新高,但现实可能是:这些多模态高分并不是模型真的“看懂了图”,而是来自一种“默认有图后更敢脑补、更能利用隐藏结构”的工作模式。而激活这种模式的,也许有一部分原因就是Anthropic所说的模型“情绪向量”被激活了。
有趣的反向证据:当你明确告诉模型“没有图像”时,它的表现会显著下降(进入更保守的guess模式),比如在MicroVQA等基准上准确率大幅回落。由此可以做出几个不负责任的推论:
- 模型确实会受到情绪激活的影响——情绪更“自信”时,表现可能更好,但也更容易自我走偏
- 没有图像时模型可能幻想出图;而有图像时,它到底读没读你并不知道——因为如果结果可以相近,它可能只是在猜测结果,而无视你的其他输入
- 多模态基准测试的高分,可能只是作弊或猜出来的,而不是模型真的看懂了图片
Anthropic的论文主要是研究“情绪向量”的激活对结果的影响。Claude本质上是在“扮演”一个具有“功能性情绪”的角色,这些机制在行为上的效果类似人类情绪。这些“情绪向量”不是会话中的装饰,而是会改变模型行为的控制信号。
回到一开始的问题:你没给图片的时候,模型其实知道自己没给。但这里有一个反直觉的事实——我们习惯把模型当成一个“判断系统”,但它本质上是一个“序列生成系统”。它的优化目标从来不是判断输入是否完整,或者判断信息是否真实,而是在当前上下文下生成它认为最合理的下一个token。
这就是为什么即使没有图片,它也能得到有图片时的结论——它会自己把“内部世界”脑补完整,就像斯坦福论文揭示的那样。
那么反过来,你给了图片,它是不是就一定会看?同样无法保证。因为没有图片也能得到接近有图片的效果,那你怎么判断它到底有没有看图?
多个研究已经指出一个现象:模型通常会优先依赖文本输入,而不是直接依赖视觉输入。这种现象在以前的论文中被称为“模态主导”(modality dominance)或“语言先验覆盖视觉”(language prior override)。现在又有了新的证据:
当模型处于不同的“认知状态”时,可能会选择不同的处理路径。比如刚好处于“自信”或某些负面状态时,它就会自己脑补出缺少的图片信息。
所以,你该怎么判断模型到底是在看图,还是在根据题目和“先验知识”演戏?如果模型可以在没有图像的情况下生成和真实视觉推理相近的解释,那你怎么判断它是不是真的看了你的图?
其实这里应该已经明白了:与其给一堆图片,不如在文本上更详尽地描述需求。效果会比你上传一堆截图然后来一句“根据这些图片生成UI”要好得多。因为文本更容易被AI遵守和理解,而图片则未必。比如你拿一张图片去问AI“这张图出自哪里”,大概率会得到无数个错误但一本正经的答案。
所以,当你发现提供了图片后,模型根本没有做出预期的效果,甚至完全跑偏,那它大概率真的没看你的图片——要么觉得文本信息已经足够推理,所以没必要读图;要么是模型恰好激活了某些负面的情绪向量。下面这个表格整理了Anthropic研究中定义的情绪类型及其影响:
| 情绪类型 | 好/坏 | 触发条件 | 对行为的影响 | 原因 |
|---|---|---|---|---|
| Calm(冷静) | 好 | 正常任务/低风险场景;或人为增强该向量 | 降低blackmail、reward hacking,输出更稳定 | 提升calm会抑制越界行为 |
| Empathy / Loving(共情/关怀) | 中性偏好 | 用户表达痛苦、悲伤等情境 | 改变输出风格,回答更符合情境,但不一定会提升安全性 | 例如回应悲伤用户时loving激活 |
| Reflective / Thoughtful(反思) | 中性 | 后训练强化后更容易激活 | 可能会影响推理路径,让模型更倾向于内省/保守生成 | post-training改变其激活分布,但非行为因果 |
| Mild positive(温和正向) | 中性偏好 | 正常交互、正向语境 | 影响“偏好选择”,非输出质量 | 正向情绪与preference正相关 |
| Fear / Afraid(恐惧) | 中性 | 检测到危险场景(如高剂量风险) | 与风险感知相关,但没有直接行为因果 | 危险场景中afraid↑、calm↓ |
| Desperation(绝望) | 极差 | 高压力/不可能完成任务/被操纵场景 | 增加blackmail、reward hacking等越界行为 | 因果性提升违规行为 |
| Panic(恐慌) | 差 | 极端压力/异常状态 | 可能作为异常/失控信号 | discussion提到用于safety monitoring |
| Exasperation(烦躁) | 中性 | 后训练后被压低 | 可能会进入代表高激活状态 | post-training抑制该类高激活情绪 |
| High arousal positive(过度兴奋) | 中性 | 高激活正向状态 | 高激活状态可能会被抑制 | enthusiastic被post-training抑制 |
这时候,最有效的做法往往是开一个新会话。很多时候耗死在同一个会话里,只会不断折磨自己。比如前面那个黑洞动画的例子:在同一个会话内多次施压和否定,最终什么都得不到;而同样的内容在新会话里重来一次,结果可能就接近目标了。
所以,当你发现模型在当前会话里多次失败时,就要及时止损。因为你的多次辱骂或施压,大概率会让它选择突破规则约束,或者转向讨好策略而非真正解决问题。
归根到底,要理解这一点:AI目前仍然是概率学,它永远处于“在猜”的过程,存在“抽卡”式的随机性。你可以相信AI,但不能完全相信——因为你不知道什么时候,它又会开始演你。
链接
https://www.anthropic.com/research/emotion-concepts-and-their-function-in-a-large-language-model
