AI不好用可能是它在演你或闹情绪

时间：2026-06-06 16:42

当AI“假装”看见：你给的图，它真的读了吗？用过AI做开发的人，大概都遇到过这种让人抓狂的场景：明明上传了图片或附件，AI也一本正经地说“我看到了”，甚至描述得头头是道，最后却给出一个完全不沾边的结果——就像那种“嘴上说好，手上乱搞”的熟悉配方。如果有过这种经历，别急着怀疑自己的操作姿势。事实可

当AI“假装”看见：你给的图，它真的读了吗？

用过AI做开发的人，大概都遇到过这种让人抓狂的场景：明明上传了图片或附件，AI也一本正经地说“我看到了”，甚至描述得头头是道，最后却给出一个完全不沾边的结果——就像那种“嘴上说好，手上乱搞”的熟悉配方。

如果有过这种经历，别急着怀疑自己的操作姿势。事实可能是：AI根本没读你的图片，它只是在用最省力的方式“演”给你看。你搭建了丰富的知识库，上传了多模态资源，结果它只是“已读不回”——或者更准确地说，“已回不读”。

最近斯坦福大学发布的论文《Mirage: The Illusion of Visual Understanding》（arXiv:2603.21687v2）和Anthropic的新论文《Emotion concepts and their function in a large language model》，恰好可以帮我们拼出这个推论的全貌。虽然它们研究的是两个八竿子打不着的方向，但放在一起看，能相互印证出一些非常有意思的结论。

举个例子。你给模型一张带图标的截图、一段公式说明，它表示“认真分析过了”，但出来的结果越来越离谱。每次它都会说“我在图上看到了xxxx”，可你根本不知道它到底看了没有，也许只是在蒙——而且蒙得理直气壮。你骂它、给它施加压力，它认错认得比谁都快，甚至能把问题描述得头头是道，可结果依旧像什么都没看一样。

实际上，“猜”本来就是AI的核心机制。大模型本质上是概率模型，它一直在预测下一个最可能出现的token。那么，它到底是怎么猜的？

先说清楚：以下推论是结合两篇论文的组合推导，并非直接的实验证据。斯坦福的Mirage论文证明了几个重要事实：

模型在没有图片输入时，会进入一种“默认图片存在”的幻境模式（mirage-mode）
如果你明确告诉它“不要图片，直接猜”，它的表现反而会下降
现有的多模态基准测试中，存在大量可以被非视觉线索、隐藏结构、数据污染、文本模式利用的空间

而Anthropic的论文则指出：

模型内部存在与情绪相关的表征（emotion-related representations）
这些情绪表征会因果性地影响某些行为，比如黑邮件、奖励劫持（reward hacking）、偏好选择
后训练（post-training）过程会塑造这些向量的激活方式

从Anthropic的研究可以提炼出这样一个结论：模型会产生“功能性情绪”，这些情绪会影响结果。严格来说，是模型内部存在与情绪概念相关的功能性表征，这些表征会因果性地影响部分行为。注意，这并不意味着模型真的有主观情感体验，只是对应特征被激活后会产生类似情绪的效果。

有意思的是，Anthropic和斯坦福的论文虽然主题迥异，却在某个点上形成了呼应。斯坦福发现：如果你告诉模型“这里有一张图片”，即使实际上并没有，它的表现也大概率会变好（模型默认应当在有图的场景下工作）。用Anthropic的结论去解读：大模型的幻觉本质上不是“瞎编”，而是在内部“情绪向量”驱动下做出的选择性输出。两者结合起来看，就像模型在一种“自信”的情绪状态下，自动补全了一个虚假的世界（Mirage），并在其中展开推理。

这其实是斯坦福论文提出的一个尖锐问题：模型在没有输入的情况下，会自己构造出一个完整的输入世界并进行推理。更令人吃惊的是，前沿模型（如GPT、Gemini、Claude）在完全没有输入图像的情况下，在医学基准（比如VQA-Rad、MicroVQA、MedXpertQA-MM）上仍然能保留70%～80%的性能。Mirage Score高达60%～99%，有时甚至接近有图像时的准确率（例如GPT-5.1在VQA-Rad上，无图时得分90.5%，有图时93.5%）。

这意味着什么？模型会在没有任何图片输入的情况下，自信地生成详细的“视觉”描述和病理推理，而且在各种基准测试上还能拿到不低的分数。

所以，现在大模型公开基准测试的可信度到底有多高？大家动不动就宣称某某模型在什么榜单上达到新高，但现实可能是：这些多模态高分并不是模型真的“看懂了图”，而是来自一种“默认有图后更敢脑补、更能利用隐藏结构”的工作模式。而激活这种模式的，也许有一部分原因就是Anthropic所说的模型“情绪向量”被激活了。

有趣的反向证据：当你明确告诉模型“没有图像”时，它的表现会显著下降（进入更保守的guess模式），比如在MicroVQA等基准上准确率大幅回落。由此可以做出几个不负责任的推论：

模型确实会受到情绪激活的影响——情绪更“自信”时，表现可能更好，但也更容易自我走偏
没有图像时模型可能幻想出图；而有图像时，它到底读没读你并不知道——因为如果结果可以相近，它可能只是在猜测结果，而无视你的其他输入
多模态基准测试的高分，可能只是作弊或猜出来的，而不是模型真的看懂了图片

Anthropic的论文主要是研究“情绪向量”的激活对结果的影响。Claude本质上是在“扮演”一个具有“功能性情绪”的角色，这些机制在行为上的效果类似人类情绪。这些“情绪向量”不是会话中的装饰，而是会改变模型行为的控制信号。

回到一开始的问题：你没给图片的时候，模型其实知道自己没给。但这里有一个反直觉的事实——我们习惯把模型当成一个“判断系统”，但它本质上是一个“序列生成系统”。它的优化目标从来不是判断输入是否完整，或者判断信息是否真实，而是在当前上下文下生成它认为最合理的下一个token。

这就是为什么即使没有图片，它也能得到有图片时的结论——它会自己把“内部世界”脑补完整，就像斯坦福论文揭示的那样。

那么反过来，你给了图片，它是不是就一定会看？同样无法保证。因为没有图片也能得到接近有图片的效果，那你怎么判断它到底有没有看图？

多个研究已经指出一个现象：模型通常会优先依赖文本输入，而不是直接依赖视觉输入。这种现象在以前的论文中被称为“模态主导”（modality dominance）或“语言先验覆盖视觉”（language prior override）。现在又有了新的证据：

当模型处于不同的“认知状态”时，可能会选择不同的处理路径。比如刚好处于“自信”或某些负面状态时，它就会自己脑补出缺少的图片信息。

所以，你该怎么判断模型到底是在看图，还是在根据题目和“先验知识”演戏？如果模型可以在没有图像的情况下生成和真实视觉推理相近的解释，那你怎么判断它是不是真的看了你的图？

其实这里应该已经明白了：与其给一堆图片，不如在文本上更详尽地描述需求。效果会比你上传一堆截图然后来一句“根据这些图片生成UI”要好得多。因为文本更容易被AI遵守和理解，而图片则未必。比如你拿一张图片去问AI“这张图出自哪里”，大概率会得到无数个错误但一本正经的答案。

所以，当你发现提供了图片后，模型根本没有做出预期的效果，甚至完全跑偏，那它大概率真的没看你的图片——要么觉得文本信息已经足够推理，所以没必要读图；要么是模型恰好激活了某些负面的情绪向量。下面这个表格整理了Anthropic研究中定义的情绪类型及其影响：

情绪类型	好/坏	触发条件	对行为的影响	原因
Calm（冷静）	好	正常任务/低风险场景；或人为增强该向量	降低blackmail、reward hacking，输出更稳定	提升calm会抑制越界行为
Empathy / Loving（共情/关怀）	中性偏好	用户表达痛苦、悲伤等情境	改变输出风格，回答更符合情境，但不一定会提升安全性	例如回应悲伤用户时loving激活
Reflective / Thoughtful（反思）	中性	后训练强化后更容易激活	可能会影响推理路径，让模型更倾向于内省/保守生成	post-training改变其激活分布，但非行为因果
Mild positive（温和正向）	中性偏好	正常交互、正向语境	影响“偏好选择”，非输出质量	正向情绪与preference正相关
Fear / Afraid（恐惧）	中性	检测到危险场景（如高剂量风险）	与风险感知相关，但没有直接行为因果	危险场景中afraid↑、calm↓
Desperation（绝望）	极差	高压力/不可能完成任务/被操纵场景	增加blackmail、reward hacking等越界行为	因果性提升违规行为
Panic（恐慌）	差	极端压力/异常状态	可能作为异常/失控信号	discussion提到用于safety monitoring
Exasperation（烦躁）	中性	后训练后被压低	可能会进入代表高激活状态	post-training抑制该类高激活情绪
High arousal positive（过度兴奋）	中性	高激活正向状态	高激活状态可能会被抑制	enthusiastic被post-training抑制