中科院软件所解析AI多模态大模型为何更擅长图像处理

首页

热心网友

转载

2026-05-15

这项由中国科学院大学与中国科学院软件研究所中文信息处理实验室联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.16902。

中科院软件所揭秘：为什么AI多模态大模型总是

想象一下，当你同时听到一种声音、看到一张图片、读到一段文字，而这三者讲述的却是完全不同的故事时，你会相信哪一个？这听起来像是一个哲学思辨，但实际上，它正是当前人工智能研发中一个真实存在却又常被忽视的技术难题。最近的一项研究，正是为了解开这个谜题。

这一切要从人工智能的一次关键进化说起。过去几年，AI从只能处理图文信息的“视觉语言模型”，迈入了能够同时理解图像、音频、文本乃至视频的“全模态大语言模型”时代。你可以把它们理解为拥有了“全能感知”的超级助手，将多种感官信息整合进同一个“大脑”里。

然而，这种整合带来了一个意想不到的副作用。当这个助手同时接收到来自不同感官的、相互矛盾的信号时，它会如何抉择？研究发现，这些AI并非公平的裁判，它们存在明显的“偏心”——会下意识地更信任某一种输入，而忽略其他。研究者将这种现象称为“模态偏好”。

此前，业内普遍存在一种“文字主导偏见”的认知，认为AI会更倾向于相信文本信息。但这项研究在对十个主流全模态模型进行系统性测试后，得出了一个碘伏性的结论：大多数AI，其实更偏爱图像。这个发现引出了三个核心问题：这种偏心的普遍性和程度究竟如何？它究竟是如何在AI内部形成的？而理解它，能否帮助我们解决AI时常“胡说八道”的老毛病？

一、给AI出一道“三选一”的难题

要探究AI的偏好，首先得设计一个能让它“原形毕露”的测试环境。研究团队的思路非常巧妙：既然在信息一致时看不出端倪，那就故意让信息“打架”。

他们构建了一个专门的测试数据集。每个样本都像一组矛盾的证据：一段文字描述、一张图片、一段音频，三者内容在语义上完全冲突。例如，文字说“瀑布流淌”，图片展示“拉大提琴”，音频播放“布谷鸟叫”。然后询问AI：“这个样本主要关于什么？”选项分别对应三种模态的内容。AI的选择，直接揭示了它更采信谁的“证词”。

为确保测试严谨，样本涵盖了动物、人类活动、乐器、自然声音等六大类别，且确保三个模态的内容来自不同类别，杜绝语义关联。最终，一个包含1000个此类冲突样本的数据集准备就绪。

核心度量指标是“模态选择率”。简单说，就是AI选择某种模态答案的比例。在理想的三选一随机情况下，每种模态的选择率应约为33%。若某一模态的选择率显著高于此阈值，则表明存在偏好。

结果出人意料。在测试的十个模型中，有八个的图像选择率超过了50%。其中，Gemini 3 Flash对图像的偏爱最为突出，选择率高达82%，而文字仅占8%。即便是性能顶尖的Gemini 3.1 Pro，图像选择率也达到72%，文字仅为7%。只有两个模型表现出轻微的文字偏好。

在进一步的“二选一”对比测试中，偏好等级更加清晰：在所有“图像 vs. 文字”的比拼中，图像胜出；在所有“图像 vs. 音频”的比拼中，图像胜出；而在“文字 vs. 音频”的比拼中，文字胜出。这意味着，这些全模态AI的“信任度排行榜”是：图像第一，文字第二，音频则远远垫底。

音频被忽视的程度令人惊讶。在三模态冲突测试中，所有模型的音频选择率均低于21%，多数甚至不足10%。这暴露出一个残酷的现实：尽管这些模型宣称具备多模态理解能力，但它们对声音信息几乎是“充耳不闻”。

二、AI大脑里的“偏心”是怎么长出来的

发现了偏好，下一个问题自然是：这种偏心从何而来？它是在AI神经网络（即模型的“大脑”）的哪一层、以何种方式形成的？

研究团队采用了一种名为“线性探针”的技术来一探究竟。你可以把它想象成在神经网络每一层的出口安装一个微型“监测器”。这个监测器通过分析该层处理后的信息，来预测模型最终会偏向哪种模态。监测器的预测准确率越高，说明该层的信息中已经包含了越清晰的偏好信号。

通过追踪探针准确率随网络层数的变化，一幅清晰的“偏好形成图谱”浮现出来。在网络的前30%左右，准确率在随机水平附近徘徊，表明浅层网络主要处理低级特征，尚未形成判断。

然而，在网络的40%到70%深度区间，戏剧性的一幕发生了：所有模型的探针准确率都经历了急剧飙升。例如，Qwen2.5-Omni-7B的准确率从约0.50猛增至约0.90。这明确显示，模态偏好正是在网络的中后段集中涌现的。

有趣的是，在最后的20%网络层中，准确率又出现了不同程度的下滑。研究团队认为，这是因为最后几层负责将信息整合并准备输出，这个过程会一定程度上“稀释”之前形成的强烈偏好信号。

基于此，研究者将偏好演化划分为四个阶段：浅层的“缺席期”、中段的“涌现期”、随后的“峰值期”以及末端的“消退期”。此外，对比不同规模的模型还发现，参数更大的模型，其偏好形成得更早，且在消退期信号衰减更缓，显示出更稳定和成熟的内部表征。

为了更直观地展示这一过程，研究团队对Qwen2.5-Omni-7B模型进行了可视化分析。他们将不同网络层的信息投影到二维平面上，结果一目了然：在第5层，三种模态的数据点完全混杂；到第18层，开始出现分离趋势；至第24层（峰值期附近），已形成三个边界清晰的簇；而到了第28层（消退期），簇的边界又重新变得模糊。这为“偏好在中后层形成”提供了强有力的视觉证据。

三、偏心的AI更容易“胡说八道”，而且可以提前预警

弄清了偏好的形成机制，一个更实际的问题随之而来：这种偏心是否会导致AI犯错？更重要的是，能否利用它来预测AI何时会犯错？

AI的“胡说八道”在学术上被称为“幻觉”。在多模态场景下，“跨模态幻觉”尤为棘手：AI可能因为过度偏爱某一模态，而忽视另一模态的真实信息，从而做出错误判断。

研究团队提出了一个核心假设：当AI即将产生幻觉时，其内部对于“干扰模态”（即本不该采信的信息）的偏好概率会异常升高。也就是说，如果监测器发现AI正在不正常地“偏心”于某个干扰信息，就可以预警它可能即将出错。

为了验证这一假设，研究团队在多个权威的跨模态幻觉基准上进行了测试。结果有力地支持了该假设。以Qwen2.5-Omni-7B为例，分析发现，在AI回答错误的样本（即产生幻觉）中，干扰模态的预测概率分布明显偏向高值区间；而在回答正确的样本中，该概率则集中在较低区间。统计检验表明，这种差异极其显著，绝非偶然。

基于此，研究团队将探针发展成了一种幻觉自动检测工具。具体做法是，将探针对干扰模态的预测概率作为“风险分数”，分数越高，AI产生幻觉的可能性越大。

为了评估其效果，他们与两种基线方法进行了对比：一是随机猜测，二是使用网络第一层的探针（代表偏好信号出现前的状态）。评估指标包括AUROC（综合区分能力，1.0为满分，0.5为随机水平）等。

结果显示，第一层探针的表现与随机猜测无异，证实了有效信号确实源于网络中后层。而使用偏好形成峰值层的探针，则取得了卓越的检测性能。例如，在POPE基准测试中，多个模型的平均AUROC达到了0.94，其中MiniCPM-o-2.6更是高达0.99，显著优于基线方法。

几个具体案例生动地说明了其工作原理：当AI正确判断“图中没有勺子”时，视觉（目标模态）的概率高达0.81，文字（干扰模态）概率仅为0.17；而当AI错误回答“有”（产生幻觉）时，视觉概率骤降至0.21，文字干扰概率则飙升至0.76。这种内部概率的剧烈变化，为幻觉预警提供了清晰的信号。

四、这项研究意味着什么

这项研究的价值在于，它用可量化的实验方法，将AI“黑箱”中的一种隐性行为倾向显性化，并精准定位了其在模型结构中的演化轨迹。

一个关键结论是，当前的全模态AI远非公平的信息整合者。它们存在固有的、不均衡的模态信任权重——过度依赖图像，严重忽视音频。这种偏差并非无伤大雅，它正是引发跨模态幻觉的重要根源之一。

另一方面，该研究提供了一种轻量且高效的幻觉检测思路。用于训练探针的数据，仅仅是语义冲突的多模态样本，而非需要大量标注的特定幻觉任务数据。然而，它却在多个不同的幻觉测试基准上展现了出色的迁移检测能力。这种“一次训练，多处应用”的潜力，颇具实用价值。

当然，研究也留下了开放性问题。目前的探针主要用于检测，而非主动纠正。未来能否在监测到异常偏好时，实时干预模型的注意力机制，从而避免错误？此外，音频模态被普遍边缘化，究竟是训练数据不足所致，还是模型架构本身存在“视觉优先”的底层设计倾向？这些问题都值得深入探索。

对于普通用户而言，这项研究提供了一个实用提醒：当你使用全模态AI处理包含重要音频信息的内容时，或许需要在指令中明确强调“请重点关注音频内容”，否则，它很可能在无意识中，就忽略了你希望它聆听的关键部分。

Q&A

Q1：全模态大语言模型（OLLM）和普通的视觉语言模型（VLM）有什么区别？

A：视觉语言模型通常只能处理图像和文本两种模态。而全模态大语言模型将其能力扩展至图像、音频、文本、视频等多种输入，并将所有这些信息整合到统一的模型架构中进行理解和推理，实现了从“图文理解”到“全能感知”的跨越。GPT-5和Gemini 3是这类模型的代表。

Q2：模态选择率（MSR）是怎么测出来AI偏爱哪种信息的？

A：研究团队构建了内容相互矛盾的“文字-图像-音频”三元组样本。AI需要从三个分别对应不同模态内容的选项中选择一个。统计在所有样本中，AI选择每种模态对应答案的比例，即为模态选择率。如果某一模态的选择率显著高于33%（随机选择的理论值），则表明AI对该模态存在偏好。

Q3：线性探针是怎么预测AI幻觉的？

A：线性探针是一个简单的分类器，被训练用于根据AI神经网络某一层的内部状态，预测模型最终会偏向哪种模态。研究发现，当AI即将产生幻觉（即错误采信了干扰信息）时，探针对于“干扰模态”的预测概率会异常偏高。因此，通过实时监测这个概率值，就可以在AI输出错误答案之前，预警其产生幻觉的风险。

来源:https://www.techwalker.com/2026/0429/3185443.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：上海交通大学研发AI科研机器人可自主实验与反思优化下一篇：Cohere与Poolside揭示大语言模型存在环境盲区问题