AI视觉模型数数能力揭秘：阿布扎比研究揭示其四大盲区

首页

热心网友

转载

2026-05-15

这项由阿布扎比穆罕默德·本·扎耶德人工智能大学（MBZUAI）的研究团队主导完成的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.10039。

连数到四都数不清？揭秘阿布扎比人工智能大学发现的AI视觉模型

一个令人困惑的AI基础能力缺陷

当前最先进的AI视觉语言模型，已经能够解读复杂的股票K线图，分析卫星遥感影像的地形特征，甚至辅助诊断医学影像。然而，当面对一张仅画着几个简单圆点的白纸，并被询问“图中有几个圆？”时，这些模型的回答却常常错得离谱。

这并非夸张。MBZUAI的研究团队通过系统性测试揭示，即便是目前顶尖的开源视觉语言模型，在“数清图中物体数量”这项看似基础的任务上，平均准确率也仅在30%至50%之间。一些早期模型的正确率甚至低至10%左右。这引出了一个根本性问题：AI视觉模型究竟是如何“看”图的？它们是在进行真正的视觉计数，还是在依赖文本经验进行猜测？

这个看似简单的问题，实则触及了视觉语言模型的核心技术瓶颈：模型在处理图像信息时，其决策在多大程度上基于真实的视觉感知，又在多大程度上依赖于从海量文本训练中获得的统计先验知识。为了深入探究，研究团队开发了一套名为COUNTINGTRICKS的诊断工具，并对模型内部工作机制进行了细致的剖析。

视觉语言模型为何“数不清”

在深入分析前，我们需理解视觉语言模型的基本架构。你可以将其视为一个结合了“视觉”与“语言”能力的AI系统。其核心原理是将一个专用的“视觉编码器”（负责将图像转化为数字特征）与一个强大的“大型语言模型”（负责理解和生成文本）相连接。

这种组合在图像描述、视觉问答等复杂任务上表现出色。但关键在于，作为“大脑”的语言模型，其知识主要来源于文本数据训练，它对世界的理解建立在语言统计规律之上——它“知道”大量关于“物体”的文字描述，却未必需要通过精确的视觉定位来回答问题。

而“计数”是一项高度依赖纯粹视觉空间感知的任务：它要求系统准确识别图像中每个独立物体的位置，进行区分，然后统计总数。这个过程几乎没有语言层面的捷径可走。然而，AI系统的天然倾向是利用其强大的语言先验知识来“走捷径”。这项研究的核心，正是揭示了这种“视觉-语言”处理路径上的失衡与“偷懒”现象。

一套系统性的诊断测试：COUNTINGTRICKS

为了系统性揭示问题，研究团队精心设计了COUNTINGTRICKS测试套件，包含超过18000个测试样本，覆盖32种不同的图像布局场景。

测试的设计核心在于：通过控制图中简单形状（如圆形、方形）与模型图像处理网格之间的相对位置关系，来检验AI在不同视觉挑战下的表现。这需要了解模型处理图像的方式——它并非整体感知图像，而是先将图像分割成许多固定的小网格（称为“分块”），对每个网格单独编码后再尝试整合信息。这类似于将一幅完整地图剪成碎片，分别记忆后再尝试拼回原貌。

问题由此产生：如果一个圆形完全位于某个网格内部，该网格就能完整编码它；但如果一个圆形恰好落在两个或四个网格的边界上，每个网格只包含圆的一部分，AI就可能无法正确识别这是一个完整的物体。

基于此原理，COUNTINGTRICKS设计了四种核心测试类型：形状完全位于单个网格内（理想情况）；形状被垂直网格线分割；形状被水平网格线分割；形状中心位于四个网格的交点，被完全分割。

此外，测试还引入了形状大小变化（统一尺寸或随机尺寸）、位置轻微随机偏移等变量，并设置了形状极大或彼此紧密相邻的极端场景。

更为巧妙的是，测试加入了“语言干扰项”：在提问时，故意在问题中植入一个错误数字提示，例如“图中有几个圆？（注意，图中大约有X个）”。一个真正依赖视觉计数的模型应能抵抗此干扰；而一个主要依赖语言经验的模型，则很可能被这个错误提示误导。

测试结果：揭示普遍的性能瓶颈

研究团队利用这套测试对10款主流开源视觉语言模型进行了全面评估，涵盖了2023年至2025年间发布的不同规模与架构的模型。

结果清晰地展示了技术的局限性。表现最差的早期模型，平均正确率仅为11.82%，接近随机猜测。而最新、表现最佳的模型，其平均正确率也仅达到50.52%——相当于每两次回答错一次。其他模型的表现分布在这两者之间。

一个反直觉的发现是：模型参数量的多少，与计数能力的强弱并无直接关联。参数量仅30亿的模型，其计数准确率可以显著超越某些参数量达110亿的模型。这表明，决定模型计数能力的关键因素在于其处理视觉信息的方式，特别是如何处理图像分辨率以及如何保留物体的空间位置信息。

测试数据也明确了形状大小的影响：形状相对于处理网格越大，AI数得越准。当形状尺寸放大后，所有模型的计数表现均有显著提升。原因很直观：形状足够大时，即使被网格线分割，每个网格内保留的局部信息也足够丰富，模型更容易推断它们属于同一物体。

相反，当图中的形状排列得过于紧密时，所有模型的性能都出现断崖式下跌。这说明AI的视觉编码器在区分彼此紧邻的独立物体时，存在严重的“实例分离”困难。

“数字回避”现象：AI对特定数字的系统性盲区

除了整体准确率偏低，研究团队还发现了一个更为奇特的现象，称之为“数字回避”。即AI会系统性地避免预测某些特定数字，表现出明显的统计偏差。

分析显示，模型预测的准确率与图中物体的真实数量之间存在强烈的负相关。图中需要计数的物体越多，模型答对的概率就越低，且这种下降趋势是非线性的。

更具揭示性的是针对具体数字的“盲区”。某些模型对于数字7、8、9、11的计数正确率直接为零。而表现最佳的模型，在计数为2时正确率高达99.3%，近乎完美；但到了计数为11时，正确率骤降至0%；然而，计数为12时，正确率又回升至20.1%。

这种跳跃性的表现无法用视觉难度差异完全解释。研究团队认为，根本原因在于语言训练数据中的“频率偏差”：模型在训练过程中接触了海量文本，其中某些数字（如5、10、20等“整数”或常见数字）出现的频率远高于其他数字（如7、11等质数或不常见数字）。因此，模型对这些高频数字产生了统计偏好；而对于低频数字，当视觉证据不够强时，模型的“语言直觉”就会失效，甚至倾向于回避预测这些数字。

换言之，AI在数数时犯错，很多时候并非因为“视觉上看不到”，而是因为在“语言统计经验”与“真实视觉证据”的博弈中，前者占据了主导地位。

深入模型内部：视觉信息在何处丢失

发现问题后，研究团队深入模型内部，试图追踪视觉空间信息究竟在哪个处理环节被“稀释”或“丢弃”。

他们的方法是在模型的三个关键处理节点安装“诊断探针”——分别位于视觉编码器末端、模态投影层以及大语言模型层。这些探针实质上是轻量级的辅助网络，用于评估在该节点保留的特征中，是否还能支撑准确的物体定位。

结果极具说服力。在模态投影层，物体定位精度最高。但到了大语言模型层，精度值几乎下降了一半。另一款模型也呈现出完全一致的趋势。

从训练动态看，三个探针的学习情况也迥然不同。投影层的探针学习最快，最终精度最高；视觉编码器层的探针精度次之且会较早进入平台期；而大语言模型层的探针不仅最终精度最低，训练过程也波动剧烈，表明该层所接收的特征信息极不稳定且缺乏空间细节。

这些数据勾勒出一幅清晰的图景：视觉编码器能够清晰地“感知”到形状的位置信息，并将其编码；模态投影层基本完整地传递了这些信息；然而，当信息进入以文本理解为核心的大语言模型进行最终推理时，大量精细的空间位置细节就被“过滤”或“覆盖”掉了。

通过可视化模型在回答时的“注意力热力图”，这一点得到了进一步验证。在处理的早期层，热力图能清晰地聚焦在目标形状上；但经过大语言模型的多层处理後，热力图变得模糊且分散，目标的边界和独立性已难以辨识。

失衡的注意力分配：文本主导，视觉边缘化

研究团队进一步量化分析了模型在生成答案时的“注意力分配”。即，在回答“图中有几个形状”时，模型的计算资源有多少用于分析图像token，又有多少用于处理系统提示和用户问题等文本token。

结果令人惊讶：平均而言，模型将约89.3%的“注意力预算”分配给了文本内容，仅有约10.7%的注意力留给了图像信息本身。这种极度失衡的资源分配，导致模型在作答时，本质上是在依据文本经验和问题语义进行“推测”，而非真正地、细致地分析图像内容。

尝试通过修改提示词（如加入“请仔细观察图片后再回答”）来干预这种行为，效果并不稳定，往往无法从根本上扭转模型内部固有的注意力分配模式。

更值得注意的是，即便模型答对了问题，其注意力也未必真正集中在正确的图像区域上。分析显示，即使在回答正确的案例中，模型注意力与真实物体区域的重合度也仅有42.5%左右。这意味着，相当一部分正确答案可能只是“幸运猜中”，而非基于可靠视觉分析的结果。

能否强制AI“多看”图？MAS干预实验的启示

既然问题出在大语言模型阶段对视觉信息的忽视，研究团队尝试设计了一种名为“模态注意力份额”（Modality Attention Share, MAS）的干预机制，旨在从模型训练层面强制其分配更多注意力给图像token。

该机制类似于设置一个“注意力最低门槛”。研究者设定一个阈值，如果模型对图像token的注意力总和低于该阈值，就会在训练损失中受到惩罚；若达到或超过阈值，则正常训练。

为了验证效果，团队在FSC-147计数数据集上进行了微调实验，对比了三种方式：直接使用原始预训练模型、进行标准的指令微调、以及进行加入了MAS约束的指令微调。

实验结果呈现出复杂性：MAS干预的效果因模型架构和测试数据集而异，在某些场景下能提升计数性能，在另一些场景下则可能导致性能下降。这表明，单纯强制增加对图像的注意力权重，并非一劳永逸的解决方案。关键在于，不仅要让模型“分配更多注意力”给图像，更要改进其“如何理解”以及“如何有效整合”视觉与语言信息的方式。

MAS实验的价值在于证明，注意力分配失衡的问题在技术上是可干预、可调节的。但要根本性解决计数等需要精细空间感知的任务，未来可能需要更精细的策略，例如专门针对数字预测任务设计视觉约束损失，或开发能引导模型关注正确图像区域而不仅仅是更多区域的机制。

研究的核心启示与未来方向

这项研究的核心发现可以概括为：AI视觉语言模型在计数任务上的失败，主要根源不在于其“视觉编码器看不见”，而在于后续的推理过程中，未能充分、有效地利用已经编码的视觉空间信息。

这一结论对于理解AI多模态模型的工作机制具有重要意义。通常，当AI答错一个视觉问题时，人们容易归咎于其“视觉能力”不足。但本研究的内部探针实验清楚地表明，视觉编码器其实能够有效地“感知”并编码物体位置信息。真正的瓶颈在于下游处理阶段——强大的语言模型在处理信息时，其固有的、基于文本统计规律的推理模式会压倒或忽略细致的视觉证据。

这也解释了为何更大的模型不一定数得更准。如果模型的语言部分过于强大，对语言统计规律的依赖更深，这种干扰反而可能更严重。相反，那些在架构设计上特别注重保留高分辨率视觉信息或空间关系的模型，即使参数量较小，也可能在此类任务上表现更优。

对于普通用户和开发者而言，这项研究提供了一个实用警示：当你让通用视觉语言模型执行物体计数、位置描述或其他需要精确空间感知的视觉任务时，应对其答案保持审慎。如果任务的准确性至关重要，建议进行人工复核，或考虑使用为此类特定任务专门设计和优化的工具。

从更广阔的研究视角看，这项研究为AI社区提供了一套有价值的诊断方法论。它强调，评估AI多模态模型的性能不应仅停留在最终输出答案的对错，而应深入模型内部，追踪信息在每一处理环节的流转、转化与损耗。只有精准定位性能瓶颈所在，才能进行有效的架构或训练改进。

COUNTINGTRICKS测试套件本身，其价值也超越了“计数”这一具体任务。它所揭示的“视觉证据”与“语言先验知识”之间的内在博弈，是当前视觉语言模型在处理任何需要精细空间感知、几何理解或实例区分的任务时，所面临的普遍性挑战。这套诊断框架可被迁移至更多场景，帮助研究者系统性地评估并提升AI的深层视觉理解与推理能力。

常见问题解答

问：视觉语言模型在数数任务上表现到底有多差？
答：根据这项研究，当前主流开源模型在专门设计的计数测试中，平均正确率介于约12%到50%之间。最差的模型正确率仅略高于随机猜测，而最好的模型也仅能答对一半左右的问题。关键在于，许多正确答案可能源于语言经验的“猜测”，而非真正的视觉分析。

问：为什么模型参数规模越大，数数不一定越准？
答：研究发现，计数能力的关键决定因素不是参数总量，而是模型处理与保留视觉信息（尤其是高分辨率细节和空间位置信息）的架构设计方式。某些参数量较小的模型，因其设计更注重视觉细节的保留与传递，反而能在计数任务上超越参数量大得多的通用模型。

问：COUNTINGTRICKS测试套件主要测试什么？
答：该套件是一个系统性的多模态模型诊断工具，包含大量精心设计的测试样本。它通过精确控制物体与模型图像处理网格的相对位置、物体大小、排列密度等关键变量，来评估模型在不同视觉挑战下的计数鲁棒性。它还包含“语言干扰”测试，用以检验模型是依赖真实视觉感知，还是容易被文本提示中的错误信息带偏。

来源:https://www.techwalker.com/2026/0422/3184729.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：EPFL研究发现大语言模型内部思维与人类创造性大脑高度同步下一篇：魔法原子发布自进化具身大脑引领硅谷AI新突破