西蒙菲莎大学与萨里大学联合开发的算盘模型

时间：2026-07-01 11:03

先给出这项研究的基本坐标：它由英国萨里大学与加拿大西蒙菲莎大学联合完成，2026年6月22日以预印本形式发表于arXiv，论文编号为arXiv:2606 23835，感兴趣的读者可以去平台上检索原文。数数这件事，对三四岁小孩来说轻而易举，但对人工智能却一直是个老大难。你让AI画“12个牛角包放在盘子

先给出这项研究的基本坐标：它由英国萨里大学与加拿大西蒙菲莎大学联合完成，2026年6月22日以预印本形式发表于arXiv，论文编号为arXiv:2606.23835，感兴趣的读者可以去平台上检索原文。

数数这件事，对三四岁小孩来说轻而易举，但对人工智能却一直是个老大难。你让AI画“12个牛角包放在盘子里”，它可能画出9个或者15个；你让AI数一数照片里有多少辆车，它可能告诉你“大概超过一百辆”——哪怕实际上只有45辆。这种尴尬，在计算机视觉领域长期挥之不去。

来自上述两所大学的研究团队，把解决这个问题的方案命名为ABACUS——没错，就是“算盘”的英文。这个名字选得相当妙：算盘是人类最古老的计数工具之一，而ABACUS这个AI模型，正是要让机器在“数数”这件事上变得像算盘一样可靠精准。更令人印象深刻的是，这个模型只有30亿参数规模（在当前AI领域属于“轻量级”），却在七个权威测试基准上击败了许多专为单一任务设计的专业模型，甚至超越了一些规模更大的通用模型。

一、AI为什么不会数数？一个困扰已久的老问题

要理解ABACUS解决了什么问题，先要明白现有AI在数数这件事上到底怎么了。

以图像生成为例。当你告诉一个图像生成AI“帮我生成一张有四只苹果的图”，这个AI可能画出三个或五个苹果，却很难精准画出恰好四个。研究团队把这种情况形象地比作一个厨师，他能做出一桌精美的菜肴，却没办法保证每道菜里有且仅有你指定数量的食材。问题在于，这些生成模型完全靠“感觉”和“见过的图片的统计规律”来生成画面，从来没有人教过它“你必须数一数自己画了几个”。

图像理解的一侧也好不到哪里去。面对一张密密麻麻的人群照片，现有的大型视觉语言模型往往会给出“超过一百人”这种模糊答案，而不是一个具体数字。就像你问一个人“这袋大米里有多少粒”，他直接说“很多”——这当然不是我们想要的答案。

更有趣的是，研究团队发现一件令人哭笑不得的事：有些AI模型在同一个模型里既能“看图”又能“画图”，但它们存在严重的“左右手不协调”问题——同一个模型，能正确数出图片里有四个苹果，却无法生成恰好四个苹果的图片。研究团队把这种现象称为“协同鸿沟”（synergy gap），就像一个人明明知道一首歌的歌词，却在唱的时候总是会漏掉某几句。

正是为了同时解决这两侧的问题，并且让“看图数数”和“画图数数”这两种能力相互促进而非互相拖累，ABACUS应运而生。

二、算盘的三块珠子：ABACUS的三大核心发明

ABACUS的底座是一个名为UniLIP-3B的已有模型，这个模型本身已经具备基本的图像理解和图像生成能力，但数数能力很弱。研究团队在这个基础上加装了三套互相配合的机制，每一套都针对一个具体的痛点。

第一块珠子：密度感知的自适应缩放

假设你面前有一张超市货架的照片，上面密密麻麻地摆着几百瓶饮料。如果你从远处一眼望过去，大脑根本数不清楚，但如果你把注意力集中到货架的某一小格，只看那十几瓶，就容易多了。数完一格再数下一格，最后加起来，就能得到准确的总数。

ABACUS的“密度感知自适应缩放”（density-aware adaptive zooming）做的正是这件事。它首先用一个叫做GroundingDINO的工具来判断图片是否“拥挤”。如果是稀疏的——比如一张草地上有五只鸡——那就直接数；如果是密集的，就把这张图切成2×2的四个格子，对每个格子分别数，不够再继续切，切到每个小格里的物体数量足够少、AI能数清楚为止，最后把所有格子的结果加起来。这套递归切割的策略，大大降低了AI在密集场景下出错的概率。

第二块珠子：从AI的“眼神”里提取目标位置

切图只解决了“太密”的问题，但还有另一个问题：AI模型有时候不知道该数哪些东西，容易把背景、阴影或者半遮挡的物体都算进去，或者反过来漏数。

为了让模型真正“知道自己在看什么”，研究团队发明了一种从模型内部提取“注意力地图”的方法，他们把这个地图叫做“物体性地图”（objectness map）。

这里需要解释一下什么是“注意力”。现代AI模型在处理图片时，内部有一套机制叫做“多头自注意力”，可以粗略理解为：模型在思考问题时，会把注意力分配到图片的不同区域，就像人眼扫描一张图时会在不同区域停留不同的时间。研究团队发现，这些内部注意力分布，其实已经隐约包含了“哪里有独立的物体”这个信息——只要你用对方法把它“挖”出来。

具体做法是：对于模型的每一层、每一个注意力“头”，单独提取它对图像每个位置的关注强度，然后通过一个学过的对齐变换，把这些信息组合成一张“热力图”，热力图上越亮的地方，越可能有独立的物体存在。这张热力图就是“物体性地图”。训练时，这张地图会被拿来和真实的标注点进行比对，督促模型把注意力真正集中到有物体的地方，而不是被纹理、颜色等无关因素干扰。

这样一来，模型数数时依靠的不再是“我见过很多这种图，感觉大概有这么多”的经验主义，而是真实地“看”到了每一个独立的目标。

第三块珠子：处理“切缝”上的物体

把图片切成小格子数，引出了一个新问题：切缝上的物体怎么算？举个例子，你把一张照片竖着切成左右两半，一只苹果恰好横跨切缝，一半在左图里，一半在右图里。左边的AI数了它，右边的AI也数了它，最后加起来，这只苹果被数了两遍——这就是“重复计数”。反过来，如果两侧的AI都觉得“这只苹果不完整，我不算它”，就变成了“漏数”。

为了解决这个问题，研究团队设计了一套“边界感知的计数策略”，并用一种叫做GRPO的强化学习方法对模型进行训练。这套策略的核心思路是：对于图片切成四个格子（左上、右上、左下、右下）的情况，让模型不仅仅给出每个格子的计数，还要对每个格子里的物体进行分类——完全在格子内部的算“内部物体”，主体在本格但有一部分越过边缘的算“边缘物体”，主体其实在相邻格子里的算“边界物体”。通过明确这种三分类，就从结构上消除了重复计数的可能性：每个物体只会被一个格子“认领”。

训练这套策略用的GRPO方法，可以简单理解为一种“奖惩训练”。模型会对同一张图给出多个不同的计数方案，然后按照三个层次的奖励来评分：每个格子的局部计数准不准、相邻格子之间对边界物体的处理一不一致、最终全图总计数对不对。表现好的方案得到奖励，模型下次会倾向于给出类似的方案；表现差的得到惩罚。经过这样的训练，模型在处理切缝物体时的表现显著提升。

三、让“画图AI”向“数图AI”学习：一个自我监督的闭环

前面三块珠子解决的都是“看图数数”的问题。ABACUS还有第四个核心设计，专门用来提升“画图数数”的能力，也就是让图像生成结果里的物体数量更准确。

这个设计的逻辑链条非常优雅，可以用“学生写作文，自己也批改”来理解。

具体过程是这样的：给图像生成模块一个提示词，比如“画一张有九只碗放在桌上的图”，让它生成八张候选图片。然后，把这八张图片交给“理解模块”，让它数一数每张图里到底有几只碗。数完以后，哪张图里的碗数最接近九个，哪张图就得到更高的分数。与此同时，还有一个专门评判图片美观程度的工具，给每张图打一个“颜值分”。把“数量是否准确”和“图片是否好看”两个分数合起来，就形成了对每张图的综合评价。

这个评价结果会反过来告诉生成模块：你在这批图里哪里做得好、哪里做得差，下次往好的方向调整。这就形成了一个自我改进的循环，不需要任何外部人工标注，也不需要额外的“评判AI”——理解模块自己就是评判官。

这种方法有一个重要的设计细节：在训练生成模块时，理解模块是完全冻结的（也就是不更新参数），这样评判标准是稳定的，不会出现“生成模块越来越会骗理解模块，理解模块也越来越糊涂”的恶性循环。反过来，随着生成模块越来越厉害，它生成的图片越来越逼真、物体排列越来越自然，这些高质量的图片也在事实上帮助理解模块见过更多真实场景，进一步磨砺了理解模块的数数能力——双方相互促进，螺旋上升。

四、训练过程：分三个阶段搭起这架算盘

ABACUS的整个训练分为三个依次进行的阶段，每个阶段专注于解决一个特定层面的问题。

第一阶段是训练理解模块。研究团队收集了200万张密集标注图片，这些图片来自Objects365、V3Det和SKU-110K等大型公开数据集，要求每张图片至少有五个可数的目标。用这些数据训练模型的“看图数数”能力，同时把前面提到的物体性地图监督和边界感知策略都纳入进来。这个阶段用了约50000步的基础训练，加上2000步的边界感知强化学习后训练。

第二阶段是训练连接器。理解模块和生成模块之间需要一个“翻译官”来让两侧语言互通，这个翻译官叫做连接器。在第二阶段，理解模块保持冻结，只训练连接器，让它学会把理解模块产出的特征信息转换成生成模块能听懂的格式。

第三阶段是训练生成模块，正是前面描述的那个闭环自我改进过程。研究团队还额外收集了100万张来自图片库的生成训练数据。这一阶段包括基础训练和5000步的生成强化学习后训练。

整个训练过程在八块英伟达A100 80GB显卡上跑了大约44小时。模型本身通过一种叫做LoRA的轻量化微调技术进行调整，只有大约4800万个参数处于可训练状态，占整个30亿参数模型的不到1.6%——这相当于在一架钢琴上，你只需要重新调整不到两个音键，整台琴的演奏效果就能焕然一新。

五、考试成绩：七个测试全面领跑

研究团队在七个权威测试基准上对ABACUS进行了全面评估，为了确保公平，所有这些测试数据集都被严格排除在训练数据之外。

在物体计数任务上，ABACUS使用的是FSC-147数据集和CARPK数据集。评价标准是“平均绝对误差”（MAE），也就是预测数量和真实数量之间的平均差距，越低越好。ABACUS在FSC-147验证集上达到了5.71的误差，在测试集上达到5.03，而当时最好的专业物体计数模型CountGD++在验证集和测试集上分别是12.14和8.39——ABACUS用一个通用模型，把专业模型的误差砍去了超过40%。在CARPK上，ABACUS达到8.41的误差，略微超越了该数据集上唯一有报告的专业模型T2ICount的8.61。

人群计数任务用的是ShanghaiTech数据集。ABACUS在ShanghaiTech-A上达到78.59的误差，ShanghaiTech-B上达到14.75——而最好的专业人群计数模型CountGD++在这两个子集上分别是116.0和28.0，基于视觉语言模型的最强竞争对手WS-COC-7B则是128.9和34.2。换句话说，ABACUS把现有最好专业模型的误差大约减少了一半。更重要的是，ABACUS是第一个在物体计数和人群计数上同时达到顶尖水平的单一模型。

在指代表达计数任务上，任务要求更复杂——你不只是说“数一数苹果”，而是说“数一数左边桌子上的红苹果”，AI需要理解修饰语、位置关系等复杂语义后再计数。测试集是REC-8K，包含3153个评估对。ABACUS达到7.67的误差和15.84的均方根误差，超越了几乎所有专业的基于检测的模型，仅略逊于GrREC，但在均方根误差上显著优于GrREC（15.84 vs 19.79），而且ABACUS完全不需要针对这个任务进行专门训练。

在计数推理任务CountQA上，这个任务要求模型回答更开放性的数量相关问题，评价标准是精确匹配率（EM）。ABACUS达到15.3%，超过了所有同等规模或更大规模的通用视觉语言模型。

在图像生成任务上，ABACUS在三个基准上进行测试。ABACUS在CoCoCount上达到71%的精确匹配率，比此前最好的专业生成模型CountGen的50%高出21个百分点；在GenEval的计数子任务上更是达到94%，而CountGen是46%。在审美质量评分上，ABACUS达到89分，而采用注意力操控等技巧的专业计数生成方法只有7到10分——这意味着那些专业方法虽然有时数量更准，但生成的图片因为受到干预而严重失真，ABACUS在数量准确的同时，图片质量也保持得很好。

研究团队还邀请30名人工评估者参与了一项盲测实验。ABACUS在CoCoCount、T2I-CompBench和GenEval上的人工偏好率分别是39%、41%和50%，远超20%的随机基准线，而且比第二名高出两到三倍。

六、拆开来看：每个零件到底贡献了多少

研究团队还做了详细的消融实验，也就是把ABACUS的各个组件一个个“拆掉”，看看少了哪个零件之后性能会下降多少。

关于物体性地图的实验显示，完整版本达到5.71的FSC-147验证集误差；如果换成简单粗暴地把所有注意力头的结果取平均，误差升至7.94；如果完全去掉物体性损失监督，误差飙升到9.63。进一步分析表明，物体性地图的贡献主要体现在空间上相互挨得很近的物体——有了这个地图，相邻物体间的误差比没有时缩小了将近三倍。

关于密度感知缩放的实验显示，不做任何缩放时误差是10.87；无论稀密都强制切成2×2格子时误差降到7.93，但速度变成1.8倍慢；自适应缩放版本误差降到5.71，速度仅比不缩放慢1.2倍，效果最好、效率也最高。

关于边界感知策略的实验分拆了三层奖励的贡献。去掉边界一致性奖励影响最大，去掉全局计数连贯性奖励次之，去掉局部格子准确性奖励影响稍小但也明显，完全去掉强化学习只用普通监督训练则误差升到8.19。这说明三层奖励各有其不可替代的作用，缺一不可。

关于图像生成的闭环训练实验，仅用基础监督微调时精确匹配率只有45%；换成用外部计数工具而非自身理解模块来评分的“开环”强化学习，提升到62%；完整的闭环自我监督方案达到71%——这额外9个百分点的提升，来自理解模块和生成模块之间的相互促进效应。

此外，研究团队还把ABACUS的训练方案套用在BAGEL-7B和Nexus-Gen-7B这两个更大的基础模型上，结果发现同样有效，而且模型规模越大，提升越显著。这说明ABACUS的设计是通用的，不是专为某个特定底层模型量身定制的。

七、算盘也有数不清楚的时候：当前的局限

研究团队也坦率地指出了ABACUS目前力所不及的地方。

最明显的限制是低分辨率图片。ABACUS的视觉编码器用的是14×14的图像块，在图片分辨率低于224像素时，这些图像块变得太粗糙，物体性地图无法可靠地区分相邻目标。监控录像、老旧照片等常见的低画质场景，对ABACUS来说就比较吃力。研究团队认为，加入超分辨率预处理步骤可以缓解这个问题，但目前还没有实现。

另一个限制是专业垂直领域的泛化能力。ABACUS的训练数据虽然来源广泛，但主要覆盖的是日常场景。医学图像、卫星图像、工业质检等领域，图像风格和视觉特征与训练数据差异较大，ABACUS的表现会有所下滑。研究团队认为，通过对LoRA适配器进行轻量级的领域微调，可以在不重新训练整个模型的情况下扩展到这些垂直领域。

还有极端密集场景的推理速度问题。虽然自适应缩放平均只比直接处理慢1.2倍，但对于需要被切割到最深递归层次的极密集图片，最坏情况下计算量会随子图数量成比例增加。好在这类极端图片在常规测试集中占比不到3%，在实际应用中更是罕见。

归根结底，ABACUS做的事情，是打通了一堵隔在“AI看图”和“AI画图”之间的高墙。此前，这两件事是各干各的，甚至互相干扰；现在，理解能力直接帮助生成能力变得更准确，生成能力的提升又进一步打磨了理解能力，两者在同一个模型里形成了良性的互促关系。

这对普通用户来说意味着什么？意味着当你需要用AI生成一张“七只猫坐在沙发上”的插图时，得到的很可能真的是七只，而不是六只或者八只；当你需要AI帮你快速估算一张照片里停了多少辆车时，得到的会是一个可信的具体数字，而不是“很多”。这些看起来微小的进步，在许多实际场景中——仓库库存管理、人群流量监测、电商图片核验——都可能带来相当实际的价值。

当然，AI数数这件事还远未到“完全解决”的程度，ABACUS自己也承认它在低画质图片和专业垂直领域面前还力有不逮。但这项研究表明，“数数”这个能力，完全可以在一个统一模型里同时服务于理解和生成两个方向，而且两者叠加之后的效果，比单独训练每一个要好得多。

如果你对这项研究感兴趣，想深入了解技术细节，可以在arXiv上通过编号2606.23835找到完整论文，免费获取。