游乐游手机版
首页/科技数码/文章详情

西蒙菲莎大学与萨里大学联合开发的算盘模型

时间:2026-07-01 11:03
先给出这项研究的基本坐标:它由英国萨里大学与加拿大西蒙菲莎大学联合完成,2026年6月22日以预印本形式发表于arXiv,论文编号为arXiv:2606 23835,感兴趣的读者可以去平台上检索原文。数数这件事,对三四岁小孩来说轻而易举,但对人工智能却一直是个老大难。你让AI画“12个牛角包放在盘子

先给出这项研究的基本坐标:它由英国萨里大学与加拿大西蒙菲莎大学联合完成,2026年6月22日以预印本形式发表于arXiv,论文编号为arXiv:2606.23835,感兴趣的读者可以去平台上检索原文。

数数这件事,对三四岁小孩来说轻而易举,但对人工智能却一直是个老大难。你让AI画“12个牛角包放在盘子里”,它可能画出9个或者15个;你让AI数一数照片里有多少辆车,它可能告诉你“大概超过一百辆”——哪怕实际上只有45辆。这种尴尬,在计算机视觉领域长期挥之不去。

来自上述两所大学的研究团队,把解决这个问题的方案命名为ABACUS——没错,就是“算盘”的英文。这个名字选得相当妙:算盘是人类最古老的计数工具之一,而ABACUS这个AI模型,正是要让机器在“数数”这件事上变得像算盘一样可靠精准。更令人印象深刻的是,这个模型只有30亿参数规模(在当前AI领域属于“轻量级”),却在七个权威测试基准上击败了许多专为单一任务设计的专业模型,甚至超越了一些规模更大的通用模型。

一、AI为什么不会数数?一个困扰已久的老问题

要理解ABACUS解决了什么问题,先要明白现有AI在数数这件事上到底怎么了。

以图像生成为例。当你告诉一个图像生成AI“帮我生成一张有四只苹果的图”,这个AI可能画出三个或五个苹果,却很难精准画出恰好四个。研究团队把这种情况形象地比作一个厨师,他能做出一桌精美的菜肴,却没办法保证每道菜里有且仅有你指定数量的食材。问题在于,这些生成模型完全靠“感觉”和“见过的图片的统计规律”来生成画面,从来没有人教过它“你必须数一数自己画了几个”。

图像理解的一侧也好不到哪里去。面对一张密密麻麻的人群照片,现有的大型视觉语言模型往往会给出“超过一百人”这种模糊答案,而不是一个具体数字。就像你问一个人“这袋大米里有多少粒”,他直接说“很多”——这当然不是我们想要的答案。

更有趣的是,研究团队发现一件令人哭笑不得的事:有些AI模型在同一个模型里既能“看图”又能“画图”,但它们存在严重的“左右手不协调”问题——同一个模型,能正确数出图片里有四个苹果,却无法生成恰好四个苹果的图片。研究团队把这种现象称为“协同鸿沟”(synergy gap),就像一个人明明知道一首歌的歌词,却在唱的时候总是会漏掉某几句。

正是为了同时解决这两侧的问题,并且让“看图数数”和“画图数数”这两种能力相互促进而非互相拖累,ABACUS应运而生。

二、算盘的三块珠子:ABACUS的三大核心发明

ABACUS的底座是一个名为UniLIP-3B的已有模型,这个模型本身已经具备基本的图像理解和图像生成能力,但数数能力很弱。研究团队在这个基础上加装了三套互相配合的机制,每一套都针对一个具体的痛点。

第一块珠子:密度感知的自适应缩放

假设你面前有一张超市货架的照片,上面密密麻麻地摆着几百瓶饮料。如果你从远处一眼望过去,大脑根本数不清楚,但如果你把注意力集中到货架的某一小格,只看那十几瓶,就容易多了。数完一格再数下一格,最后加起来,就能得到准确的总数。

ABACUS的“密度感知自适应缩放”(density-aware adaptive zooming)做的正是这件事。它首先用一个叫做GroundingDINO的工具来判断图片是否“拥挤”。如果是稀疏的——比如一张草地上有五只鸡——那就直接数;如果是密集的,就把这张图切成2×2的四个格子,对每个格子分别数,不够再继续切,切到每个小格里的物体数量足够少、AI能数清楚为止,最后把所有格子的结果加起来。这套递归切割的策略,大大降低了AI在密集场景下出错的概率。

第二块珠子:从AI的“眼神”里提取目标位置

切图只解决了“太密”的问题,但还有另一个问题:AI模型有时候不知道该数哪些东西,容易把背景、阴影或者半遮挡的物体都算进去,或者反过来漏数。

为了让模型真正“知道自己在看什么”,研究团队发明了一种从模型内部提取“注意力地图”的方法,他们把这个地图叫做“物体性地图”(objectness map)。

这里需要解释一下什么是“注意力”。现代AI模型在处理图片时,内部有一套机制叫做“多头自注意力”,可以粗略理解为:模型在思考问题时,会把注意力分配到图片的不同区域,就像人眼扫描一张图时会在不同区域停留不同的时间。研究团队发现,这些内部注意力分布,其实已经隐约包含了“哪里有独立的物体”这个信息——只要你用对方法把它“挖”出来。

具体做法是:对于模型的每一层、每一个注意力“头”,单独提取它对图像每个位置的关注强度,然后通过一个学过的对齐变换,把这些信息组合成一张“热力图”,热力图上越亮的地方,越可能有独立的物体存在。这张热力图就是“物体性地图”。训练时,这张地图会被拿来和真实的标注点进行比对,督促模型把注意力真正集中到有物体的地方,而不是被纹理、颜色等无关因素干扰。

这样一来,模型数数时依靠的不再是“我见过很多这种图,感觉大概有这么多”的经验主义,而是真实地“看”到了每一个独立的目标。

第三块珠子:处理“切缝”上的物体

把图片切成小格子数,引出了一个新问题:切缝上的物体怎么算?举个例子,你把一张照片竖着切成左右两半,一只苹果恰好横跨切缝,一半在左图里,一半在右图里。左边的AI数了它,右边的AI也数了它,最后加起来,这只苹果被数了两遍——这就是“重复计数”。反过来,如果两侧的AI都觉得“这只苹果不完整,我不算它”,就变成了“漏数”。

为了解决这个问题,研究团队设计了一套“边界感知的计数策略”,并用一种叫做GRPO的强化学习方法对模型进行训练。这套策略的核心思路是:对于图片切成四个格子(左上、右上、左下、右下)的情况,让模型不仅仅给出每个格子的计数,还要对每个格子里的物体进行分类——完全在格子内部的算“内部物体”,主体在本格但有一部分越过边缘的算“边缘物体”,主体其实在相邻格子里的算“边界物体”。通过明确这种三分类,就从结构上消除了重复计数的可能性:每个物体只会被一个格子“认领”。

训练这套策略用的GRPO方法,可以简单理解为一种“奖惩训练”。模型会对同一张图给出多个不同的计数方案,然后按照三个层次的奖励来评分:每个格子的局部计数准不准、相邻格子之间对边界物体的处理一不一致、最终全图总计数对不对。表现好的方案得到奖励,模型下次会倾向于给出类似的方案;表现差的得到惩罚。经过这样的训练,模型在处理切缝物体时的表现显著提升。

三、让“画图AI”向“数图AI”学习:一个自我监督的闭环

前面三块珠子解决的都是“看图数数”的问题。ABACUS还有第四个核心设计,专门用来提升“画图数数”的能力,也就是让图像生成结果里的物体数量更准确。

这个设计的逻辑链条非常优雅,可以用“学生写作文,自己也批改”来理解。

具体过程是这样的:给图像生成模块一个提示词,比如“画一张有九只碗放在桌上的图”,让它生成八张候选图片。然后,把这八张图片交给“理解模块”,让它数一数每张图里到底有几只碗。数完以后,哪张图里的碗数最接近九个,哪张图就得到更高的分数。与此同时,还有一个专门评判图片美观程度的工具,给每张图打一个“颜值分”。把“数量是否准确”和“图片是否好看”两个分数合起来,就形成了对每张图的综合评价。

这个评价结果会反过来告诉生成模块:你在这批图里哪里做得好、哪里做得差,下次往好的方向调整。这就形成了一个自我改进的循环,不需要任何外部人工标注,也不需要额外的“评判AI”——理解模块自己就是评判官。

这种方法有一个重要的设计细节:在训练生成模块时,理解模块是完全冻结的(也就是不更新参数),这样评判标准是稳定的,不会出现“生成模块越来越会骗理解模块,理解模块也越来越糊涂”的恶性循环。反过来,随着生成模块越来越厉害,它生成的图片越来越逼真、物体排列越来越自然,这些高质量的图片也在事实上帮助理解模块见过更多真实场景,进一步磨砺了理解模块的数数能力——双方相互促进,螺旋上升。

四、训练过程:分三个阶段搭起这架算盘

ABACUS的整个训练分为三个依次进行的阶段,每个阶段专注于解决一个特定层面的问题。

第一阶段是训练理解模块。研究团队收集了200万张密集标注图片,这些图片来自Objects365、V3Det和SKU-110K等大型公开数据集,要求每张图片至少有五个可数的目标。用这些数据训练模型的“看图数数”能力,同时把前面提到的物体性地图监督和边界感知策略都纳入进来。这个阶段用了约50000步的基础训练,加上2000步的边界感知强化学习后训练。

第二阶段是训练连接器。理解模块和生成模块之间需要一个“翻译官”来让两侧语言互通,这个翻译官叫做连接器。在第二阶段,理解模块保持冻结,只训练连接器,让它学会把理解模块产出的特征信息转换成生成模块能听懂的格式。

第三阶段是训练生成模块,正是前面描述的那个闭环自我改进过程。研究团队还额外收集了100万张来自图片库的生成训练数据。这一阶段包括基础训练和5000步的生成强化学习后训练。

整个训练过程在八块英伟达A100 80GB显卡上跑了大约44小时。模型本身通过一种叫做LoRA的轻量化微调技术进行调整,只有大约4800万个参数处于可训练状态,占整个30亿参数模型的不到1.6%——这相当于在一架钢琴上,你只需要重新调整不到两个音键,整台琴的演奏效果就能焕然一新。

五、考试成绩:七个测试全面领跑

研究团队在七个权威测试基准上对ABACUS进行了全面评估,为了确保公平,所有这些测试数据集都被严格排除在训练数据之外。

在物体计数任务上,ABACUS使用的是FSC-147数据集和CARPK数据集。评价标准是“平均绝对误差”(MAE),也就是预测数量和真实数量之间的平均差距,越低越好。ABACUS在FSC-147验证集上达到了5.71的误差,在测试集上达到5.03,而当时最好的专业物体计数模型CountGD++在验证集和测试集上分别是12.14和8.39——ABACUS用一个通用模型,把专业模型的误差砍去了超过40%。在CARPK上,ABACUS达到8.41的误差,略微超越了该数据集上唯一有报告的专业模型T2ICount的8.61。

人群计数任务用的是ShanghaiTech数据集。ABACUS在ShanghaiTech-A上达到78.59的误差,ShanghaiTech-B上达到14.75——而最好的专业人群计数模型CountGD++在这两个子集上分别是116.0和28.0,基于视觉语言模型的最强竞争对手WS-COC-7B则是128.9和34.2。换句话说,ABACUS把现有最好专业模型的误差大约减少了一半。更重要的是,ABACUS是第一个在物体计数和人群计数上同时达到顶尖水平的单一模型。

在指代表达计数任务上,任务要求更复杂——你不只是说“数一数苹果”,而是说“数一数左边桌子上的红苹果”,AI需要理解修饰语、位置关系等复杂语义后再计数。测试集是REC-8K,包含3153个评估对。ABACUS达到7.67的误差和15.84的均方根误差,超越了几乎所有专业的基于检测的模型,仅略逊于GrREC,但在均方根误差上显著优于GrREC(15.84 vs 19.79),而且ABACUS完全不需要针对这个任务进行专门训练。

在计数推理任务CountQA上,这个任务要求模型回答更开放性的数量相关问题,评价标准是精确匹配率(EM)。ABACUS达到15.3%,超过了所有同等规模或更大规模的通用视觉语言模型。

在图像生成任务上,ABACUS在三个基准上进行测试。ABACUS在CoCoCount上达到71%的精确匹配率,比此前最好的专业生成模型CountGen的50%高出21个百分点;在GenEval的计数子任务上更是达到94%,而CountGen是46%。在审美质量评分上,ABACUS达到89分,而采用注意力操控等技巧的专业计数生成方法只有7到10分——这意味着那些专业方法虽然有时数量更准,但生成的图片因为受到干预而严重失真,ABACUS在数量准确的同时,图片质量也保持得很好。

研究团队还邀请30名人工评估者参与了一项盲测实验。ABACUS在CoCoCount、T2I-CompBench和GenEval上的人工偏好率分别是39%、41%和50%,远超20%的随机基准线,而且比第二名高出两到三倍。

六、拆开来看:每个零件到底贡献了多少

研究团队还做了详细的消融实验,也就是把ABACUS的各个组件一个个“拆掉”,看看少了哪个零件之后性能会下降多少。

关于物体性地图的实验显示,完整版本达到5.71的FSC-147验证集误差;如果换成简单粗暴地把所有注意力头的结果取平均,误差升至7.94;如果完全去掉物体性损失监督,误差飙升到9.63。进一步分析表明,物体性地图的贡献主要体现在空间上相互挨得很近的物体——有了这个地图,相邻物体间的误差比没有时缩小了将近三倍。

关于密度感知缩放的实验显示,不做任何缩放时误差是10.87;无论稀密都强制切成2×2格子时误差降到7.93,但速度变成1.8倍慢;自适应缩放版本误差降到5.71,速度仅比不缩放慢1.2倍,效果最好、效率也最高。

关于边界感知策略的实验分拆了三层奖励的贡献。去掉边界一致性奖励影响最大,去掉全局计数连贯性奖励次之,去掉局部格子准确性奖励影响稍小但也明显,完全去掉强化学习只用普通监督训练则误差升到8.19。这说明三层奖励各有其不可替代的作用,缺一不可。

关于图像生成的闭环训练实验,仅用基础监督微调时精确匹配率只有45%;换成用外部计数工具而非自身理解模块来评分的“开环”强化学习,提升到62%;完整的闭环自我监督方案达到71%——这额外9个百分点的提升,来自理解模块和生成模块之间的相互促进效应。

此外,研究团队还把ABACUS的训练方案套用在BAGEL-7B和Nexus-Gen-7B这两个更大的基础模型上,结果发现同样有效,而且模型规模越大,提升越显著。这说明ABACUS的设计是通用的,不是专为某个特定底层模型量身定制的。

七、算盘也有数不清楚的时候:当前的局限

研究团队也坦率地指出了ABACUS目前力所不及的地方。

最明显的限制是低分辨率图片。ABACUS的视觉编码器用的是14×14的图像块,在图片分辨率低于224像素时,这些图像块变得太粗糙,物体性地图无法可靠地区分相邻目标。监控录像、老旧照片等常见的低画质场景,对ABACUS来说就比较吃力。研究团队认为,加入超分辨率预处理步骤可以缓解这个问题,但目前还没有实现。

另一个限制是专业垂直领域的泛化能力。ABACUS的训练数据虽然来源广泛,但主要覆盖的是日常场景。医学图像、卫星图像、工业质检等领域,图像风格和视觉特征与训练数据差异较大,ABACUS的表现会有所下滑。研究团队认为,通过对LoRA适配器进行轻量级的领域微调,可以在不重新训练整个模型的情况下扩展到这些垂直领域。

还有极端密集场景的推理速度问题。虽然自适应缩放平均只比直接处理慢1.2倍,但对于需要被切割到最深递归层次的极密集图片,最坏情况下计算量会随子图数量成比例增加。好在这类极端图片在常规测试集中占比不到3%,在实际应用中更是罕见。

归根结底,ABACUS做的事情,是打通了一堵隔在“AI看图”和“AI画图”之间的高墙。此前,这两件事是各干各的,甚至互相干扰;现在,理解能力直接帮助生成能力变得更准确,生成能力的提升又进一步打磨了理解能力,两者在同一个模型里形成了良性的互促关系。

这对普通用户来说意味着什么?意味着当你需要用AI生成一张“七只猫坐在沙发上”的插图时,得到的很可能真的是七只,而不是六只或者八只;当你需要AI帮你快速估算一张照片里停了多少辆车时,得到的会是一个可信的具体数字,而不是“很多”。这些看起来微小的进步,在许多实际场景中——仓库库存管理、人群流量监测、电商图片核验——都可能带来相当实际的价值。

当然,AI数数这件事还远未到“完全解决”的程度,ABACUS自己也承认它在低画质图片和专业垂直领域面前还力有不逮。但这项研究表明,“数数”这个能力,完全可以在一个统一模型里同时服务于理解和生成两个方向,而且两者叠加之后的效果,比单独训练每一个要好得多。

如果你对这项研究感兴趣,想深入了解技术细节,可以在arXiv上通过编号2606.23835找到完整论文,免费获取。

Q&A

Q1:ABACUS在数人群这种超密集场景时,怎么保证不数错?

A:ABACUS会先判断图片是否密集,如果密集就把图片切成更小的区域分别计数,最后求和。同时对切缝上的物体做专门分类处理,确保每个人只被数一次,不会因为切割而重复计数或漏数。在ShanghaiTech测试集上,这套方案把误差降到了78.59,大约是之前最好方法的一半。

Q2:ABACUS生成的图片数量为什么比其他AI模型更准确?

A:ABACUS用自己的“看图数数”能力来监督“画图”能力。每次生成一批候选图片后,自己去数数生成了多少个目标物体,哪张图最接近指定数量就给更高奖励,然后根据这个反馈调整生成策略,循环迭代改进,不需要外部人工标注或额外的评判工具。

Q3:ABACUS只能数常见物体吗,能数从没见过的东西吗?

A:ABACUS采用文本提示的方式指定计数目标,理论上可以计数任何用语言能描述的物体类别,不局限于训练时出现过的类别。但对于图像风格差异很大的专业领域(如显微镜下的细胞、卫星图像中的车辆),当前版本表现会有所下降,需要额外的领域适配才能达到最佳效果。

来源:https://www.163.com/dy/article/L0N2BSV30511DTVV.html
上一篇粤芯半导体从零到集群链起一个生态|活力中国调研行 下一篇中昊芯英发布新一代全自研高性能TPU AI算力芯片
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的