首页 游戏 软件 资讯 排行榜 专题
首页
AI
北大彭宇新团队CVPR研究:多模态大模型如何理解物种关系

北大彭宇新团队CVPR研究:多模态大模型如何理解物种关系

热心网友
40
转载
2026-05-16

多模态大模型在视觉理解领域的突破有目共睹,从简单的图像识别到复杂的视觉推理,其能力边界持续扩展。然而,当我们面对真实世界的复杂场景时,一个普遍存在的难题浮现出来:层级化结构。无论是生物学中的“界门纲目科属种”分类体系,还是电商商品、医疗诊断中的多级标签系统,现实世界的概念往往不是扁平排列的,而是构成了逻辑严密、层层嵌套的树状网络。

当前主流的视觉模型大多基于扁平化分类框架进行训练,在处理这类具有层级关系的任务时,常常显得“力不从心”——其预测结果可能在父类与子类之间产生逻辑矛盾,或者无法形成一条连贯、合理的分类路径。更具挑战性的是开放世界识别问题:当模型遇到一个训练数据中从未出现过的新类别时,它该如何应对?例如在生物多样性监测中,新物种的发现是常态,模型不能仅仅依赖记忆已知类别,更需要深刻理解类别之间的内在关联,从而进行合理的层次化推断。

针对这一系列核心挑战,北京大学王选计算机研究所彭宇新教授团队提出了一项创新性解决方案:TARA(Taxonomy-Aware Representation Alignment,分类学感知表征对齐)。这项研究的核心思路非常巧妙——既然模型内部缺乏层级结构知识,那就从外部进行“知识注入”。团队利用生物基础模型中已经内化的、结构化的分类学知识,将其与多模态大模型的中间视觉表征进行对齐学习。通过这种方式,模型不仅能识别物体本身,还能在表征层面“理解”它们之间的谱系关系,从而在层级分类任务中表现得更具逻辑一致性、更智能,并且显著提升了对未知类别的泛化识别能力。

TARA 如何赋能多模态模型理解「层级结构」?

为了全面验证TARA方法的有效性,研究团队在多个权威数据集和综合评价指标上进行了系统实验,结果令人瞩目。

首先,在已知类别的层级识别能力测试中,团队选取了包含完整生物分类层级的iNaturalist-2021数据集。实验数据表明,引入TARA方法后,模型的层级识别性能获得了稳定提升。以Qwen3-VL-2B模型为例,在植物子集上,其层级一致性准确率从9.23%提升至12.78%,叶节点分类准确率也从31.96%提升到32.66%。对于参数规模更大的Qwen2.5-VL-3B模型,提升效果更为显著,在动物子集上的层级一致性准确率达到了24.02%。这些结果证明,TARA能够帮助不同规模的视觉语言模型更好地掌握类别间的层级逻辑关系。

那么,模型是真正学会了“层次化推理”,还是仅仅“记忆”了训练数据的模式?为了回答这个关键问题,团队在TerraIncognita数据集上进行了开放世界测试,该数据集包含许多稀有乃至科学界尚未正式记录的物种。结果极具说服力:在未知类别识别场景下,模型在“科”和“目”等高层级分类上的F1分数依然有显著提升。这充分说明,TARA赋予模型的不仅仅是记忆能力,更是一种基于层级关系的深度泛化与推理能力。

为了深入探究TARA的作用机制,研究人员进行了线性探针分析实验。他们提取了模型学习到的视觉特征,并用简单的线性分类器进行测试。结果显示,采用TARA方法后,视觉特征的判别力明显增强,分类准确率从基线模型的13.30%提升到了18.30%。这从表征层面证实,TARA确实能引导模型学习到更具区分度且隐含结构信息的视觉表示。

这种对层级关系的深刻理解,甚至能迁移到更复杂的多模态任务中。在需要结合图像信息与外部知识的ImageWikiQA视觉问答数据集上,引入TARA的模型准确率达到了51.40%,表现优于仅进行强化学习微调的基线模型。这表明,对世界进行层次化认知,是通向更高阶视觉智能的关键基石。

最后,在训练效率方面,TARA也展现出了明显优势。实验发现,在训练早期阶段,采用TARA的模型性能就迅速超越了基线模型,并且能以更快的速度收敛到更优状态。由于该方法仅增加了少量的投影层参数,其带来的额外计算开销微乎其微,堪称一种“高性价比”的模型增强策略。

从数据到训练:一套严谨的层级视觉识别实验框架

这项研究的严谨性与系统性,体现在其精心设计的完整实验框架上。从数据集构建、模型训练策略到评价指标体系,每一个环节都紧密围绕层级视觉识别的核心问题展开。

在数据集选择上,团队选取了三个具有不同侧重点的基准:iNaturalist-2021用于评估已知类别的层级识别性能;TerraIncognita用于挑战开放世界中的未知类别识别;ImageWikiQA则用于评测复杂的、需要知识融合的视觉问答能力。

模型训练巧妙地融合了两种关键思想。首先是“无思维链”强化学习微调,研究人员发现,在层级分类任务中,让模型直接输出答案比强制其进行显式思维链推理效果更佳。在此基础上,引入了核心的TARA表征对齐方法。该方法包含两个关键对齐:一是视觉表示对齐,将生物基础模型提取的、蕴含丰富分类学知识的图像特征,与多模态模型的视觉特征在共享的潜空间中对齐;二是标签表示对齐,将层级分类标签的语义嵌入与模型生成答案的语义进行对齐。通过这种交替优化的训练策略,模型在优化主任务目标的同时,潜移默化地吸收并内化了层级结构知识。

评价体系也经过了周密设计,不再仅仅关注最终的叶节点分类准确率。层级一致性准确率要求模型预测的整条分类路径必须从根节点到叶节点完全正确;点重叠比率则统计预测路径中正确分类节点的比例;严格点重叠比率要求更高,预测正确的节点必须在路径上连续出现。这套组合评价指标,能够全方位、多维度地衡量模型对复杂层级结构的理解与遵从程度。

TARA 的核心价值:让视觉模型学会「推理未知」

总体而言,TARA研究的意义超越了其具体的技术方法,为多模态大模型的未来发展提供了新的思路与方向。

它精准地击中了当前视觉大模型在层级识别任务上的核心痛点,通过知识引导的表征对齐方式,显著提升了模型预测的逻辑一致性与可靠性。更重要的是,它为攻克“开放世界识别”这一长期挑战提供了一条切实可行的技术路径——即让模型学会利用已知的层级关系网络去合理推断未知实体,而不仅仅是进行模式匹配。

从方法论的角度看,这种通过中间表征对齐来注入领域先验知识的方式,具有很强的可扩展性与普适性。其核心思路可以轻松迁移到医学影像分析(疾病分类)、电子商务(商品品类管理)、知识图谱构建(实体层级关系)等其他同样严重依赖层级化结构的垂直领域,为行业知识与通用大模型的深度融合打开了新的大门。

从长远愿景来看,这项研究指向了一个更为宏大的目标:构建真正理解世界内在结构的视觉智能系统。未来的先进视觉模型,不应仅仅是识别图像中的物体,更应深入理解物体之间复杂的、层次化的关系网络。TARA在这条充满挑战的道路上,迈出了坚实而关键的一步。

构建 TARA 的研究团队

这项创新工作的主要完成者是北京大学王选计算机研究所的博士生何胡凌霄,他的研究方向聚焦于细粒度多模态大模型与视觉语言理解。在彭宇新教授的悉心指导下,他在CVPR、ICLR等计算机视觉与人工智能顶级会议上发表了多篇学术论文,并曾荣获国家奖学金等多项学术荣誉。

本论文的通讯作者彭宇新教授,是北京大学王选计算机研究所的博士生导师,同时是IEEE Fellow、CCF会士,国家杰出青年科学基金获得者。他在多媒体内容分析与计算机视觉领域深耕多年,发表了大量具有国际影响力的高水平学术论文,提出了“弱监督深度图像细粒度分类”等一系列创新方法,其带领的团队在多项国际权威评测与学术竞赛中屡获冠军。彭宇新教授的研究成果不仅在学术界享有盛誉,也在国家多个部委及头部互联网企业的实际业务中得到了广泛应用与验证。

来源:https://www.leiphone.com/category/ai/L6n8jWIl3BlejurT.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

北大彭宇新团队CVPR研究:多模态大模型如何理解物种关系
AI
北大彭宇新团队CVPR研究:多模态大模型如何理解物种关系

北京大学彭宇新团队提出TARA方法,通过将外部分类学知识与视觉表征对齐,使多模态大模型掌握类别间谱系关系。该方法提升了模型层级识别的准确性与一致性,增强了对未知类别的泛化能力,且计算开销小,为构建理解层次结构的视觉智能提供了新思路。

热心网友
05.16
90后教授攻克机器人抓取衣物难题,家庭应用提速在即
科技数码
90后教授攻克机器人抓取衣物难题,家庭应用提速在即

机器人站在衣柜前,急需找出那件藏在衣服堆里的蓝色衬衫。翻找间,刚叠好的衣服又散作一团。由北大长聘副教授&上纬启元首席科学家董豪老师带领团队正让服务机器人获得一项“管家级”技能:面对杂乱堆叠的衣物,它

热心网友
03.31
北大团队打造AI室内设计师:一句话生成3D场景
科技数码
北大团队打造AI室内设计师:一句话生成3D场景

这项由北京大学计算机科学学院牵头,联合慕尼黑工业大学、北京交通大学等多个顶级研究机构的研究成果,发表于2026年3月,论文编号为arXiv:2603 19598v1。有兴趣深入了解的读者可以通过这个

热心网友
03.30
北大系芯片黑马狂飙2000+ Tokens/s:OpenClaw架构如何实现性能截击
科技数码
北大系芯片黑马狂飙2000+ Tokens/s:OpenClaw架构如何实现性能截击

新智元报道编辑:桃子 好困【新智元导读】英伟达200亿美元「招安」Groq,推理芯片赛道一夜变天。但在大洋彼岸,一家北大系创业公司刚刚交出了自己的流片答卷。NVIDIA GTC 2026前夕,AI推

热心网友
03.10
从北大外语硕士到阿里最年轻P10:林俊屹的千问三年晋升路
科技数码
从北大外语硕士到阿里最年轻P10:林俊屹的千问三年晋升路

(文 陈济深 编辑 张广凯)在带领阿里通义千问(Qwen)狂奔三年后,32岁的阿里最年轻P10林俊旸按下了停止键。3月4日凌晨,千问技术负责人林俊旸在X平台发了一句话: "me stepping do

热心网友
03.04

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格
业界动态
iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格

iQOO手机官方今日正式宣布,iQOO 15T已开启全渠道预约。随着预约启动,官方预热海报也首次揭示了新机的侧边轮廓设计。 关于这款新机的更多细节,此前已有数码博主提前剧透。据称,iQOO 15T将延续自家Ultra系列的设计语言,采用标志性的透明风格方形摄像头模组。更引人注目的是其屏幕配置——据爆

热心网友
05.16
美团外卖五折优惠直送寝室无需下楼
业界动态
美团外卖五折优惠直送寝室无需下楼

期末复习在图书馆熬到深夜,突然下起暴雨,裹紧羽绒服还得冒雨下楼拿外卖;军训结束累得只想瘫倒,宿管阿姨却把骑手拦在宿舍区外;想和室友凑单改善伙食,又被复杂的满减、助力规则搞得晕头转向……这大概是许多大学新生的共同经历,差点以为“冲刺取餐”成了宿舍生存的必备技能。其实,只要掌握正确方法,完全能省去这些奔

热心网友
05.16
三星家电退出中国市场 电视显示器等产品停售
业界动态
三星家电退出中国市场 电视显示器等产品停售

一则来自三星(中国)投资有限公司的业务调整通知,在今日引发了广泛关注。通知的核心内容相当明确:为应对急剧变化的市场环境,三星电子决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 这意味着,一个曾经在中国家电市场占据重要地位的品牌,其消费端的产品销售画上了句号。当然,市场更关心的是,存量

热心网友
05.16
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片
业界动态
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片

关于一加下一代旗舰手机一加 16 的最新爆料信息,近期引发了数码圈的广泛关注。知名数码博主 @数码闲聊站 最新透露了一款代号为 SM8975(即骁龙 8 Elite Gen6 Pro 平台)的子品牌新机细节,结合其暗示的表情符号,这款新机极有可能就是备受期待的一加 16。 根据最新的爆料信息,一加

热心网友
05.16
三星家电全面退出中国市场销售
业界动态
三星家电全面退出中国市场销售

三星电子的一则公告,在市场上激起了不小的波澜。根据其官方发布的消息,为应对当前急剧变化的市场环境,公司经过慎重评估,决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 图为三星电子发布的公告截图 这意味着,消费者未来将无法在官方渠道购买到三星品牌的电视、显示器等家用电器。不过,对于已经购

热心网友
05.16