北大彭宇新团队CVPR研究：多模态大模型如何理解物种关系

首页

热心网友

转载

2026-05-16

多模态大模型在视觉理解领域的突破有目共睹，从简单的图像识别到复杂的视觉推理，其能力边界持续扩展。然而，当我们面对真实世界的复杂场景时，一个普遍存在的难题浮现出来：层级化结构。无论是生物学中的“界门纲目科属种”分类体系，还是电商商品、医疗诊断中的多级标签系统，现实世界的概念往往不是扁平排列的，而是构成了逻辑严密、层层嵌套的树状网络。

当前主流的视觉模型大多基于扁平化分类框架进行训练，在处理这类具有层级关系的任务时，常常显得“力不从心”——其预测结果可能在父类与子类之间产生逻辑矛盾，或者无法形成一条连贯、合理的分类路径。更具挑战性的是开放世界识别问题：当模型遇到一个训练数据中从未出现过的新类别时，它该如何应对？例如在生物多样性监测中，新物种的发现是常态，模型不能仅仅依赖记忆已知类别，更需要深刻理解类别之间的内在关联，从而进行合理的层次化推断。

针对这一系列核心挑战，北京大学王选计算机研究所彭宇新教授团队提出了一项创新性解决方案：TARA（Taxonomy-Aware Representation Alignment，分类学感知表征对齐）。这项研究的核心思路非常巧妙——既然模型内部缺乏层级结构知识，那就从外部进行“知识注入”。团队利用生物基础模型中已经内化的、结构化的分类学知识，将其与多模态大模型的中间视觉表征进行对齐学习。通过这种方式，模型不仅能识别物体本身，还能在表征层面“理解”它们之间的谱系关系，从而在层级分类任务中表现得更具逻辑一致性、更智能，并且显著提升了对未知类别的泛化识别能力。

TARA 如何赋能多模态模型理解「层级结构」？

为了全面验证TARA方法的有效性，研究团队在多个权威数据集和综合评价指标上进行了系统实验，结果令人瞩目。

首先，在已知类别的层级识别能力测试中，团队选取了包含完整生物分类层级的iNaturalist-2021数据集。实验数据表明，引入TARA方法后，模型的层级识别性能获得了稳定提升。以Qwen3-VL-2B模型为例，在植物子集上，其层级一致性准确率从9.23%提升至12.78%，叶节点分类准确率也从31.96%提升到32.66%。对于参数规模更大的Qwen2.5-VL-3B模型，提升效果更为显著，在动物子集上的层级一致性准确率达到了24.02%。这些结果证明，TARA能够帮助不同规模的视觉语言模型更好地掌握类别间的层级逻辑关系。

那么，模型是真正学会了“层次化推理”，还是仅仅“记忆”了训练数据的模式？为了回答这个关键问题，团队在TerraIncognita数据集上进行了开放世界测试，该数据集包含许多稀有乃至科学界尚未正式记录的物种。结果极具说服力：在未知类别识别场景下，模型在“科”和“目”等高层级分类上的F1分数依然有显著提升。这充分说明，TARA赋予模型的不仅仅是记忆能力，更是一种基于层级关系的深度泛化与推理能力。

为了深入探究TARA的作用机制，研究人员进行了线性探针分析实验。他们提取了模型学习到的视觉特征，并用简单的线性分类器进行测试。结果显示，采用TARA方法后，视觉特征的判别力明显增强，分类准确率从基线模型的13.30%提升到了18.30%。这从表征层面证实，TARA确实能引导模型学习到更具区分度且隐含结构信息的视觉表示。

这种对层级关系的深刻理解，甚至能迁移到更复杂的多模态任务中。在需要结合图像信息与外部知识的ImageWikiQA视觉问答数据集上，引入TARA的模型准确率达到了51.40%，表现优于仅进行强化学习微调的基线模型。这表明，对世界进行层次化认知，是通向更高阶视觉智能的关键基石。

最后，在训练效率方面，TARA也展现出了明显优势。实验发现，在训练早期阶段，采用TARA的模型性能就迅速超越了基线模型，并且能以更快的速度收敛到更优状态。由于该方法仅增加了少量的投影层参数，其带来的额外计算开销微乎其微，堪称一种“高性价比”的模型增强策略。

从数据到训练：一套严谨的层级视觉识别实验框架

这项研究的严谨性与系统性，体现在其精心设计的完整实验框架上。从数据集构建、模型训练策略到评价指标体系，每一个环节都紧密围绕层级视觉识别的核心问题展开。

在数据集选择上，团队选取了三个具有不同侧重点的基准：iNaturalist-2021用于评估已知类别的层级识别性能；TerraIncognita用于挑战开放世界中的未知类别识别；ImageWikiQA则用于评测复杂的、需要知识融合的视觉问答能力。

模型训练巧妙地融合了两种关键思想。首先是“无思维链”强化学习微调，研究人员发现，在层级分类任务中，让模型直接输出答案比强制其进行显式思维链推理效果更佳。在此基础上，引入了核心的TARA表征对齐方法。该方法包含两个关键对齐：一是视觉表示对齐，将生物基础模型提取的、蕴含丰富分类学知识的图像特征，与多模态模型的视觉特征在共享的潜空间中对齐；二是标签表示对齐，将层级分类标签的语义嵌入与模型生成答案的语义进行对齐。通过这种交替优化的训练策略，模型在优化主任务目标的同时，潜移默化地吸收并内化了层级结构知识。

评价体系也经过了周密设计，不再仅仅关注最终的叶节点分类准确率。层级一致性准确率要求模型预测的整条分类路径必须从根节点到叶节点完全正确；点重叠比率则统计预测路径中正确分类节点的比例；严格点重叠比率要求更高，预测正确的节点必须在路径上连续出现。这套组合评价指标，能够全方位、多维度地衡量模型对复杂层级结构的理解与遵从程度。

TARA 的核心价值：让视觉模型学会「推理未知」

总体而言，TARA研究的意义超越了其具体的技术方法，为多模态大模型的未来发展提供了新的思路与方向。

它精准地击中了当前视觉大模型在层级识别任务上的核心痛点，通过知识引导的表征对齐方式，显著提升了模型预测的逻辑一致性与可靠性。更重要的是，它为攻克“开放世界识别”这一长期挑战提供了一条切实可行的技术路径——即让模型学会利用已知的层级关系网络去合理推断未知实体，而不仅仅是进行模式匹配。

从方法论的角度看，这种通过中间表征对齐来注入领域先验知识的方式，具有很强的可扩展性与普适性。其核心思路可以轻松迁移到医学影像分析（疾病分类）、电子商务（商品品类管理）、知识图谱构建（实体层级关系）等其他同样严重依赖层级化结构的垂直领域，为行业知识与通用大模型的深度融合打开了新的大门。

从长远愿景来看，这项研究指向了一个更为宏大的目标：构建真正理解世界内在结构的视觉智能系统。未来的先进视觉模型，不应仅仅是识别图像中的物体，更应深入理解物体之间复杂的、层次化的关系网络。TARA在这条充满挑战的道路上，迈出了坚实而关键的一步。

构建 TARA 的研究团队

这项创新工作的主要完成者是北京大学王选计算机研究所的博士生何胡凌霄，他的研究方向聚焦于细粒度多模态大模型与视觉语言理解。在彭宇新教授的悉心指导下，他在CVPR、ICLR等计算机视觉与人工智能顶级会议上发表了多篇学术论文，并曾荣获国家奖学金等多项学术荣誉。

本论文的通讯作者彭宇新教授，是北京大学王选计算机研究所的博士生导师，同时是IEEE Fellow、CCF会士，国家杰出青年科学基金获得者。他在多媒体内容分析与计算机视觉领域深耕多年，发表了大量具有国际影响力的高水平学术论文，提出了“弱监督深度图像细粒度分类”等一系列创新方法，其带领的团队在多项国际权威评测与学术竞赛中屡获冠军。彭宇新教授的研究成果不仅在学术界享有盛誉，也在国家多个部委及头部互联网企业的实际业务中得到了广泛应用与验证。