牛剑港大联合发布ELIP:多模态检索超CLIP,视觉语言预训练新突破
来自牛津大学VGG实验室、香港大学和上海交通大学的联合研究团队在最新论文中提出了一种创新方法,能够利用学术界的有限计算资源来强化视觉语言大模型的预训练性能,从而在图文检索任务中获得更精准的匹配效果。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
多模态图文检索作为计算机视觉与跨模态机器学习领域的重要任务,当前业内普遍采用CLIP/SigLIP等视觉语言大模型。这类模型经过海量数据预训练后,在零样本场景下展现出卓越的判别能力。
该论文已被IEEE国际多媒体内容索引大会接收,并荣获最佳论文提名。近期在爱尔兰都柏林举行的会议上,这项研究获得了学术界的广泛关注。

关键技术:大规模预训练模型;视觉语言模型;图像检索系统 项目主页:https://www.robots.ox.ac.uk/~vgg/research/elip/ 论文链接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf 代码仓库:https://github.com/ypliubit/ELIP
方法概述
下图直观展示了ELIP方法的架构设计。该方法的核心理念在于采用两阶段检索机制:首先通过传统的CLIP/SigLIP模型进行初步排序,随后对候选样本进行精细化重排。

在重排阶段,研究团队设计了一个轻量级的MLP映射网络,将文本特征转化为视觉域的可感知标记。这些标记被注入图像编码器后,使得模型在编码视觉信息时能够同步感知语言语义。经过重新编码的图像特征与文本特征进行对比时,同一查询语句能获得更优化的排序结果。该方法可适配CLIP/SigLIP/SigLIP-2/BLIP-2等主流视觉语言模型,分别形成ELIP-C/ELIP-S/ELIP-S-2/ELIP-B等变体。
学术研究的资源挑战
视觉语言大模型的预训练通常需要工业级计算资源,但这项研究提出的方法使得仅用两张GPU进行训练成为可能。其创新性主要体现在模型架构设计与训练数据构建两个方面。
核心创新:模型架构设计
在模型架构方面,庞大的图像编码器与文本编码器权重保持冻结,仅需训练由三层线性层与GeLU激活函数构成的MLP映射网络。
下图展示了ELIP-C与ELIP-S的训练流程。在训练过程中,每个批次的图文对输入模型后,文本特征会被映射到视觉特征空间,从而引导图像信息的编码过程。对于CLIP模型沿用InfoNCE损失函数,而SigLIP模型则采用Sigmoid损失函数,以此对齐文本特征与重新计算的图像特征。

下图呈现了ELIP-B的训练示意图。与CLIP/SigLIP类似,MLP映射网络将文本特征投影到视觉特征空间。独特之处在于,由文本引导生成的图像特征会输入Q-Former模块与文本进行交叉注意力计算,最终通过ITM头部预测图文匹配程度。ELIP-B训练时采用BLIP-2的BCE损失函数。

核心创新:训练数据构建
在训练数据层面,学术界进行大模型训练面临的主要挑战在于GPU数量有限,无法采用大规模批次进行训练,这可能导致模型分辨能力下降。而ELIP方法需要区分CLIP/SigLIP排序生成的困难样本,对模型判别力提出了更高要求。为解决这一难题,研究团队在训练时预先计算每张训练图片及其对应文字标题的CLIP特征,然后将特征相似的图文对聚集在一起形成困难样本训练批次。下图展示了聚合后的训练批次示例:首行样本的描述文字分别为“无底座的木制餐桌”“带折叠桌腿的木质餐桌”“金属底座配橄榄木桌面的桌子”“放置于沥青路面上的户外小桌”;第二行样本描述包括“山涧中漂浮的巨大蓝色冰体”“从悬崖崩落的大块冰川”“地面上碎裂的玻璃残片”“群山环抱的森林水域”。
创新评估基准
除在COCO、Flickr等标准测试集上进行评估外,研究团队还提出了两个新的分布外测试集:遮挡COCO和ImageNet-R。
在遮挡COCO数据集中,正样本包含文字描述的物体(通常被部分遮挡),负样本则不包含所述物体。对于ImageNet-R数据集,正样本包含文字描述的物体,但这些物体来自非常见领域,负样本则不含对应物体。下图展示了具体案例:首行为正样本,次行为负样本。在遮挡COCO中,正样本包含被遮挡的自行车,负样本不含自行车;在ImageNet-R中,正样本包含金鱼,负样本不含金鱼。

实验结果
如下表所示,应用ELIP方法后,CLIP/SigLIP/SigLIP-2在图像检索任务上的表现均实现显著提升,其中SigLIP系列模型甚至达到了与BLIP-2相近的水平。ELIP-B在BLIP-2上的应用也显著提升了模型性能,超越了最新的Q-Pert方法。

在分布外测试集上,ELIP系列模型均实现了零样本泛化能力的提升。若在对应领域进行微调——例如在COCO数据集上对遮挡COCO任务微调,在ImageNet数据集上对ImageNet-R任务微调,还能获得更显著的性能提升。这进一步表明ELIP方法不仅能增强预训练效果,还提供了一种高效的自适应机制。

通过可视化注意力图可观察到,当文本查询与图像内容相关时,ELIP能提升图像编码器对文本描述相关区域的关注度。

更多技术细节详见论文原文。
相关攻略
Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,
京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,
以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
国产 TOP5 手机厂商被曝联手豆包 打造全新 AI 手机 手机行业再迎重磅 AI 合作!今日,知名数码爆料博主 @数码闲聊站 抛出了“豆包 AI 手机”的议题,并透露其已从内部渠道确认:一家位列国产前五的头部手机厂商,已与字节跳动旗下 AI 产品“豆包”达成深度合作协议。这标志着,AI 手机助理的
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





