首页 游戏 软件 资讯 排行榜 专题
首页
AI
北大阿里提出UniLIP模型:CLIP拓展至重建生成编辑三大任务

北大阿里提出UniLIP模型:CLIP拓展至重建生成编辑三大任务

热心网友
22
转载
2025-11-03

UniLIP提出了一套创新的CLIP微调架构,通过分阶段重建训练与自蒸馏约束,在保持模型原有语义理解能力的同时,实现了卓越的图像细节重构性能。该架构能够直接替代MLLM(如InternVL)中的原始CLIP模块(如InternViT),且如此替换后不仅不会削弱甚至可能略微提升模型的语义理解能力。

本研究的作者团队来自北京大学和阿里通义万相实验室。论文第一作者汤昊是北京大学2024级博士生,曾参与发表多篇NeurIPS、CVPR、ICCV和ECCV等顶级会议论文,目前研究方向聚焦于统一的多模态理解与生成技术。指导教师王立威教授为北京大学智能学院教授,其团队曾荣获NeurIPS 2024和ICLR 2024最佳论文奖。

要实现统一的多模态模型,视觉表征必须兼顾高级语义理解与细粒度细节重建能力。早期VAE模型因语义表达能力不足而限制了理解性能。近期基于CLIP的统一编码器,在理解与重建之间必须找到平衡点:直接量化CLIP特征会损害语义理解能力;而为冻结的CLIP训练解码器,又因缺乏细粒度特征而难以精确重建。以RAE为例,它使用冻结的DINOv2进行重建,PSNR指标仅为19.23。

为了破解这一核心矛盾,UniLIP设计了创新的两阶段训练方案。第一阶段通过冻结CLIP视觉编码器,专注训练像素解码器与投影层,使其学会从固定特征中重建图像细节;第二阶段引入自蒸馏约束,在微调CLIP注入细节信息的同时,防止其语义特征偏离原始分布。这种设计使得模型在提升重建质量的同时,依然保持对图像内容的准确理解。UniLIP可直接替代InternVL等MLLM中的原始CLIP模块,甚至能在部分理解任务上实现小幅提升。

不同于RAE仅在ImageNet上进行验证,UniLIP进行了大规模生成与编辑任务训练。模型仅采用1B和3B参数量,就在GenEval(0.90)、WISE(0.63)和ImgEdit(3.94)等多项基准测试中取得了领先性能,其表现甚至超越了部分规模更大的模型。

方法细节

针对CLIP细节重建难题的创新解法

针对CLIP特征因细节缺失导致重建模糊的问题,UniLIP提出了一套创新的两阶段训练方案,旨在增强其像素级重建能力,同时不损害其卓越的语义理解力。该方案基于包含CLIP编码器、像素解码器及投影层的自编码架构。

第一阶段:解码器对齐。此阶段冻结CLIP参数,仅训练像素解码器和投影层,使其学习从固定的CLIP特征中重建图像。训练目标为:

第二阶段:自蒸馏微调。由于原始CLIP特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将联合训练CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:

其中表示原始CLIP特征,是微调后的CLIP特征。

通过此方案,UniLIP有效平衡了语义理解与像素重建的内在矛盾,其理解能力甚至在部分基准上得到增强。对于生成与编辑任务,UnLIP特征展现出三大核心优势:

(1)高保真压缩:实现32倍图像压缩,并能通过轻量级解码器高质量还原。对于生成与编辑任务,其表征带来三大核心优势:

(2)强文本对齐:继承CLIP的对齐能力,确保对文本指令的精准响应。

(3)完备特征表达:同时编码高级语义与像素细节,为高保真编辑提供完整信息支撑。

专为图像生成与编辑设计的双条件架构

UniLIP借鉴了MetaQuery范式,但突破了其在图像编辑任务中的信息瓶颈局限。传统方法仅使用固定数量的查询嵌入连接MLLM与扩散模型,这在传递包含丰富像素级细节的参考图像时常显得力不从心,往往导致编辑结果细节退化或内容不一致。

为此,UniLIP创新性地提出了双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块。这有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM专注于高级推理和意图理解,DiT则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。最终,UniLIP在图像生成与编辑任务上均实现了卓越性能。

实验结果

核心架构设计解析

UniLIP包含1B和3B两个模型变体,它们分别由InternVL3(1B/2B)与SANA(0.6B/1.6B)融合而成。在架构层面,UniLIP直接采用InternVL3的InternViT作为CLIP编码器,并结合DC-AE的像素解码器。连接器设计为6层,结构与LLM保持一致,并使用了256个可学习查询。

训练数据集构成分析

UniLIP的生成数据来源于BLIP3-o,包含38M预训练数据和60k指令微调数据。其编辑预训练数据源自GPT-Image-Edit-1.5M,指令微调数据则来自包含46K编辑数据的ShareGPT-4o-Image。

图像重建质量定量评估

在256x256分辨率下,UniLIP不仅超越了现有量化方法,其更高的下采样率还带来了生成效率优势。在448x448分辨率下,与使用扩散解码器的Emu2相比,UniLIP由于对CLIP进行开放式重建训练而具有显著优势。

多模态理解能力测评

UniLIP能够直接替换InternVL的视觉编码器进行理解能力测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同等规模下最佳的理解性能,并且超越了采用量化CLIP特征的更大模型。

图像生成质量可视化对比

在GenEval(0.90)和WISE(0.63)图像生成基准上,UniLIP凭借卓越的图文对齐能力,不仅超越了同规模模型,还达到了与更大模型相当的水平。

图像编辑效果客观评估

在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了当前先进模型。其强劲性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征优势,确保了编辑的精确性与非编辑区域的一致性。

可视化结果展示

在生成任务中,UniLIP能够根据用户指令生成美观且贴合提示的图像;在编辑任务中,UniLIP能够在精确修改图像的同时保持周边区域的一致性。

结论

通过精心设计的两阶段训练与自蒸馏约束,UniLIP有效解决了语义理解与像素细节保留之间的核心矛盾。此外,其创新的双条件架构无缝连接了MLLM与扩散模型,确保生成和编辑任务中的高保真与一致性。UniLIP在多个基准上展示的卓越性能,为下一代统一多模态模型提供了新的范式。

来源:https://www.51cto.com/article/828635.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

微软默认关闭Copilot警告:AI可能出错的提示很烦人
电脑教程
微软默认关闭Copilot警告:AI可能出错的提示很烦人

11月3日消息,AI模型如ChatGPT等在生成答案的底部,会附带“AI可能会出错”的提示,但微软近日宣布将对Microsoft 365 Copilot中的这一警示进行调整,默认情况下它将不再显示,

热心网友
11.03
斯坦福研究:AI用诽谤降低人际关系修复能力
AI
斯坦福研究:AI用诽谤降低人际关系修复能力

我们偏爱并信任的AI模型,恰恰是那些通过无条件肯定我们,从而损害我们亲社会行为的模型。 斯坦福、卡内基梅隆大学的一项研究证实,AI可能正在用一种极其隐蔽的方式,让我们变得更固执,更不愿意修复重要的人

热心网友
11.03
LLM能否替代数据科学家?DeepAnalyze告别低效数据分析
AI
LLM能否替代数据科学家?DeepAnalyze告别低效数据分析

来自人大与清华的研究团队推出DeepAnalyze —— 你的专属「数据科学家」。只需一个指令,它便能自动化分析你的数据、自主完成各类数据科学任务。 你是否还在为复杂的文件和海量数据而苦恼?是否希望

热心网友
11.03
清华团队析238篇遥感微调研究,提炼9大技术方向 | CVMJ
AI
清华团队析238篇遥感微调研究,提炼9大技术方向 | CVMJ

在大数据和大模型推动下,微调技术凭借成本低、效率高优势,成为应对小样本、长尾目标等复杂场景的利器。从早期全参数微调到参数高效微调(PEFT),再到如今融合多种PEFT技术的混合微调,遥感微调技术不断

热心网友
11.03
谷歌领衔撰写的群雄逐鹿AI史:史诗级科技角逐开启
AI
谷歌领衔撰写的群雄逐鹿AI史:史诗级科技角逐开启

在AI被普遍视为“浪费时间”的年代,佩奇在2000年就断言:“人工智能将是谷歌的终极版本。如果我们拥有终极搜索引擎,它将理解网络上的一切……这显然就是人工智能。” 最近AI圈可谓风起云涌。Meta的

热心网友
11.03

最新APP

梦魇
梦魇
动作冒险 11-03
掘地求财MOD作弊菜单
掘地求财MOD作弊菜单
休闲益智 11-03
群雄时代
群雄时代
棋牌策略 11-03
虚拟乒乓球
虚拟乒乓球
体育竞技 11-03
小小炼金术师
小小炼金术师
休闲益智 11-03

热门推荐

2025视频相机排行榜:帮你精准选择Vlog、直播与短视频设备
科技
2025视频相机排行榜:帮你精准选择Vlog、直播与短视频设备

随着视频内容与Vlog创作的普及,一台轻便、画质出色、功能针对性强的好相机,已成为众多创作者的刚需。无论是记录生活、旅行随拍,还是专业短视频、直播带货,选对设备往往能事半功倍。我们整理了一份2025

热心网友
11.03
iPhone 16为新机让路,Vision Pro亮相后价格直降
科技
iPhone 16为新机让路,Vision Pro亮相后价格直降

近日,苹果在正式直接上架了新款Vision Pro。相比于上一代在发布时大量的宣传,新款Vision Pro显得十分低调。值得一提的是,由于iPhone17新机的上市,导致iPhone16价格持续走

热心网友
11.03
三星S26参数全面解析 对比iPhone16改写性价比历史
科技
三星S26参数全面解析 对比iPhone16改写性价比历史

11月3日,有博主曝光了三星新款旗舰手机S26 Ultra的详细配置信息。爆料显示,S26 Ultra的机身厚度为7 9毫米,镜头凸起厚度为4 5毫米。比小米17 Pro Max 8 0毫米的机身厚

热心网友
11.03
币安交易所官网地址入口 币安binance交易平台app下载安装指南
web3.0
币安交易所官网地址入口 币安binance交易平台app下载安装指南

币安Binance是全球领先的加密货币交易平台之一,支持现货、合约、理财、Web3等多种功能。本文将为你介绍币安交易所官网访问入口及官方App下载安装流程,帮助你快速上手币安平台。

热心网友
11.03
魔兽世界军团再临Remix:耻辱之行任务速通攻略
手游攻略
魔兽世界军团再临Remix:耻辱之行任务速通攻略

魔兽世界军团再临remix版本上线了,在军团再临中玩家需要从头开始,重新做一遍任务,比如耻辱之行任务,那么魔兽世界军团再临remix耻辱之行任务怎么做?下面就给大家带来魔兽世界军团

热心网友
11.03