首页 游戏 软件 资讯 排行榜 专题
首页
AI
西交大与A*STAR合作研究:AI多图生成如何保持一致性

西交大与A*STAR合作研究:AI多图生成如何保持一致性

热心网友
18
转载
2026-05-16

你是否遇到过这样的困扰:用AI生成角色形象时,第一张图令人惊艳,第二张就开始走样,第三张干脆“换了个人”?让它创作一套系列海报,单看每张都不错,但组合在一起却风格各异、难以统一。在绘制故事分镜时,人物形象更是飘忽不定,可能仅仅修改了服装颜色,角色的脸型也随之改变。

这些看似细微的“不一致”问题,在实际的工业化应用场景中却是致命的。无论是IP角色设计、品牌视觉系统构建、系列化内容生产,还是工业设计、医疗影像分析,其核心诉求从来不是某一张图的极致效果,而是整个序列图像在身份、风格、逻辑等多个维度上的高度稳定与统一。

问题的根源在于,当前主流的图像生成模型,其能力范式仍局限于“单次生成优化”。它们擅长将单张图画好,却无法理解哪些核心特征必须在跨图像的序列中保持恒定。简而言之,模型缺乏的不是“绘画技巧”,而是一种对跨图像关系的“稳定建模”能力。这正是生成式AI从单点炫技走向规模化、工业化落地所必须突破的关键瓶颈。

针对这一核心挑战,西安交通大学与新加坡A*STAR的研究团队开创性地提出了一种全新解决方案。他们没有沿用传统的单图评分或图文对齐思路,而是将一致性问题重新定义为“跨图像比较”的学习任务。其核心研究成果《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling》提出,通过构建一个基于成对比较的奖励模型,让AI学习人类在进行一致性判断时所依赖的相对关系和多维标准,再结合强化学习技术,将这种精准的判断能力反向赋能给图像生成过程,从而形成一个从“学会判断一致性”到“实现稳定生成”的完整技术闭环。

从「不会判断」到「稳定生成」:一条完整的技术证据链

整个研究的实验验证,构成了一条逻辑严密、数据扎实的技术演进证据链。

首先,团队通过基准测试对比发现,现有主流模型普遍缺乏真正的跨图像一致性理解能力。在权威的ConsistencyRank基准测试中,大模型Qwen2.5-VL-7B的准确率仅为0.344,甚至落后于传统方法CLIP-I(0.394)和DreamSim(0.403)。这揭示了一个关键事实:通用大模型虽具备强大的图文理解力,但在需要综合比较身份、风格、逻辑等多维因素的一致性判断专项任务上,存在明显短板。一致性,是一种需要专门训练才能获得的专项技能。

基于此洞察,研究团队成功训练了专用的PaCo-Reward模型。测试结果显示,该模型在ConsistencyRank上的准确率大幅提升至0.449,相比原模型提升超过10个百分点,其Spearman相关系数也达到0.288,显著优于所有对比方法。这表明,该模型在排序判断上更贴近人类的视觉直觉和评判标准。

在进一步的EditReward-Bench测试中,PaCo-Reward在一致性指标上达到0.709,整体指标高达0.751,不仅超越了所有开源对比方法,甚至接近GPT-5的顶级表现。这有力证明了该模型具备了优秀的跨任务泛化能力,而非对训练数据的简单记忆。

随后,研究人员将这一高性能奖励模型引入强化学习训练框架,在真实的生成任务中验证其效能。在Text-to-ImageSet(文本到图像集)生成任务中,模型的一致性指标整体提升了约10.3%到11.7%,在身份一致性、风格一致性、逻辑一致性等多个细分维度均有显著改善。在GEdit-Bench图像编辑任务中,语义一致性和提示跟随质量指标也持续提升。例如,在Qwen-Image-Edit模型上,整体分数从7.307提升至7.451,且在多语言设置下也表现出一致的改进趋势。这证明,该方法在显著提升生成一致性的同时,并未牺牲单张图像的生成质量。

在训练效率与优化稳定性方面,研究也取得了重要突破。采用创新的低分辨率训练策略后,以512分辨率训练约6小时即可达到1024分辨率训练约12小时的效果,显著降低了计算成本。同时,针对传统多奖励加权方法容易导致某一奖励主导优化、破坏平衡的问题,改进后的方法能将各项奖励的比例稳定控制在1.8倍以内,确保了多目标优化过程的平衡与稳定。

综合来看,这项研究不仅成功训练出能精准建模人类一致性判断的专用模型,更将其高效应用于生成模型的优化中,在保证训练效率与稳定性的前提下,实现了生成一致性的显著提升,形成了一个完整、可行且高效的技术闭环。

从可解释判断,到可控生成:分阶段技术路径详解

整个PaCo-RL技术路径可以清晰地划分为两个核心阶段:第一阶段攻克“如何精准判断一致性”,第二阶段实现“如何稳定生成一致性”。

第一阶段的核心挑战在于高质量数据的构建。一致性判断主观性强,涉及身份、风格、构图、逻辑等多个维度,难以用统一、绝对的规则进行标注。为此,团队设计了一套结合自动化生成与精细化人工标注的数据构建流程。

具体而言,他们首先利用现有生成模型构建了约2000条多样化的文本提示词,并筛选出708条具有高度代表性和挑战性的作为核心数据源。基于这些提示词,批量生成包含内部一致性的图像网格。关键创新在于“拆分与组合”策略:将每个图像网格划分为多个子图,并在不同网格的子图之间进行系统性组合,从而构造出海量具有不同一致性关系的图像对。这一方法从708个提示词和2832张基础图像出发,最终高效构造出33984个高质量的排序样本,极大地扩充了数据集规模与多样性。

随后,由6名经过培训的标注人员依据视觉直觉(而非刻板规则)对这些样本进行细致排序标注。为了适配模型训练,这些排序数据被进一步转换为成对比较的形式,即拆解为大量“图像A与图像B是否一致”的二分类判断样本,最终得到超过54624个高质量图像对。每个样本都配有详细的推理解释文本,极大地增强了数据的可解释性和模型的学习深度。

在模型架构设计上,研究团队摒弃了传统的“输入图像输出标量分数”的回归思路,创造性地将一致性判断建模为一个条件生成任务。在PaCo-Reward模型中,输入两张图像及对应文本,模型需要生成“Yes”或“No”的判断,并附上一段完整的推理过程。这种设计巧妙地将复杂的视觉判断问题转化为语言生成问题,既能直接利用视觉语言模型强大的生成与推理能力,也极大地提升了模型决策的可解释性与稳定性——模型必须同时学习判断结果及其背后的逻辑依据。

第二阶段聚焦于“如何生成”。研究引入了经典的强化学习框架:生成模型根据输入提示生成图像集,由训练好的PaCo-Reward模型进行评分,生成模型再根据评分信号(奖励)更新自身参数,形成一个类似人类通过反馈不断学习、迭代优化的闭环过程。

在此过程中有两个关键优化:一是分辨率解耦策略,即在训练奖励模型时使用低分辨率图像进行采样优化,在最终推理生成时再输出高分辨率图像,大幅降低了计算开销。二是奖励平衡策略,通过对波动范围较大的奖励信号进行动态压缩处理,有效解决了多目标优化中因奖励尺度差异而导致的训练偏移问题,确保了整个优化过程的稳定与收敛。

最终,在多图生成和图像编辑等多类任务上的综合验证表明,该方法在身份、风格、逻辑一致性上均有显著提升,并能智能地平衡局部细节修改与整体特征保持之间的关系。

从单点生成到关系建模:AI图像生成的范式演进

这项研究的价值,远不止于论文中技术指标的提升,它正在悄然改变我们使用AI进行视觉创作的底层体验与可能性。

首先,它精准命中了“多图一致性”这一长期制约AI创作实用化的核心痛点。过去,AI或许能生成一张令人惊叹的“孤品”,但无法胜任需要连续、稳定输出的系列化创作任务,如角色设计、品牌视觉系统、漫画分镜或游戏素材生产。这项研究让AI真正具备了“连续创作”和“系列化输出”的能力,推动AI绘画从“炫技玩具”走向“实用生产工具”。

其次,它引入了一种更接近人类认知习惯的学习机制——通过比较来学习,而非直接打分。这意味着模型变得更“懂”人类的审美偏好和主观判断标准,能更自然地理解“像不像”、“统一不统一”、“协调不协调”这类模糊概念,从而生成更符合创作者预期和商业要求的稳定结果。

再者,它通过一系列工程优化,切实推动了强化学习在图像生成领域的实用化进程。低分辨率训练、奖励平衡等机制,在显著提升效果的同时,大幅降低了计算成本和训练难度。这为该项能力更快地集成到实际AI绘画工具、设计软件中铺平了道路,未来普通用户有望直接体验到更稳定、更可控、更一致的图像生成效果。

从更宏观的视角看,这项研究构建了一种“生成-评价-优化”的智能闭环机制。未来的AI图像生成系统不再只是一个被动的、需要反复调试提示词的工具,它能在生成过程中进行“自我检查”、“自我评估”并持续优化。对用户而言,这意味着创作门槛的极大降低,AI能够自动理解并修正系列图像中的偏差,智能地逼近用户的创作意图,实现真正意义上的智能辅助创作。

构建PaCo-RL的研究团队

这篇重要论文的共同第一作者是平博文和贾成铕。贾成铕目前是西安交通大学计算机科学与技术学院的博士研究生(已进入博士阶段后期),师从罗敏楠教授,并与常晓军教授保持紧密合作研究,未来将加入腾讯混元大模型的“青云计划”。他曾在新加坡进行学术访问研究,并在上海人工智能实验室担任研究实习生。其研究方向长期聚焦于计算机视觉与多模态人工智能领域,特别是在视觉生成的一致性、可控性以及AI智能体相关问题上,已在本领域顶级会议和期刊如CVPR、AAAI、ACL等发表多篇学术论文。

论文的通讯作者钱航薇博士,目前在新加坡A*STAR(新加坡科技研究局)下属的前沿人工智能研究中心从事研究工作。她的研究方向广泛涵盖多模态大语言模型、面向科学研究的AI、生成式AI与智能体系统,以及可信与可解释人工智能等前沿方向,并在AAAI、IJCAI、KDD等国际顶级会议和期刊上发表了多项具有影响力的研究成果。

来源:https://www.leiphone.com/category/ai/7LLMb5d4vPqtDAIo.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

鬼泣动画主创回应识质存在动画化计划最新进展
游戏资讯
鬼泣动画主创回应识质存在动画化计划最新进展

知名制作人阿迪·尚卡尔透露,在卡普空发布新作后,他收到大量粉丝请求,希望将科幻游戏《识质存在》动画化。他认为该游戏因“不寻常且原创性十足”而备受关注。但目前他并无改编计划,而是选择专注于全新的原创项目,以探索更多叙事可能性。

热心网友
05.16
班迪与油印机新手攻略 操作技巧与通关玩法详解
游戏资讯
班迪与油印机新手攻略 操作技巧与通关玩法详解

《班迪与油印机》是一款融合平台跳跃与解谜的冒险游戏。攻略从基础操作讲起,详细介绍了前八关的核心玩法与技巧,包括利用特殊动作通过地形、应对各类机关与Boss战策略。游戏过程中可收集资源以升级能力,探索隐藏区域。其关卡设计富有创意,难度较高,但攻克后能获得显著成就感。

热心网友
05.16
异环赛车任务攻略:高效跑赢白杨的技巧解析
游戏攻略
异环赛车任务攻略:高效跑赢白杨的技巧解析

在《异环》游戏中,获取那台备受瞩目的AE86幽灵车外观,关键在于完成白杨的支线赛车挑战。许多玩家在此环节遇到困难,感觉对手速度难以超越。实际上,掌握正确技巧后,赢得比赛并不复杂。 异环白杨赛车任务通关技巧详解 获胜的核心策略可以总结为:把握弯道优势,主动实施碰撞。 白杨的车辆起步与直线加速性能确实出

热心网友
05.16
星星益智果酱怎么玩 游戏玩法与特色全解析
游戏攻略
星星益智果酱怎么玩 游戏玩法与特色全解析

《星星益智果酱》是一款即将上线的休闲手游,玩法简单直观。游戏通过介绍与实机画面展示核心内容,帮助玩家快速了解其特色与乐趣。

热心网友
05.16
抗性忽视机制详解与实战通关数据全解析
游戏攻略
抗性忽视机制详解与实战通关数据全解析

心魔15层需冰抗180、火抗220以应对高额元素伤害,并把握BOSS施法前摇。16层需优先集火“魅惑魔灵”以防混乱,并稳妥处理高伤“穿刺者”。17层需兼顾元素区域走位与快速击破回血核心,考验团队输出与生存综合能力。这三层逐级挑战生存、节奏与整体实力。

热心网友
05.16