ICCV 2025：港科与牛津推出AlignGuard，革新文生图模型对齐框架

首页

热心网友

转载

2025-10-31

当前文本到图像生成模型普遍面临安全防护不足的挑战，这使得用户可能无意识或故意地生成包含有害内容的图像，进而造成潜在滥用风险。AlignGuard 创新性地提出了一种基于直接偏好优化（DPO）的安全对齐方法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

本文由香港科技大学计算机科学方向的博士研究生刘润涛和陈弈杰共同完成，研究聚焦于多模态生成模型与偏好优化的前沿领域。

1. 背景介绍

随着文图生成模型在各行各业快速普及，其内置的有限安全防护机制往往难以有效防范用户生成有害图像内容。现有安全措施主要依赖于文本过滤或概念移除策略，只能从模型的生成能力中剔除少数几个特定概念。

在ICCV 2025会议上，AlignGuard推出了通过直接偏好优化训练文图生成模型的全新安全对齐框架。通过构建包含有害与安全图像文本对的数据集CoProV2，该研究使DPO技术能够规模化应用于文图生成模型的安全防护。AlignGuard的创新架构允许针对不同有害概念引入独立的安全专家模块，通过训练低秩适应（LoRA）矩阵来引导模型减少生成特定有害内容。

2. AlignGuard 安全对齐框架

这项工作的核心贡献在于提出面向扩散模型的可规模化安全对齐方案。通过生成针对安全内容的文图数据集，AlignGuard的训练框架能够在保持原始图像生成质量的同时，有效去除图片中的有害元素。

2.1 CoProv2 数据集构建

AlignGuard率先围绕多种有害概念，构建了包含安全和不安全的图像文本对数据集CoProV2。该数据集针对不同有害概念，利用大语言模型生成一系列具有相似语义的有害与安全提示词对，并为每个提示词生成对应的图像样本。

相较于现有的人造数据集如UD和I2P缺少文本数据对应图像，CoProV2在规模和完整性方面更具优势，能够提供高质量的文本-图像对应关系。同时该数据集在保留一定程度的原生内容基础上，专门优化了适用于直接偏好优化的安全对齐训练。

2.2 AlignGuard 的训练架构设计

针对CoProV2中不同的安全类别，AlignGuard运用直接偏好优化技术为各个安全类别分别训练专用的LoRA矩阵，涵盖"仇恨言论"、"成人内容"、"暴力场景"等多个类别。在训练过程中，每个专家模块专注于学习特定领域的安全特征，确保高效的概念移除效果。最终，这些独立的LoRA矩阵将被合并为单一矩阵，从而构建能够全面预防各类有害提示词的安全文图生成模型。

2.3 LoRA 专家合并策略

为实现不同安全专家模块的有效整合，AlignGuard基于各专家的信号强度进行权重分析，并以此制定合并策略将多个LoRA专家整合为单一模型，从而在计算效率与安全性之间达到最佳平衡。该合并方案充分考虑了不同安全类别之间的相互作用，确保融合后的模型在所有安全维度上都能保持稳定性能。

3. 实验结果

3.1 生成定量结果

AlignGuard在CoProV2有害概念移除任务中表现优异，其移除的有害概念数量比现有方法高出7倍，同时保持了图像生成质量与文本对齐程度。在未见数据集I2P和UD上也显著优于现有方案，表明该框架在面对新的有害概念时仍能保持稳健的安全性能。

3.2 生成定性结果

与未经安全对齐的基线模型相比，AlignGuard能够在包含有害词语的提示词上生成更加安全的图像内容。该安全对齐策略的精妙之处在于，仅针对有害元素进行精准去除，而不会过度影响图像的核心内容。

3.3 专家 LoRA 合并策略分析

相较于为每个安全概念单独训练专家模型并直接使用，AlignGuard展示了合并不同专家模型能够更有效地去除有害内容。

与加权平均等传统LoRA矩阵合并策略相比，AlignGuard的信号权重合并方案能够在有效降低有害内容生成的同时，保持模型的图像品质与图文对齐度。该合并策略有效平衡了不同安全专家之间的权重分配，避免专家间的冲突并最大化整体安全性能。

4. 总结

文本到图像生成模型在缺乏有效安全措施的情况下，确实存在被用户滥用的风险。AlignGuard提出的基于直接偏好优化（DPO）的安全对齐方案，为解决这一难题提供了创新思路。该框架的核心突破体现在三个方面：首先，将直接偏好优化技术规模化应用于文图生成模型的安全领域；其次，采用专家系统架构，针对不同有害图像类别训练专门的LoRA矩阵，然后通过模型信号强度构建权重并整合为单一LoRA，显著提升了计算效率；最后，构建了包含有害与无害图文对的数据集CoProV2，为直接偏好优化训练提供坚实基础。这种创新方法在保持模型生成质量的同时，能够移除比基准方法多7倍的有害概念。

来源:https://www.51cto.com/article/828467.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Python新星uv解析：如何重塑十年生态系统开发效率下一篇：人大清华DeepAnalyze：用大模型实现数据分析智能升级

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08