首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
端侧图像漫画风编辑模型MNN-Sana-Edit-V2详解

端侧图像漫画风编辑模型MNN-Sana-Edit-V2详解

热心网友
58
转载
2026-05-28

想在手机上快速将照片转换为漫画风格,同时确保图片数据完全本地处理、不上传云端?近期,淘宝Meta团队与杭州电子科技大学联合发布的MNN-Sana-Edit-V2端侧图像编辑大模型,提供了一个高效且保护隐私的解决方案。该模型能够在iPhone 17 Pro上仅用约15秒完成一张512×512图片的风格转换,速度相比常见的云端服务提升约2.5倍,所有计算均在设备本地完成,兼顾了处理效率与数据安全。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

该模型基于Sana与MetaQuery的前沿学术成果构建,其核心创新在于巧妙地“借用”了大语言模型的语义理解能力。它采用Qwen3-0.6B作为冻结的预训练大语言模型来解析文本指令,再通过一套名为“可学习查询”的参数与“连接器”模块,将文本语义精准地“翻译”并传递给图像生成部分。整个架构融合了线性DiT、深度压缩自编码器等高效设计,最终通过MNN推理框架进行4/8比特量化,成功部署至移动终端。目前,该功能已集成于MNN Chat应用内,相关代码与模型权重已在GitHub、HuggingFace及ModelScope平台全面开源。

网络框架设计

系统架构设计

MNN-Sana-Edit-V2的整体框架继承了Sana图像生成模型,但其精髓在于引入了MetaQuery论文中的“可学习查询”机制。您可以将其理解为一套智能的“提问模板”:一组可训练的参数,负责向那个参数冻结、知识渊博的Qwen3-0.6B大模型提出精准问题,从而提取出最适于指导图像生成的语义条件。

具体而言,整个系统由以下关键组件串联协作:

  1. 预训练大语言模型 (Qwen3-0.6B):参数保持冻结,专职负责深度理解用户输入的文本提示词。
  2. 可学习查询:一组256维的可训练参数,充当连接文本理解与图像生成的“智能桥梁”。
  3. 连接器模块:负责将大语言模型输出的语义表示,对齐并转换到图像生成模型所能理解的输入空间。
  4. 参考图像:用户提供的待编辑原始图片。
  5. 噪声:输入的高斯噪声,作为图像生成过程的起点。
  6. DiT模块:核心的扩散变换器生成器,负责将噪声与参考图的潜在特征相结合,通过迭代去噪过程最终输出编辑后的图像。

核心技术详解

可学习查询:连接理解与生成的智能桥梁

可学习查询的本质,是让模型自主学会“提出正确的问题”。它作为一组可训练参数,通常以正态分布初始化。在实际推理中,这组查询向量会与文本嵌入向量一同输入给大语言模型。模型最终输出的最后N个隐藏状态,即被视为提取出的生成条件。在当前方案中,N被设定为256,这是在生成效果与计算效率之间取得平衡的经验值。

连接器模块:实现跨模态语义对齐

仅有“问题”和“答案”并不足够,还需要一个高效的“翻译官”。连接器模块正是扮演这一角色,它将大语言模型“语言空间”的语义,精准映射到扩散变换器“图像空间”的特征表示。其内部设计包含两部分:一个采用Transformer架构的连接器网络,用于高效提取与融合信息;一个简单的线性投影层,负责将特征维度对齐至扩散变换器的输入要求。

深度压缩自编码器

为适应端侧设备有限的算力,模型在图像编码阶段进行了大幅压缩。传统自编码器通常压缩8倍,而Sana网络采用了更为激进的32倍压缩设计。这意味着潜在表示所需的令牌数量大幅减少,直接带来了训练与推理速度的双重提升,非常适合移动设备部署。

线性扩散变换器

注意力机制是Transformer的核心,但其计算复杂度随序列长度呈平方级增长,是端侧部署的主要瓶颈。Sana论文的关键创新之一,便是将标准扩散变换器中的注意力机制全部替换为线性注意力。这一改进将计算复杂度降至线性级别,显著加速了推理过程,且经实验验证,图像生成质量并未因此下降。

混合前馈网络模块

为了更有效地捕捉图像的局部细节信息,模型在传统前馈网络的基础上进行了优化。混合前馈网络模块引入了深度可分离卷积,具体由倒残差块、3×3深度卷积和门控线性单元构成。这一设计还有一个额外优势:它能够替代传统的位置编码,实现“无位置编码”的效果,进一步简化了模型结构。

文本编码器:Qwen3-0.6B

在文本理解器的选择上,团队并未沿用Sana原论文中的Gemma-2B,而是选用了参数量更小的Qwen3-0.6B。这一方面减小了模型体积,另一方面,Qwen在中文提示词的理解上表现出更强的能力,更贴合实际应用场景的需求。

当然,直接使用仅解码器架构的大语言模型也带来了挑战。其文本嵌入层的数值范围通常较大,直接沿用传统图像生成模型的训练方案容易导致数值不稳定。为此,团队借鉴了Sana的解决方案,增加了RMSNorm层来归一化文本嵌入,并引入了一个可学习的缩放因子,从而确保了训练过程的平稳进行。

参考图像潜在表示

既然是图像编辑而非从零生成,保留原图的结构信息就至关重要。在模型中,参考图像会先通过变分自编码器的编码器转换为潜在表示,再输入给扩散变换器网络。这个“参考潜在表示”在整个去噪生成过程中持续提供结构引导,确保了编辑后的图像与原图在构图和轮廓上保持一致。

训练策略

为了让模型掌握“依据参考图进行修改”这项复杂技能,训练过程被精心设计为三个阶段:

  • 第一阶段:预训练对齐 目标是让大语言模型学会如何配合图像生成任务。此阶段仅训练可学习查询和连接器模块的参数,使用约200万文本-图像对训练10万步,初步建立文本与图像间的语义关联。
  • 第二阶段:图像生成微调 在第一阶段的基础上,放开扩散变换器图像生成模块的参数进行联合训练。使用内部收集的6万对数据训练约1万步,让模型掌握根据文本生成图像的核心能力。
  • 第三阶段:图像编辑精调 这是最终的精加工阶段。在第二阶段模型的基础上,引入参考图像作为额外输入条件进行训练。使用约1万对图像编辑数据训练10万步,使模型精准掌握“按图修改”的编辑能力。

MNN 端侧部署优化

模型转换与量化压缩

将PyTorch训练好的模型部署到手机端,需要经过格式转换与模型压缩。流程上,模型首先被转换为ONNX中间格式,再通过MNN转换工具变为端侧可用的格式。得益于MNN对ONNX算子的广泛支持,这一转换过程较为顺畅。

真正的性能提升关键在于量化策略。MNN-Sana-Edit-V2的推理流程涉及大语言模型、变分自编码器编解码器、扩散变换器等多个子模型。通过差异化的量化策略,在保证生成效果不明显损失的前提下,大幅减少了内存占用并提升了推理速度。具体而言,对计算密集的预训练大语言模型采用了4比特非对称量化,而对其他模型则采用8比特量化,从而在性能与效果间找到了最佳平衡点。

真机性能实测数据

理论需经实践检验。团队在多种主流机型上测试了512x512图像编辑的耗时,结果如下:

操作系统 机器型号 芯片版本 生成图片整体耗时(s)
iOS iPhone 17 Pro (2025年9月发布) A19 Pro 14.7
iOS iPhone 16 Pro (2024年10月发布) A18 Pro 18
iOS iPhone 15 Pro (2023年9月发布) A17 Pro 20
Android 一加13 (2024年10月发布) Snapdragon 8 Elite 45
Android Xiaomi 12 Pro (2021年12月发布) Snapdragon 8 Gen 1 62

作为对比,同类云端图像风格转换方案(例如基于API的吉卜力风格生成)的耗时通常在38-45秒。这意味着,在iPhone 17 Pro上,本地端侧模型实现了约2.5倍的提速,优势明显。

运行要求与使用最佳实践

要流畅运行该模型,设备需要满足一定的硬件要求:运行时内存占用约为5.5GB,建议iOS设备为A16芯片及以上,Android设备为骁龙8系列及以上。

为了获得最佳的漫画风格转换效果,这里提供几个实用建议:

  • 输入图像:尽量使用正方形构图图片,非正方形图片可能导致生成效果下降。内容上,单张正面人像照片效果最佳,多人合影或非人物场景的效果可能不尽如人意。
  • 输出分辨率:当前模型固定输出512x512分辨率的图片。
  • 提示词:模型流程已内置优化后的固定风格提示词,用户无需额外设置,自行修改反而可能影响生成效果。
  • 生成步数:建议使用默认的10步。步数过少会影响图像质量,增加步数则对效果提升不明显,只会延长生成时间。
来源:https://www.53ai.com/news/MultimodalLargeModel/2026042253481.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌Gemini 3.1 Pro深夜发布 性能震惊业界
AI资讯
谷歌Gemini 3.1 Pro深夜发布 性能震惊业界

昨天,Google 正式发布了 Gemini 3 1 Pro。表面上看是一次常规迭代,但数据公布后,业内许多人感到惊讶——推理能力几乎翻倍,专业领域表现直逼顶级竞品,价格却保持不变。简单来说,这是一次“加量不加价”的精准打法。 先看几个核心指标:ARC-AGI-2 基准测试得分暴涨 146%,从 3

热心网友
05.28
AI软件全称的深度解析与未来发展趋势探讨
AI教程
AI软件全称的深度解析与未来发展趋势探讨

人工智能不仅是技术名词,更代表一个时代。其核心算法驱动技术发展,市场规模持续扩大,企业应用广泛提升效率。伴随应用深入,数据隐私与算法公平等伦理问题凸显。从图灵测试起,AI概念逐步演化,未来将更趋向多元融合与个性化发展,持续重塑工作与生活。

热心网友
05.28
彻底告别传统Prompt编程方式,Spec Mode开启AI编程全新范式
AI资讯
彻底告别传统Prompt编程方式,Spec Mode开启AI编程全新范式

面向复杂系统的SpecMode正成为AI编程新范式。它强调先撰写结构化功能规范,明确目标、边界与约束,再驱动AI分阶段生成代码。该模式通过前置规划解决起点偏差,以书面文档避免上下文坍塌,并将决策固化以确保过程可控,尤其适用于新系统搭建、大规模重构等高稳定性工程场景。

热心网友
05.28
AI PPT生成器提升演示文稿专业效果的方法
AI教程
AI PPT生成器提升演示文稿专业效果的方法

掌握PPT生成器AI,轻松提升演示效果制作PPT早已不是简单地把文字和图片堆砌在一起。如今的演示文稿,更像是一把能清晰传达想法、生动展示内容的利器。而PPT生成器AI的出现,让专业级的演示文稿变得触手可及——无需苦学设计,无需熬夜排版。下面几个实用技巧,能帮你充分释放它的潜力。方法一:选择合适的模板

热心网友
05.28
AI教育应用与教师角色探索三篇
AI教程
AI教育应用与教师角色探索三篇

篇报告:AI在教育中的应用我记得之前分享过一个观点:AI的到来,正在碘伏我们对教育这件事的传统认知。最明显的改变是什么?个性化学习体验。简单来说,AI系统会像个聪明的观察者,分析每个学生的学习习惯和成绩数据,然后量身定制专属的学习计划。这样一来,学生不再是课堂上被动听讲的听众,而是真正参与到自己学习

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28