端侧图像漫画风编辑模型MNN-Sana-Edit-V2详解

首页

AI资讯

热心网友

转载

2026-05-28

想在手机上快速将照片转换为漫画风格，同时确保图片数据完全本地处理、不上传云端？近期，淘宝Meta团队与杭州电子科技大学联合发布的MNN-Sana-Edit-V2端侧图像编辑大模型，提供了一个高效且保护隐私的解决方案。该模型能够在iPhone 17 Pro上仅用约15秒完成一张512×512图片的风格转换，速度相比常见的云端服务提升约2.5倍，所有计算均在设备本地完成，兼顾了处理效率与数据安全。

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

该模型基于Sana与MetaQuery的前沿学术成果构建，其核心创新在于巧妙地“借用”了大语言模型的语义理解能力。它采用Qwen3-0.6B作为冻结的预训练大语言模型来解析文本指令，再通过一套名为“可学习查询”的参数与“连接器”模块，将文本语义精准地“翻译”并传递给图像生成部分。整个架构融合了线性DiT、深度压缩自编码器等高效设计，最终通过MNN推理框架进行4/8比特量化，成功部署至移动终端。目前，该功能已集成于MNN Chat应用内，相关代码与模型权重已在GitHub、HuggingFace及ModelScope平台全面开源。

网络框架设计

系统架构设计

MNN-Sana-Edit-V2的整体框架继承了Sana图像生成模型，但其精髓在于引入了MetaQuery论文中的“可学习查询”机制。您可以将其理解为一套智能的“提问模板”：一组可训练的参数，负责向那个参数冻结、知识渊博的Qwen3-0.6B大模型提出精准问题，从而提取出最适于指导图像生成的语义条件。

具体而言，整个系统由以下关键组件串联协作：

预训练大语言模型 (Qwen3-0.6B)：参数保持冻结，专职负责深度理解用户输入的文本提示词。
可学习查询：一组256维的可训练参数，充当连接文本理解与图像生成的“智能桥梁”。
连接器模块：负责将大语言模型输出的语义表示，对齐并转换到图像生成模型所能理解的输入空间。
参考图像：用户提供的待编辑原始图片。
噪声：输入的高斯噪声，作为图像生成过程的起点。
DiT模块：核心的扩散变换器生成器，负责将噪声与参考图的潜在特征相结合，通过迭代去噪过程最终输出编辑后的图像。

核心技术详解

可学习查询：连接理解与生成的智能桥梁

可学习查询的本质，是让模型自主学会“提出正确的问题”。它作为一组可训练参数，通常以正态分布初始化。在实际推理中，这组查询向量会与文本嵌入向量一同输入给大语言模型。模型最终输出的最后N个隐藏状态，即被视为提取出的生成条件。在当前方案中，N被设定为256，这是在生成效果与计算效率之间取得平衡的经验值。

连接器模块：实现跨模态语义对齐

仅有“问题”和“答案”并不足够，还需要一个高效的“翻译官”。连接器模块正是扮演这一角色，它将大语言模型“语言空间”的语义，精准映射到扩散变换器“图像空间”的特征表示。其内部设计包含两部分：一个采用Transformer架构的连接器网络，用于高效提取与融合信息；一个简单的线性投影层，负责将特征维度对齐至扩散变换器的输入要求。

深度压缩自编码器

为适应端侧设备有限的算力，模型在图像编码阶段进行了大幅压缩。传统自编码器通常压缩8倍，而Sana网络采用了更为激进的32倍压缩设计。这意味着潜在表示所需的令牌数量大幅减少，直接带来了训练与推理速度的双重提升，非常适合移动设备部署。

线性扩散变换器

注意力机制是Transformer的核心，但其计算复杂度随序列长度呈平方级增长，是端侧部署的主要瓶颈。Sana论文的关键创新之一，便是将标准扩散变换器中的注意力机制全部替换为线性注意力。这一改进将计算复杂度降至线性级别，显著加速了推理过程，且经实验验证，图像生成质量并未因此下降。

混合前馈网络模块

为了更有效地捕捉图像的局部细节信息，模型在传统前馈网络的基础上进行了优化。混合前馈网络模块引入了深度可分离卷积，具体由倒残差块、3×3深度卷积和门控线性单元构成。这一设计还有一个额外优势：它能够替代传统的位置编码，实现“无位置编码”的效果，进一步简化了模型结构。

文本编码器：Qwen3-0.6B

在文本理解器的选择上，团队并未沿用Sana原论文中的Gemma-2B，而是选用了参数量更小的Qwen3-0.6B。这一方面减小了模型体积，另一方面，Qwen在中文提示词的理解上表现出更强的能力，更贴合实际应用场景的需求。

当然，直接使用仅解码器架构的大语言模型也带来了挑战。其文本嵌入层的数值范围通常较大，直接沿用传统图像生成模型的训练方案容易导致数值不稳定。为此，团队借鉴了Sana的解决方案，增加了RMSNorm层来归一化文本嵌入，并引入了一个可学习的缩放因子，从而确保了训练过程的平稳进行。

参考图像潜在表示

既然是图像编辑而非从零生成，保留原图的结构信息就至关重要。在模型中，参考图像会先通过变分自编码器的编码器转换为潜在表示，再输入给扩散变换器网络。这个“参考潜在表示”在整个去噪生成过程中持续提供结构引导，确保了编辑后的图像与原图在构图和轮廓上保持一致。

训练策略

为了让模型掌握“依据参考图进行修改”这项复杂技能，训练过程被精心设计为三个阶段：

第一阶段：预训练对齐 目标是让大语言模型学会如何配合图像生成任务。此阶段仅训练可学习查询和连接器模块的参数，使用约200万文本-图像对训练10万步，初步建立文本与图像间的语义关联。
第二阶段：图像生成微调 在第一阶段的基础上，放开扩散变换器图像生成模块的参数进行联合训练。使用内部收集的6万对数据训练约1万步，让模型掌握根据文本生成图像的核心能力。
第三阶段：图像编辑精调 这是最终的精加工阶段。在第二阶段模型的基础上，引入参考图像作为额外输入条件进行训练。使用约1万对图像编辑数据训练10万步，使模型精准掌握“按图修改”的编辑能力。

MNN 端侧部署优化

模型转换与量化压缩

将PyTorch训练好的模型部署到手机端，需要经过格式转换与模型压缩。流程上，模型首先被转换为ONNX中间格式，再通过MNN转换工具变为端侧可用的格式。得益于MNN对ONNX算子的广泛支持，这一转换过程较为顺畅。

真正的性能提升关键在于量化策略。MNN-Sana-Edit-V2的推理流程涉及大语言模型、变分自编码器编解码器、扩散变换器等多个子模型。通过差异化的量化策略，在保证生成效果不明显损失的前提下，大幅减少了内存占用并提升了推理速度。具体而言，对计算密集的预训练大语言模型采用了4比特非对称量化，而对其他模型则采用8比特量化，从而在性能与效果间找到了最佳平衡点。

真机性能实测数据

理论需经实践检验。团队在多种主流机型上测试了512x512图像编辑的耗时，结果如下：

操作系统	机器型号	芯片版本	生成图片整体耗时(s)
iOS	iPhone 17 Pro (2025年9月发布)	A19 Pro	14.7
iOS	iPhone 16 Pro (2024年10月发布)	A18 Pro	18
iOS	iPhone 15 Pro (2023年9月发布)	A17 Pro	20
Android	一加13 (2024年10月发布)	Snapdragon 8 Elite	45
Android	Xiaomi 12 Pro (2021年12月发布)	Snapdragon 8 Gen 1	62