1月26日,腾讯混元宣布,旗下混元图像3.0图生图(HunyuanImage+3.0-Instruct)模型正式发布,该模型新增了图片编辑与多图融合等实用功能。
该模型已在内容创作平台同步上线。用户可借助这一强大工具,轻松完成表情包制作、虚拟人物合拍、社交内容分享、电商海报设计、游戏角色定制、创意图片生成等一系列创作任务。

据悉,混元图像3.0图生图模型总参数量达800亿,采用了混合专家(MoE)架构,基于混元图像3.0的原生多模态架构基础模型构建,并引入了图生图任务所需的多样化训练数据。

通过指令微调和后训练技术,模型得以实现对用户输入图片和编辑指令的深度解析与处理。
混元图像3.0图生图模型在指令遵循方面表现出色,生成的图片一致性高、真实感强、情感表现力佳,图片生成速度也得到了显著提升。
模型收到用户输入的图片和提示词后,会先深入理解图像内容本身,再结合用户的文字指令进行推理。
模型会推理出需要进行编辑的具体区域、详尽的操作步骤,以及需要保留的图像部分,从而形成一套更为精细的编辑指令,最终输出令人满意的图片效果。
据了解,混元图像3.0图生图支持多样化的图片编辑与多图融合能力,例如图片元素的增、删、改、风格变换、老照片修复、人物与文字的修改等。此外,还能将多张照片中的人物或元素提取出来,合成新的合影或生成全新图片。
在数据层面,混元团队通过挖掘图像、视频原始数据并结合专家网络合成的方式,构建了千万量级的图生图数据集,覆盖超过80项任务,并在持续训练阶段注入这些数据,使得模型掌握了基础的编辑功能。
同时,混元团队进一步为图生图数据构造了思维链,让模型学会先分析用户图像和意图,输出更加详细的编辑指令,从而提升最终编辑效果。
在后期训练阶段,混元图像3.0图生图采用了自研的MixGRPO算法,结合奖励模型进行多轮迭代,高效对齐用户偏好,大幅提升了模型对指令的响应准确度,以及非编辑区域内容的一致性。







