5月16日消息,腾讯今日正式发布了业内首个实现毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0)。该模型现已在腾讯混元游戏平台上开放体验,主要具备实时生图和超写实画质两大核心优势。
相较于前代模型,混元图像2.0的参数量级实现显著提升,得益于超高压缩倍率的图像编解码器与创新扩散架构,其出图速度明显快于行业领先模型。
在同类产品每张图通常需要5到10秒推理时间的情况下,混元图像2.0能够实现毫秒级实时响应,支持用户在输入文字或语音描述的同时即时生成图像,彻底改变了传统"输入-等待-查看"的交互模式。
除了生成速度突破,混元图像2.0在图像质量上也有显著提升。通过强化学习算法与海量人类美学知识对齐,模型生成的图像有效避免了常见AIGC内容中的"塑料感",在真实度、细节丰富度和实用性方面都表现出色。
在专业评估基准GenEval上,混元图像2.0对复杂文本指令的理解与生成准确率突破95%,远超同类模型表现。
提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角
腾讯表示,混元图像2.0创新引入多模态大语言模型作为文本编码器,配合自研结构化描述系统,不仅能理解字面意思,更能推测出用户期望的画面表达方式。
即使是蕴含多层语义的复杂描述,模型也能逐层解析,再通过画笔细腻呈现。
除了文字输入,混元图像2.0还支持语音直接输入提示词,系统会自动转写为文字并即时生成图像,非常适合直播解说、移动创作等实时场景。
用户还可上传草图作为参考,模型能自动识别线稿结构与构图逻辑,结合提示词内容补充光影、材质、背景等细节,快速扩展成完整图像。
混元图像2.0模型生成的效果展示:
人像摄影风格
动物特写
复古摄影
动漫风格
真实人物风格
