首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

热心网友
41
转载
2025-12-15

9 月 9 日消息,腾讯今日宣布混元图像模型 2.1 上新开源,支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”,输入“画一只可爱的猫”,会自动补全“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”;支持中英文双向转换,用中文说“画带‘Dream’的星空蛋糕”,也能精准呈现,避免“表达模糊”。

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt,支持多主体分别描述与精确生成。

Prompt:一幅由四个画格组成的卡通漫画,以 2x2 的网格形式排列,讲述了一只变色龙的难题。左上角:一只卡通风格的变色龙趴在一片宽大的、呈翠绿色的植物叶子上。它的皮肤是与叶片完全相同的绿色,并带有浅绿色的纹理细节,实现了完美的伪装,几乎与背景融为一体。变色龙的大眼睛好奇地转动着,身体姿态放松,场景背景是模糊的绿色丛林。右上角:同一只变色龙正从叶子边缘爬到一根粗糙的、呈深棕色的树枝上。它的身体颜色已经完全转变为与树枝一致的深棕色,皮肤表面模仿出树皮的纹理。它的头部微微抬起,嘴角上扬,眼神中流露出自豪和得意的神情。左下角:这只变色龙自信地走到一片铺在草地上的野餐布前。它的一只前爪已经踏上了野餐布,野餐布是由红白相间的方格图案构成。此时变色龙的身体仍然保持着棕色,它正准备完全走上这块图案复杂的布料,表情显得充满期待。右下角:变色龙完全站在了红白格子野餐布的中央。它的颜色系统出现了故障,身体表面在多种颜色和图案之间混乱地快速闪烁,包括霓虹粉的斑点、电光蓝的条纹和像素化的色块,完全无法匹配背景的格子图案。它的眼睛睁得滚圆,嘴巴大张呈惊恐的 O 形,身体周围出现了表示慌乱的动态线条和汗珠。这组图像整体呈现出线条清晰、色彩鲜明的四格漫画作品风格。

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定,减少了常见的文字错误与理解偏差。

Prompt:星空下,一个充满未来感的泳池,映照着深邃的宇宙。泳池表面闪耀着星云、旋转的星系和闪烁的星光。青色、洋红色和紫色的霓虹灯照亮了整个区域,营造出令人着迷的赛博朋克氛围。泳池上方,紫色和粉色的文字“Prompt Enhancer”漂浮在半空中,周围环绕着柔和的光晕,在水面上投射出文字“Prompt Enhancer”反射的光芒。背景是带有空灵光环和宇宙尘埃的遥远行星,增强了超现实梦幻的氛围。场景将时尚的现代建筑与超凡脱俗的科技设计相结合,营造出一种奇妙的感觉和未来主义的优雅。

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

混元图像模型 2.1 还支持生成各种风格,如真实感人物、漫画与搪胶手办等。

Prompt:在酒馆外面,一个卖报的小男孩带着报童帽,倚靠着一根大理石质地的罗马柱,罗马柱靠右,他穿着吊带裤,蹲在地上,背靠着柱子,面对着镜头,侧着耳朵,专注地倾听酒馆内传来的钢琴声。酒馆内部,一个少女背对着镜头,坐在老式木质钢琴前。扎着两条麻花辫,侧颜微微可见,高挺的鼻梁和微卷的发丝清晰可见。她身穿一件米白色的蕾丝连衣裙,正在弹奏钢琴。莫奈的印象派画面,营造出一种夏日浪漫宁静的氛围。

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

混元图像模型 2.1 还有以下亮点:

双通道文本编码器,同时使用通用和文字编码器:

视觉-语言多模态编码器,更好地理解场景描述、人物动作和细节需求。

多语言的 ByT5 文本编码器,增强模型的文字渲染能力。

VLM + 专家模型的结构化 Caption:

结构化 caption 提供多层次的语义信息,大幅提升模型在复杂语义上的响应能力。

创新性引入 OCR agent 和 IP RAG,补齐通用 VLM captioner 在密集文本和世界知识描述短板。

两阶段模型架构:

文生图模型:单双流网络架构,17B 模型参数。

Refiner 模型:采用类似图生图的条件生成结构,能显著减少畸形,同时进一步提升图像的质感和清晰度。

两阶段强化后训练:SFT 和 RL 两阶段后训练,自研 Reward Distribution Alignment 强化学习算法,创新性引入高质量图片作为 chosen 样本,强化效果稳定提升

高压缩率 VAE,大幅提升训练推理效率:

32 倍压缩率 VAE:dit 模型 token 输入数极大降低,对齐 VAE 与 dinov2 特征空间, 训练难度降低。2K 图生成耗时与同类模型 1K 图生成耗时持平。

多分辨率的 repa loss:用于加速模型收敛

meanflow 推理加速:首次在工业级模型上跑通 meanflow,推理步数由 100 步 --> 8 步、显著提升蒸馏效果

混元文本改写模型(PromptEnhancer):首个系统化的工业级改写模型,通过 SFT 训练和 GRPO 训练,使得文本生成的图像语义大幅度提升,同时提出了 AlignEvaluator 涵盖 6 大类 24 个细粒度考点的奖励模型,PromptEnhancer 支持同时中英文改写。

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

附混元图像模型 2.1 开源地址如下:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

来源:https://www.ithome.com/0/881/662.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19