Playground v3发布：240亿参数文生图模型，深度融合LLM超越人类

时间：2026-07-03 15:39

文生图参数量升至240亿，Playground v3发布：深度融合LLM，图形设计能力超越人类过去一年多，文本到图像生成模型的技术路线发生了显著转变——从基于UNet的传统架构，逐步过渡到Transformer体系。近日，Playground Research发布了新一代模型Playground

文生图参数量升至240亿，Playground v3发布：深度融合LLM，图形设计能力超越人类

过去一年多，文本到图像生成模型的技术路线发生了显著转变——从基于UNet的传统架构，逐步过渡到Transformer体系。近日，Playground Research发布了新一代模型Playground v3（简称PGv3），参数量直接拉到了240亿，在多个基准测试上都斩获了最先进的成绩，尤其是在图形设计方面的表现，甚至可以说超越了人类设计师。

PGv3的核心亮点，是完全摒弃了传统T5或CLIP文本编码器的做法，转而采用深度融合（Deep-Fusion）架构，直接把一个仅解码器的大型语言模型（Llama3-8B）嵌入到了整个生成流程中。这不仅让模型在文本提示遵循、复杂推理和文字渲染准确率上表现亮眼，还支持精确的RGB颜色控制以及多语言识别。

值得一提的是，研究团队还专门开发了一个内部描述生成器（in-house captioner），能够生成不同详细程度的图像描述，丰富文本结构的多样性。为了评估这一模块，团队又引入了全新的基准CapsBench。用户偏好研究数据显示，PGv3在常见的表情包、海报和Logo设计场景中，表现已经可以媲美甚至超越人类设计师。

01 PGv3模型架构

PGv3本质上是一个潜扩散模型（LDM），训练采用EDM公式。它与DALL·E 3、Imagen 2、Stable Diffusion 3一样，核心任务是文本到图像生成，但走得比它们更远——完全集成了Llama3-8B，强化了提示理解与遵循能力。

文本编码器

Transformer模型中，每一层捕捉到的信息都不相同，既有词级也有句级特征。传统做法通常是取T5或CLIP的最后一层输出，或者结合倒数第二层。但对于解码器风格的大型语言模型来说，究竟选用哪一层效果最好，其实相当棘手——模型内部表示相当复杂。

研究团队认为，LLM连续层之间的信息流才是生成能力的关键，而这些知识并非被某一层的输出所封装，而是横跨了所有层。基于这一判断，PGv3在设计时直接复制了LLM的所有Transformer块，从每一层对应块中提取隐藏嵌入输出。简单来说，就是让模型充分利用LLM完整的“思考链条”，从而实现更好的提示遵循能力与一致性。

模型结构

PGv3采用DiT风格的结构。图像模型中的每个Transformer块和语言模型（Llama3-8B）中的对应块完全一致——只有一个注意力层和一个前馈层，参数也都相同（隐藏维度、注意力头数量和维度）。训练时只训练图像模型这部分。在扩散采样过程中，语言模型只需跑一次，就能生成所有中间隐藏嵌入。

相比传统基于CNN的扩散模型，这种结构将图像特征的自注意力与图文之间的交叉注意力分离开来，再做联合注意力操作。好处是可以从图像和文本值的组合池中提取特征，同时降低计算成本和推理时间。此外，还有几个对性能有帮助的小设计：

1. Transformer块之间增加了U-Net跳跃连接。

2. 中间层进行token下采样——在32层中，将中间几层的图像键和值的序列长度缩减至原来的四分之一。这使得整个网络变得更像一个只有一次下采样的传统卷积U-Net，训练和推理速度都有提升，而性能并未下降。

3. 位置嵌入沿用了Llama3的旋转位置嵌入（RoPE）。图像为二维特征，团队试验了2D版本的RoPE。其中，“插值-PE”方法（保持起始和结束位置ID固定、中间插值）在训练分辨率上过拟合严重，无法泛化到未见过的纵横比。反而是“扩展-PE”方法（按序列长度成比例增加位置ID，不使用任何技巧或归一化）表现更优，看不出分辨率过拟合的问题。

新的VAE

潜扩散模型中的变分自编码器（VAE），决定了细粒度图像质量的上限。团队将VAE的潜通道数从4增加到16，提升了合成细节能力——小的面部和文字都变得更加清晰。除了在256×256分辨率下训练，还扩展到了512×512分辨率，进一步改善了重建效果。

02 CapsBench描述基准

图像描述评估其实是一个相当棘手的问题。目前的评估指标主流分为两类：一类是基于参考的（如BLEU、CIDEr、METEOR、SPICE），但模型得分容易受到参考格式的限制；另一类是无参考指标（如CLIPScore、InfoMetIC、TIGEr），依赖参考图像的语义向量，对于密集图像和长描述来说，由于概念太多，语义向量代表性不足。

受DSG和DPG-bench启发，团队提出了一种反向评估方法——在17个图像类别中生成“是-否”问答对，覆盖通用、图像类型、文本、颜色、位置、关系、相对位置、实体、实体大小、实体形状、计数、情感、模糊、图像伪影、专有名词、调色板和色彩分级。评估时，语言模型仅基于候选描述回答问题，答案选项只有“是”“否”“不适用”。CapsBench包含200张图像和2471个问题，平均每张图像12个，覆盖了电影场景、卡通场景、电影海报、邀请函、广告、休闲摄影、街头摄影、风景摄影和室内摄影。

03 实验结果

研究人员对比了Ideogram-2（左上）、PGv3（右上）和Flux-pro（左下）。缩略图查看时，三个模型的图像差异不大。但放大检查细节和纹理时，区别就显现出来了：Flux-pro生成的皮肤纹理过于平滑，有点像3D渲染，不够真实；Ideogram-2纹理更真实，但提示词一长就容易丢失关键细节。相比之下，PGv3在提示遵循和真实感上均表现出色，并且明显具有更好的电影质感。

指令遵循

图中彩色文本部分代表模型未能捕捉到的细节。可以看到，PGv3始终能够把握住这些细节。当测试提示变长、包含更多详细信息时，PGv3的优势越发明显。这种提升主要归功于集成了LLM的模型结构，以及先进的视觉-语言模型图像描述系统。

文本渲染

模型能够生成海报、Logo、表情包、书籍封面和演示幻灯片等各类图像。PGv3还能复现带定制文本的表情包，凭借出色的文本渲染能力，创造出拥有无限角色和构图的新表情包。

RGB颜色控制

PGv3在颜色控制上达到了相当精细的程度，超越了标准调色板。用户可以使用精确的RGB值，精确控制图像中每个对象或区域的颜色。这对于需要精确颜色匹配的专业设计场景来说，非常实用。

多语言能力

得益于语言模型天然的多语言理解能力，PGv3能够自然地解释各种语言的提示。而且，仅需数万张多语言文本和图像对的数据集，就能实现这样的多语言能力，效率相当高。

来源：https://www.aiagiai.com/4313.html

上一篇初创即盈利的AI公司估值2.5亿美元 下一篇Flux1.1模型加单反文件名生成超写实图像

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通

Playground v3发布：240亿参数文生图模型，深度融合LLM超越人类

文生图参数量升至240亿，Playground v3发布：深度融合LLM，图形设计能力超越人类

01 PGv3模型架构

文本编码器

模型结构

新的VAE

02 CapsBench描述基准

03 实验结果

指令遵循

文本渲染

RGB颜色控制

多语言能力

相关推荐

同类最新

批处理BAT入门教程第一篇

从零开始批处理命令For循环详解与实战案例

批评你的人是你生命中的贵人

测试人员角色定位与职责详解

经营成功测试生涯的实用方法与策略