游乐游手机版
首页/AI教程/文章详情

ComfyUI 0.24.0更新:接入Ideogram 4,修复多GPU与精度问题

时间:2026-06-09 15:35
ComfyUIv0 24 0于2026年6月4日发布,为不可变版本。核心更新包括:修复BiRefNet和DINOv3的cast与dtype问题,改进多GPU场景下手动终止冻结,正式接入Ideogram4模型,PiD新增SDXL和QwenImage支持,工作流模板同步升级至v0 9 94,并优化DINOv3推理精度与显存控制。

在这里插入图片描述ComfyUI v0.24.0 版本更新关键信息概览

在这里插入图片描述ComfyUI v0.24.0 发布亮点与改进要点

在这里插入图片描述ComfyUI v0.24.0 核心更新图示

2026年6月4日,ComfyUI 正式发布了 v0.24.0 最新版本。首先给出几个关键判断:本次更新并非小修小补,而是一次典型的“稳定性修复 + 新模型接入 + 推理链路优化”组合升级。一方面,多个模型的 cast、dtype、推理精度及显存使用问题得到集中解决;另一方面,Ideogram 4 的支持已正式融入核心代码,PiD 也新增了对 SDXL 和 QwenImage 的支持。此外,多 GPU 场景下手动终止冻结的问题已被修正,工作流模板也同步更新至新版本。

需要特别指出的是,这是一个不可变发布版本——发布包本身固化,仅允许修改发布标题和说明。这种发布方式通常意味着版本内容已经冻结,用户在升级时可以更专注于发布说明和实际变更点,无需担心版本号之后隐藏的变动。

如果你正在密切关注 ComfyUI 核心更新,尤其是模型兼容性、推理稳定性、显存控制以及新模型生态接入,那么 v0.24.0 此次更新非常值得仔细研读。以下根据发布说明与代码改动,进行全面的深度解读。

一、版本基础信息

版本号:v0.24.0
发布时间:2026年6月4日
发布类型:Latest
版本特征:不可变发布,仅允许修改发布标题和发布说明

从版本定位来看,v0.24.0 并非单纯的小修小补,而是一次包含 16 次提交、60 个文件变更、1060 行新增、262 行删除、10 位贡献者参与的中等规模更新。这意味着它既有功能补充,也有内部结构调整,还涉及一定程度的底层推理逻辑修正。

二、本次更新到底改了什么

根据发布说明,本次更新主要包含以下内容:

  1. 修复 birefnet 和 dino3 模型中的部分 cast 与 dtype 问题
  2. 修复 triposplat 预览与旧 offloading 模式相关问题
  3. 将 tripo dinov3 推理切换为 fp32
  4. 修复 Math Expression 节点在大整数结果下未捕获的 OverflowError
  5. 恢复 partner nodes 分类
  6. Radiance 支持带非零 txt_ids 的变体
  7. 修复 MultiGPU CFG Split 场景下手动中止导致冻结的问题
  8. PiD 新增 SDXL 和 QwenImage
  9. 移除旧的无用 no comfy kitchen 回退逻辑
  10. comfy-aimdo 更新到 0.4.8
  11. Partner Nodes 新增 Ideogram V4 节点
  12. 核心新增 Ideogram4 模型支持
  13. 将 DualModelGuider 标记为 experimental
  14. 工作流模板更新到 v0.9.94
  15. 非动态显存模式下,增加 ideogram 4 的显存使用因子
  16. 发布 ComfyUI v0.24.0 版本提交

如果只看这串更新项,很多人可能会觉得信息零散。但结合具体的代码变更来看,其实可以归纳为四条主线:

  • 第一条主线,是模型精度与类型转换稳定性修复,核心集中在 BiRefNet 与 DINOv3。
  • 第二条主线,是新模型生态扩展,尤其是 Ideogram 4 进入核心支持。
  • 第三条主线,是推理和运行时稳定性增强,包括 MultiGPU 手动终止冻结、Math Expression 大整数溢出、旧回退逻辑清理等。
  • 第四条主线,是周边能力补齐,包括 PiD 扩展、Partner Nodes 分类调整、工作流模板更新和显存参数适配。

三、提交与改动规模解读

本次版本对比信息显示:16 次提交,60 个文件发生变化,10 位贡献者参与,总代码变更为 1060 行新增、262 行删除。

从这个规模可以看出,v0.24.0 不是单点补丁,而是一次面向多个模块同步推进的综合更新。尤其是新增了一个接近 300 行的 Ideogram4 核心模型文件——这意味着它不是简单接个外壳,而是已经进入到 ComfyUI 模型基座的正式实现层。

从提交时间来看,这些改动主要集中在 6 月 2 日、6 月 3 日和 6 月 4 日三天内完成,说明这是一次连续推进、密集合并的版本迭代。

四、源码层面的重点变化详解

接下来,重点结合给出的代码 diff 来看本次版本真正“值钱”的地方。

一是 BiRefNet 的 cast 与 dtype 修复

变更文件:comfy/background_removal/birefnet.py

在 forward 中,relative_position_bias 的处理逻辑发生了一处关键修改。原来是:
relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()
更新后变成:
relative_position_bias = comfy.ops.cast_to_input(relative_position_bias.permute(2, 0, 1).contiguous(), attn)

这说明什么?它说明这里不再只是简单调整张量维度和内存连续性,而是显式将 relative_position_bias 的数据类型与 attn 输入对齐。也就是说,更新后的逻辑更加重视实际参与计算的输入 dtype,而非默认沿用原张量状态。

这类修复在混合精度、半精度、不同设备推理中非常重要。因为 attention 路径里如果 bias 张量和主张量 dtype 不一致,轻则触发隐式转换,影响性能;重则造成数值不稳定,甚至在某些设备和算子路径上直接报错。

因此,这一处改动虽然只有一行,但本质是一次针对 BiRefNet 推理稳定性的精度一致性修复,对背景移除这类对边缘细节敏感的任务来说非常关键。

二是 CLIP Vision 中移除了 DINOv3 的 fp16 特判逻辑

变更文件:comfy/clip_vision.py

这部分代码删除了 torch 依赖引入,同时删除了 DINOv3 在 float16 下优先切到 bfloat16 的特殊判断逻辑。原逻辑大意是:如果模型类型是 dinov3,且 dtype 为 float16,那么因为 DINOv3 的 activation 在 fp16 下比较勉强,所以如果设备支持 bf16,就优先改成 bf16。现在这段逻辑被删掉了。

这个删除本身不能孤立理解,必须结合发布说明中的另一条:“Do tripo dinov3 inference in fp32”,以及后面的 dino3 编码器改动一起看。也就是说,ComfyUI 在 v0.24.0 中不再通过原先这种在 text encoder 设备路径中做 fp16 到 bf16 的折中策略去兜底,而是转向了更直接、更明确的处理方式:在实际 DINOv3 推理链路中进行更严格的数据类型控制,甚至直接切到 fp32 路线。这样做的好处是逻辑更统一,也更容易减少某些边缘场景的类型不一致问题。

三是 DINOv3 编码器中的 dtype 和输入转换逻辑被重新整理

变更文件:comfy/image_encoders/dino3.py

这是本次更新里非常值得关注的一块。主要变化有三类:

  • 第一类变化,是 patch embedding 输入不再提前转 dtype。原来:patch_embeddings = self.patch_embeddings(pixel_values.to(dtype=target_dtype)),更新后:patch_embeddings = self.patch_embeddings(pixel_values)。同时在外层 forward 里也删除了 pixel_values = pixel_values.to(self.embeddings.patch_embeddings.weight.dtype)。这说明 DINOv3 的像素输入不再在进入 embedding 前强行转换到权重 dtype,而是交给内部逻辑按实际需求处理。
  • 第二类变化,是 mask token 改成通过 cast_to_input 对齐输入。原来:mask_token = self.mask_token.to(patch_embeddings.dtype),更新后:mask_token = comfy.ops.cast_to_input(self.mask_token, patch_embeddings)。新实现不只是对齐 dtype,还更强调和当前输入张量的完整计算环境一致。
  • 第三类变化,是 cls token 和 register tokens 也都改成了 cast_to_input。原来 expand 后只 to(device),更新后通过 cast_to_input 与 patch_embeddings 对齐。

结合发布说明里“Some cast/dtype fixes for the birefnet and dino3 models”与“Do tripo dinov3 inference in fp32”这两条信息,可以明确看出:v0.24.0 对 DINOv3 的重点就是稳定性优先,减少不必要的半精度风险和隐式类型切换。

四是 Radiance 支持非零 txt_ids 变体

变更文件:comfy/ldm/chroma_radiance/model.py

这里新增了一个参数 use_sequential_txt_ids: bool,并在模型初始化时,如果这个参数为真,就注册一个名为 sequential 的 buffer。更关键的变化在 forward 内部:原来 txt_ids 是这样初始化的:txt_ids = torch.zeros((bs, context.shape[1], 3), device=x.device, dtype=x.dtype),更新后新增逻辑——Radiance 在 2026-05-22 之后使用顺序 txt_ids 而不是全零,如果 use_sequential_txt_ids 为真,那么 txt_ids[:, :, 0] = torch.arange(context.shape[1], ...)

这意味着 Radiance 模型现在支持一种新的文本位置标识变体:不再全部用零填充,而是用顺序编号。这个变化虽然看上去很小,但它直接影响文本 token 的位置编码或条件组织方式。也就是说,ComfyUI v0.24.0 已经考虑到了 Radiance 模型不同版本之间的输入差异,并通过参数化方式做了向前适配。

五是移除旧的无用 no comfy kitchen 回退逻辑

变更文件:comfy/ldm/flux/math.py

这里的变动非常明确:原来 apply_rope 和 apply_rope1 外围包了一层 try/except,用于在无法导入 comfy.quant_ops 时回退到旧实现,并且还会打印一条警告“No comfy kitchen, using old apply_rope functions.” v0.24.0 中,这整套 fallback 逻辑被直接删掉,改成了更直接的实现:非训练状态下直接调用 comfy.quant_ops.ck.apply_rope,训练状态下使用原始 Python 路径。

这类调整说明了两件事:第一,项目当前已经不再认为旧 fallback 逻辑有继续保留的必要。第二,推理路径正在进一步收敛到统一的量化或优化算子实现上。对于用户来说,这通常意味着运行时分支更少,行为更可预期,维护成本也更低——但环境要求会更加明确,旧兼容兜底减少了。

六是 Ideogram 4 正式进入核心模型层

变更文件:comfy/ldm/ideogram4/model.py,新增代码 297 行。

这可以说是 v0.24.0 最重磅的核心技术更新。从文件头部注释就能看出它的定位:Ideogram 4 transformer 属于 NextDiT 和 Lumina2 家族的单流模型,使用 Qwen3-VL 的隐藏状态特征,将文本 token 与图像 token 打包为一个序列,并配合分段注意力和三维交错 MRoPE 处理。

具体来看:

  • 定义了序列角色标识:SEQUENCE_PADDING_INDICATOR = -1,OUTPUT_IMAGE_INDICATOR = 2,LLM_TOKEN_INDICATOR = 3,IMAGE_POSITION_OFFSET = 65536。这说明模型在一个统一序列里同时区分填充、图像输出 token 和 LLM 文本 token,并且图像位置坐标做了偏移。
  • 新增 Ideogram4Attention:包含 qkv 线性层、q 与 k 的 RMSNorm、输出线性层,并在前向过程中调用 apply_rope 与 optimized_attention_masked。这不是简单复用旧模块,而是为 packed sequence 结构专门组织了一套注意力执行路径。
  • 新增 Transformer Block:每个块中包含注意力层、前馈层、多组 RMSNorm、AdaLN 调制层。scale_msa、gate_msa、scale_mlp、gate_mlp 会从 adaln_modulation 结果中拆分出来,对注意力和 MLP 分支进行动态调制。
  • 新增标量时间嵌入模块:Ideogram4EmbedScalar 将输入标量先映射为正弦位置嵌入,再经过两层线性映射,用于处理 timestep 条件。
  • 新增最终输出层:Ideogram4FinalLayer 使用 LayerNorm、线性层和 AdaLN 调制,将最终隐藏状态投影回输出通道。
  • 实现单流主干 Transformer:Ideogram4Transformer 内部包含输入投影、LLM 条件归一化与投影、时间嵌入、AdaLN 投影、图像指示 embedding、多层 TransformerBlock、最终输出层。它将文本条件和图像 latent 都组织进同一条 backbone,与传统 cross-attention 型结构不同。
  • 支持条件与无条件两种运行方式:Ideogram4Transformer2DModel 中分别实现了 _run_conditional 和 _run_image_only。当 context 为 None 时走 image-only 无条件路径,否则走 packed 的 text + image 条件路径。
  • 支持图像 token 与图像坐标组织:模型内部实现了图像到 token 的重排、token 回图像的反变换、图像位置 id 构造、文本与图像位置拼接、分段 mask 的构造。block-diagonal 的 attention mask 说明文本与图像在 packed sequence 中是通过 segment id 建立结构化注意力关系,而不是简单全连通。

综合来看,这 297 行代码不是“加个接口”,而是 ComfyUI 已经把 Ideogram 4 的核心单流 DiT 结构、条件组织、位置编码、mask 机制和输出路径,真正实现到了底层模型层里。

七是 model_base 正式注册 Ideogram4 模型类型

变更文件:comfy/model_base.py

第一部分是新增模块导入:import comfy.ldm.ideogram4.model。第二部分是新增 Ideogram4 类,继承 BaseModel,并在 extra_conds 中支持 attention_mask 与 cross_attn 条件。特别是 attention_mask 的处理:只有当 attention_mask 不是“全 1”状态时,才会加入条件——这说明开发逻辑里对无填充、全可见序列进行了条件省略优化。

结合发布说明中的两条内容——“新增 Ideogram V4 节点”和“新增 Ideogram4 模型支持”——可以看出,v0.24.0 不是只在界面层加了节点,而是核心模型和节点生态两边一起到位。

五、发布说明中其他更新点逐条解析

除了代码里明确展示的部分,本次发布说明还有一些重要更新,虽然没有展开具体 diff,但仍然值得完整纳入理解。

  1. 修复 triposplat 预览与旧 offloading 模式问题:说明在 triposplat 的预览功能和旧 offloading 模式组合场景下,之前存在兼容性问题。v0.24.0 已经修正。对于依赖旧显存卸载路径的用户,这是实打实的稳定性改进。
  2. tripo dinov3 推理改为 fp32:与前面 dino3 的代码修复形成闭环。典型“以稳定性换取精度安全”的调整。
  3. 修复 Math Expression 节点大整数未捕获 OverflowError:边缘稳定性修复,以前可能抛出未捕获异常,现在被修正。
  4. 恢复 partner nodes 分类:节点浏览、分类展示和组织逻辑的界面层与生态层整理。
  5. 修复 MultiGPU CFG Split 手动中止冻结问题:实用价值高,多 GPU 下手动终止任务冻结问题被修复,中断流程更安全。
  6. PiD 新增 SDXL 和 QwenImage:生态补强更新。
  7. comfy-aimdo 升级到 0.4.8:组件版本同步。
  8. Partner Nodes 新增 Ideogram V4 节点:与核心模型支持呼应,从可视化节点到底层模型都可使用 Ideogram 4。
  9. 将 DualModelGuider 标记为 experimental:产品状态标记调整,提醒用户这是实验性能力。
  10. 工作流模板更新到 v0.9.94:模板层同步适配新模型、新节点以及新的参数组织方式。
  11. 非动态显存模式下,增加 ideogram 4 的显存使用因子:让显存估算和运行行为更符合模型实际需要,减少错误判断或资源分配偏差。

六、为什么说 v0.24.0 是一次“稳定性优先”的重要版本

如果把这次更新所有内容放在一起看,会发现它的总体气质非常清晰:稳定性优先,兼容性并进,新模型接入同步推进

第一,模型类型一致性修复很集中。BiRefNet、DINOv3、Tripo DINOv3、Radiance 都涉及实际推理输入、dtype、位置标识或执行精度问题,这些都不是表面改动,而是直接关系到模型能否稳定跑通的底层因素。

第二,老旧回退逻辑开始清理。Flux 数学模块移除了旧 fallback,说明项目内部依赖链和运行路径正在进一步收敛,不再无限制保留历史兼容包袱。

第三,新模型不是“挂名支持”,而是深入到底层。Ideogram 4 的新增不只是多了个节点名字,而是完整增加了核心模型实现、基础模型注册、条件处理支持。

第四,运行时体验问题得到照顾。无论是 MultiGPU 手动终止冻结,还是 Math Expression 大整数异常,都是用户一旦踩到就会非常难受的问题。这次版本一并处理,说明更新目标不仅是“新”,也是“能稳定用”。

七、结语:ComfyUI v0.24.0 值不值得更新

代码地址:github.com/Comfy-Org/ComfyUI

如果你的使用场景涉及以下任一项,那么 v0.24.0 非常值得关注:

  • 需要更稳定的 BiRefNet 或 DINOv3 推理
  • 使用 tripo 或 triposplat 相关能力
  • 在多 GPU 环境下运行复杂工作流
  • 需要 PiD 对 SDXL、QwenImage 的新支持
  • 关注 Ideogram 4 的核心接入与节点可用性
  • 依赖工作流模板快速搭建流程
  • 希望减少老旧回退逻辑带来的行为不确定性

从这次发布内容来看,ComfyUI v0.24.0 的价值不在于“堆了多少新名词”,而在于它把模型支持、推理精度、显存管理、节点生态和工作流模板这些关键层面一起往前推了一步。

最后,用一句话总结这次版本:ComfyUI v0.24.0 是一次以稳定性修复为底,以 Ideogram 4 接入为亮点,以多模型兼容与运行体验优化为核心目标的重要版本。

来源:https://cloud.tencent.com.cn/developer/article/2684262
上一篇CLI结合Skill搭建浏览器AI自动化框架,告别重复工作 下一篇Codex接入DeepSeek傻瓜式教程
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网