NVIDIA HGX B200 集群如何提升 Recraft V4 图像生成性能

时间：2026-05-15 14:28

RecraftV4是一款面向专业设计需求的高质量图像生成模型，分为标准版与高分辨率Pro版。该模型基于Nebius平台构建，严格遵循专业设计标准，已生成超3 5亿张图片。通过与Nebius合作，Recraft利用NVIDIAHGXB200集群的BlackwellGPU显著提升了训练与推理性能，实现了从参数规模到运算量的全面扩展。迁移过程顺畅，依托优化基础设施

当前，市场上主流的AI图像生成模型，大多聚焦于满足大众化的通用审美需求。这种定位虽然能够吸引广泛的用户群体，但当面临品牌视觉系统构建、整合营销传播战役或需要直接投入生产的设计项目时，其生成结果往往难以达到专业级的设计标准与品牌要求。Recraft V4的发布，正是为了精准填补这一市场空白。它并非在实验室中孤立研发，而是与众多一线专业设计师深度合作，紧密围绕真实、严苛的商业创意需求进行反复锤炼与优化。可以说，Recraft V4为AI图像生成领域，引入了业界期待已久的“专业视觉品味”与“品牌级美学控制”。

Recraft V4为用户提供了两个清晰的版本选择：V4标准版与V4 Pro专业版。两个版本共享核心的创意生成引擎与设计哲学，均能在艺术指导（Art Direction）下产出具备专业水准的视觉作品。主要区别在于输出分辨率与应用规模：V4版本响应速度更快、使用成本更具优势，适合线上内容、社交媒体等数字场景；而V4 Pro版本则能生成更高分辨率的图像，足以满足大型印刷品、户外广告、高端电商等大规模商业应用的需求。Recraft团队坚信，V4系列模型瞄准的是一个至关重要的市场缺口——提供更注重专业设计美学、品牌一致性与商业实用性，而非单纯追逐网络流行风格的生成式AI图像解决方案。

Recraft公司开发的系列图像模型，其核心使命是赋能设计师、品牌方和营销专业人士，高效地创作出具备品牌级品质的视觉内容。其最新的Recraft V4基础模型，基于Nebius AI云平台从零开始构建，是一个严格遵循专业设计规范与流程的基础模型，能够稳定生成视觉效果出众、具备高度可用性的品牌级图像。自公司推出首个专为设计团队优化的文生图模型以来，全球的企业用户与独立创作者已在Recraft平台上累计生成了超过3.5亿张图片，验证了其工具在真实工作流中的价值。

作为NVIDIA Blackwell GPU平台的早期采用者，Recraft与云计算伙伴Nebius紧密合作，在Blackwell芯片正式上市前便进行了深入的性能测试与适配。NVIDIA Blackwell架构专为万亿参数规模的AI模型训练而设计，为Recraft持续扩展其基础模型的容量与能力，提供了必需的强大计算力。与Nebius的战略合作，使得Recraft团队能够无缝、平滑地过渡到新一代GPU架构，并在Nebius AI Cloud的NVIDIA HGX B200集群上，高效运行大规模模型的训练与推理任务。

尼比乌斯和雷克拉夫特

Recraft与Nebius的合作关系根基深厚，双方已成功协同部署了从NVIDIA Ampere到Hopper，再到最新的Blackwell系列GPU平台。Recraft是Nebius AI云平台的首批重要客户，也是全球最早尝鲜并部署NVIDIA Blackwell GPU的团队之一。在成功部署HGX B200集群后，他们已开始在其实际工作负载上测试性能更强大的HGX B300实例，为未来模型升级做准备。

Recraft坚信，模型规模是驱动生成质量跃升的关键因素，致力于通过构建大型、高效的基础模型来创造顶尖质量的视觉内容。“对于图像生成模型而言，规模越大，其输出的细节、一致性和美学质量通常就越好，”Recraft的人工智能主管Pa vel Ostyakov阐释道。“但我们所强调的规模，不仅仅指模型的参数数量。根据我们的实践经验，最关键的因素是计算量，即模型在推理过程中内部所执行的浮点运算总次数（FLOPS）。借助NVIDIA Blackwell GPU提供的卓越算力，我们能够显著扩展模型的计算量和参数量——在这个级别上，我们谈论的是数百亿乃至更高量级的参数规模。”

平稳迁移到最新架构

全新的NVIDIA Blackwell架构带来了显著的性能提升，其大规模语言模型（LLM）训练速度据称可比上一代快四倍。为全力支持Recraft的V4模型训练，Nebius提供了配备最新NVIDIA Blackwell GPU、并通过高性能NVIDIA Quantum-2 InfiniBand网络互连的专用计算集群。

对Recraft的工程团队而言，从NVIDIA Hopper平台过渡到Blackwell平台的过程异常顺畅。他们基于PyTorch的软件技术栈与NVIDIA官方容器完全兼容，后者提供了开箱即用的预优化库。其分布式训练工作负载无需对底层的GPU通信软件栈进行任何修改，InfiniBand网络也提供了与以往几代GPU平台同样稳定、低延迟的高性能表现。

当然，为了在新硬件架构上获得最佳的生产环境性能，Recraft团队也对其训练设置进行了一些针对性的深度优化。例如，他们重写了部分核心代码，将网络编译方式从使用TensorRT切换为直接使用PyTorch的torch.compile功能，以更好地利用新硬件的特性。

“如果你的代码结构清晰、模块化程度高，那么切换到新一代GPU基本上不需要做什么复杂的特殊操作，”Ostyakov总结道。

工程支持和强大的基础设施

Nebius提供的基础设施服务，通过高度优化的软件栈和预防性的主动维护，极大简化了客户的硬件升级流程。Nebius AI云平台内置强大的监控告警服务和详尽的日志记录系统，显著提升了整个计算集群的可观测性，使得Recraft的运维工程师能够快速定位并解决任何潜在的性能瓶颈。

得益于高效的模型检查点设置和快速重启流程，Recraft工程师在实际训练中遇到的非计划中断情况极少。这主要归功于Nebius平台的自动化维护系统和实时故障检测功能。当InfiniBand网络链路或某个GPU节点出现异常离线时，系统会自动隔离并替换故障节点，并从上一个完好检查点自动恢复训练任务，从而将对可能持续数周的大规模长周期训练的干扰降至最低。

在向NVIDIA Blackwell GPU迁移的整个过程中，Recraft还与Nebius的内部资深工程团队保持了紧密的协作。依托后者在硬件升级方面的丰富实战经验和对最新架构的深厚专业知识，双方顺利解决了在早期访问测试阶段遇到的各种技术挑战。

Recraft的训练精准策略

最新一代的NVIDIA Blackwell GPU为训练精度提供了更灵活的选择，同时支持FP8和FP4等低精度量化格式，这为追求极致性能的团队带来了潜在的速度提升空间。

Recraft会根据具体工作负载对输出质量的敏感度要求，来灵活选择训练精度格式。由于精度对图像生成的最终视觉质量至关重要，他们主要使用bfloat16（BF16）精度进行模型主体的训练。然而，在模型流程中运行文本编码器（Text Encoder）组件时，他们则采用FP8精度——因为这些组件的权重在预训练完成后通常保持冻结状态，使用较低的精度可以在绝对不影响最终图像输出质量的前提下，显著加快每个训练样本的处理速度。

对于辅助的LLM推理工作负载，Recraft采用了与之前在NVIDIA Hopper平台上一致的FP8精度策略，以平衡速度与精度。目前，该团队正在积极试验NVIDIA Blackwell平台原生的4位精度格式NVFP4，以期进一步优化推理服务的吞吐量与响应延迟。

Recraft升级到NVIDIA Blackwell GPU的经验总结

轻松升级到前沿芯片：从NVIDIA Hopper平台迁移至Blackwell平台，所需的核心代码更改极少，具备优秀的开箱即用兼容性，并完整支持复杂的分布式训练框架。
扩展图像生成能力：成功部署NVIDIA Blackwell GPU以扩展其基础模型规模，验证了该硬件平台完全适用于下一代大规模图像生成模型的训练需求，为更高质量、更可控的AI图像生成奠定了基础。
训练精度优化：在NVIDIA Blackwell GPU上部署了针对不同工作负载特化的混合精度训练策略——模型主体训练使用BF16保证质量，FP8用于加速文本编码器等冻结模块，并尝试使用NVFP4以探索更高的推理速度极限。
可靠的基础设施与现场支持：Nebius AI云平台通过自动化的故障检测、节点更换和检查点恢复功能，最大程度减少了长时间训练任务的中断风险。Nebius的资深工程师团队提供7x24小时随时待命的现场支持，协助客户解决各类技术难题，加速了新一代AI计算技术无缝融入团队的核心生产工作流。

来源：https://www.php.cn/faq/2480174.html?uid=1221864

B200

上一篇AOC 25G51F显示器开箱评测 1080P 180Hz高刷屏仅售529元 下一篇Recraft AI深度评测：专业设计工具与图像生成器的本质区别

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。