首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
NVIDIA HGX B200 集群如何提升 Recraft V4 图像生成性能

NVIDIA HGX B200 集群如何提升 Recraft V4 图像生成性能

热心网友
41
转载
2026-05-15

当前,市场上主流的AI图像生成模型,大多聚焦于满足大众化的通用审美需求。这种定位虽然能够吸引广泛的用户群体,但当面临品牌视觉系统构建、整合营销传播战役或需要直接投入生产的设计项目时,其生成结果往往难以达到专业级的设计标准与品牌要求。Recraft V4的发布,正是为了精准填补这一市场空白。它并非在实验室中孤立研发,而是与众多一线专业设计师深度合作,紧密围绕真实、严苛的商业创意需求进行反复锤炼与优化。可以说,Recraft V4为AI图像生成领域,引入了业界期待已久的“专业视觉品味”与“品牌级美学控制”。

Recraft V4为用户提供了两个清晰的版本选择:V4标准版与V4 Pro专业版。两个版本共享核心的创意生成引擎与设计哲学,均能在艺术指导(Art Direction)下产出具备专业水准的视觉作品。主要区别在于输出分辨率与应用规模:V4版本响应速度更快、使用成本更具优势,适合线上内容、社交媒体等数字场景;而V4 Pro版本则能生成更高分辨率的图像,足以满足大型印刷品、户外广告、高端电商等大规模商业应用的需求。Recraft团队坚信,V4系列模型瞄准的是一个至关重要的市场缺口——提供更注重专业设计美学、品牌一致性与商业实用性,而非单纯追逐网络流行风格的生成式AI图像解决方案。

Recraft公司开发的系列图像模型,其核心使命是赋能设计师、品牌方和营销专业人士,高效地创作出具备品牌级品质的视觉内容。其最新的Recraft V4基础模型,基于Nebius AI云平台从零开始构建,是一个严格遵循专业设计规范与流程的基础模型,能够稳定生成视觉效果出众、具备高度可用性的品牌级图像。自公司推出首个专为设计团队优化的文生图模型以来,全球的企业用户与独立创作者已在Recraft平台上累计生成了超过3.5亿张图片,验证了其工具在真实工作流中的价值。

作为NVIDIA Blackwell GPU平台的早期采用者,Recraft与云计算伙伴Nebius紧密合作,在Blackwell芯片正式上市前便进行了深入的性能测试与适配。NVIDIA Blackwell架构专为万亿参数规模的AI模型训练而设计,为Recraft持续扩展其基础模型的容量与能力,提供了必需的强大计算力。与Nebius的战略合作,使得Recraft团队能够无缝、平滑地过渡到新一代GPU架构,并在Nebius AI Cloud的NVIDIA HGX B200集群上,高效运行大规模模型的训练与推理任务。

尼比乌斯和雷克拉夫特

Recraft与Nebius的合作关系根基深厚,双方已成功协同部署了从NVIDIA Ampere到Hopper,再到最新的Blackwell系列GPU平台。Recraft是Nebius AI云平台的首批重要客户,也是全球最早尝鲜并部署NVIDIA Blackwell GPU的团队之一。在成功部署HGX B200集群后,他们已开始在其实际工作负载上测试性能更强大的HGX B300实例,为未来模型升级做准备。

Recraft坚信,模型规模是驱动生成质量跃升的关键因素,致力于通过构建大型、高效的基础模型来创造顶尖质量的视觉内容。“对于图像生成模型而言,规模越大,其输出的细节、一致性和美学质量通常就越好,”Recraft的人工智能主管Pa vel Ostyakov阐释道。“但我们所强调的规模,不仅仅指模型的参数数量。根据我们的实践经验,最关键的因素是计算量,即模型在推理过程中内部所执行的浮点运算总次数(FLOPS)。借助NVIDIA Blackwell GPU提供的卓越算力,我们能够显著扩展模型的计算量和参数量——在这个级别上,我们谈论的是数百亿乃至更高量级的参数规模。”

平稳迁移到最新架构

全新的NVIDIA Blackwell架构带来了显著的性能提升,其大规模语言模型(LLM)训练速度据称可比上一代快四倍。为全力支持Recraft的V4模型训练,Nebius提供了配备最新NVIDIA Blackwell GPU、并通过高性能NVIDIA Quantum-2 InfiniBand网络互连的专用计算集群。

对Recraft的工程团队而言,从NVIDIA Hopper平台过渡到Blackwell平台的过程异常顺畅。他们基于PyTorch的软件技术栈与NVIDIA官方容器完全兼容,后者提供了开箱即用的预优化库。其分布式训练工作负载无需对底层的GPU通信软件栈进行任何修改,InfiniBand网络也提供了与以往几代GPU平台同样稳定、低延迟的高性能表现。

当然,为了在新硬件架构上获得最佳的生产环境性能,Recraft团队也对其训练设置进行了一些针对性的深度优化。例如,他们重写了部分核心代码,将网络编译方式从使用TensorRT切换为直接使用PyTorch的torch.compile功能,以更好地利用新硬件的特性。

“如果你的代码结构清晰、模块化程度高,那么切换到新一代GPU基本上不需要做什么复杂的特殊操作,”Ostyakov总结道。

工程支持和强大的基础设施

Nebius提供的基础设施服务,通过高度优化的软件栈和预防性的主动维护,极大简化了客户的硬件升级流程。Nebius AI云平台内置强大的监控告警服务和详尽的日志记录系统,显著提升了整个计算集群的可观测性,使得Recraft的运维工程师能够快速定位并解决任何潜在的性能瓶颈。

得益于高效的模型检查点设置和快速重启流程,Recraft工程师在实际训练中遇到的非计划中断情况极少。这主要归功于Nebius平台的自动化维护系统和实时故障检测功能。当InfiniBand网络链路或某个GPU节点出现异常离线时,系统会自动隔离并替换故障节点,并从上一个完好检查点自动恢复训练任务,从而将对可能持续数周的大规模长周期训练的干扰降至最低。

在向NVIDIA Blackwell GPU迁移的整个过程中,Recraft还与Nebius的内部资深工程团队保持了紧密的协作。依托后者在硬件升级方面的丰富实战经验和对最新架构的深厚专业知识,双方顺利解决了在早期访问测试阶段遇到的各种技术挑战。

Recraft的训练精准策略

最新一代的NVIDIA Blackwell GPU为训练精度提供了更灵活的选择,同时支持FP8和FP4等低精度量化格式,这为追求极致性能的团队带来了潜在的速度提升空间。

Recraft会根据具体工作负载对输出质量的敏感度要求,来灵活选择训练精度格式。由于精度对图像生成的最终视觉质量至关重要,他们主要使用bfloat16(BF16)精度进行模型主体的训练。然而,在模型流程中运行文本编码器(Text Encoder)组件时,他们则采用FP8精度——因为这些组件的权重在预训练完成后通常保持冻结状态,使用较低的精度可以在绝对不影响最终图像输出质量的前提下,显著加快每个训练样本的处理速度。

对于辅助的LLM推理工作负载,Recraft采用了与之前在NVIDIA Hopper平台上一致的FP8精度策略,以平衡速度与精度。目前,该团队正在积极试验NVIDIA Blackwell平台原生的4位精度格式NVFP4,以期进一步优化推理服务的吞吐量与响应延迟。

Recraft升级到NVIDIA Blackwell GPU的经验总结

  • 轻松升级到前沿芯片:从NVIDIA Hopper平台迁移至Blackwell平台,所需的核心代码更改极少,具备优秀的开箱即用兼容性,并完整支持复杂的分布式训练框架。

  • 扩展图像生成能力:成功部署NVIDIA Blackwell GPU以扩展其基础模型规模,验证了该硬件平台完全适用于下一代大规模图像生成模型的训练需求,为更高质量、更可控的AI图像生成奠定了基础。

  • 训练精度优化:在NVIDIA Blackwell GPU上部署了针对不同工作负载特化的混合精度训练策略——模型主体训练使用BF16保证质量,FP8用于加速文本编码器等冻结模块,并尝试使用NVFP4以探索更高的推理速度极限。

  • 可靠的基础设施与现场支持:Nebius AI云平台通过自动化的故障检测、节点更换和检查点恢复功能,最大程度减少了长时间训练任务的中断风险。Nebius的资深工程师团队提供7x24小时随时待命的现场支持,协助客户解决各类技术难题,加速了新一代AI计算技术无缝融入团队的核心生产工作流。

来源:https://www.php.cn/faq/2480174.html?uid=1221864
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

NVIDIA HGX B200 集群如何提升 Recraft V4 图像生成性能
科技数码
NVIDIA HGX B200 集群如何提升 Recraft V4 图像生成性能

RecraftV4是一款面向专业设计需求的高质量图像生成模型,分为标准版与高分辨率Pro版。该模型基于Nebius平台构建,严格遵循专业设计标准,已生成超3 5亿张图片。通过与Nebius合作,Recraft利用NVIDIAHGXB200集群的BlackwellGPU显著提升了训练与推理性能,实现了从参数规模到运算量的全面扩展。迁移过程顺畅,依托优化基础设施

热心网友
05.15
微软Fairwater AI数据中心提前上线:搭载数十万块GB200超级芯片
业界动态
微软Fairwater AI数据中心提前上线:搭载数十万块GB200超级芯片

微软Fairwater AI数据中心提前上线:搭载数十万块GB200超级芯片 4月21日消息,据媒体报道,微软总裁兼CEO纳德拉宣布,位于美国威斯康星州芒特普莱森特(Mount Pleasant)的Fairwater AI数据中心已提前投入使用。 这个项目的规模堪称宏大。总投资高达33亿美元,其核心

热心网友
04.21
华东大厂叫停B200订单,已上市AI芯片公司险被收购
科技数码
华东大厂叫停B200订单,已上市AI芯片公司险被收购

华东大厂大规模「叫停」B200租赁订单,计划切换至B300雷峰网获悉,算力租赁市场正掀起一场由头部大厂主导的“设备迭代风暴”,此前其签下的B200租赁订单被批量叫停,全口径转向B300机型。此前,金

热心网友
01.30
从Intel 4004到NVIDIA B200!50年性能提升有多大:217000000倍
科技数码
从Intel 4004到NVIDIA B200!50年性能提升有多大:217000000倍

7月29日消息,据报道,在过去的50年里,人类在计算技术领域取得了令人惊叹的进步。从最初的Intel 4004芯片到如今的NVIDIA Blackwell B200芯片,计算能力实现了惊人的2 17

热心网友
07.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14