Stable Diffusion原始作者创业，井喷的AI视觉赛道再添新玩家

时间：2026-07-03 15:28

由SD原始团队创立的BlackForestLabs推出12B参数DiT架构视觉大模型FLUX 1，性能媲美顶尖。提供闭源及开源版，获3100万美元种子轮融资，为开源社区注入新活力。

如果2023年是文本生成大模型爆发的一年，那从2023年下半年到2024年上半年，就是视觉大模型（包括图片和视频）的井喷期。MidJourney V6、Sora、Stable Diffusion 3-Ultra等模型，逐一引领着这个潮流。

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

这股视觉模型的创业浪潮不仅没有消退，反而愈演愈烈。最新的玩家是Black Forest Labs，由Stable Diffusion的原始团队创立。它们刚推出了尺寸12B、采用DiT（Diffusion Transformer）架构的视觉大模型FLUX.1，输出表现足以媲美市面上的顶级模型。

本图片由FLUX.1生成，作者viet

Black Forest Labs近日完成了3100万美元的种子轮融资，由Andreessen Horowitz（a16z）领投，天使投资人阵容包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun，以及其他多位在AI研究和公司建设领域声名显赫的专家。同时，它也透露General Catalyst和MätchVC的后续融资已经在路上了。

FLUX.1文本生成图像模型共有三个版本，除了闭源并通过API提供服务的版本外，还有一个可以在Apache2.0许可下开放获取的开源版本。在StabilityAI风雨飘摇的当下，这个开源版本让开发者们能以低成本使用强大的视觉基础模型，为开源人工智能社区注入了新的活力。

先说一个核心判断：这是一个结构全新、尺寸庞大的开源视觉模型。

Black Forest Labs汇聚了一众杰出的AI研究人员和工程师，在学术界、工业界和开源世界都拥有深厚的积累。他们此前的代表作包括VQGAN、潜在扩散（Latent Diffusion）模型、Stable Diffusion图像和视频生成模型（如Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers），以及用于超快实时图像合成的对抗性扩散蒸馏（Adversarial Diffusion Distillation）。

核心领导团队由Robin Rombach、Patrick Esser和Andreas Blattmann组成，其中Robin Rombach尤为关键——他是Stable Diffusion的两位主要创建者之一。可以说，他们在潜在扩散模型上的工作，不仅为Stable Diffusion奠定了基础，也深刻影响了DALL-E 2、DALL-E 3以及Sora等模型的核心架构。

Black Forest Labs宣称，他们的核心信念是：只有广泛可访问的高性能模型，才能在研究社区和学术界内促进创新与合作，同时增加透明度——这对建立信任和实现广泛采用至关重要。

FLUX.1模型家族

这次发布的FLUX.1文生图模型家族，全部采用DiT（Diffusion Transformer）混合架构，模型尺寸高达12B（在视觉模型中属于超大尺寸）。训练方法上采用了构建流匹配（flow matching）等新型扩散模型技术，并引入了旋转位置嵌入和并行注意力层，以提升模型性能和硬件效率。

从实际表现来看，这一系列新模型在图像细节、提示跟随、风格多样性和场景复杂性方面都交出了亮眼的成绩单。例如，它能生成高分辨率图像，人物在解剖结构上更加合理；而且由于Transformer的加入，在应对复杂指令时表现也更出色。

FLUX.1共有三个版本：FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]。

FLUX.1 [pro] 是性能最强的版本，在提示跟随、视觉质量、图像细节和输出多样性上都达到了行业顶尖水平。它可以通过Black Forest Labs的API，以及Replicate和fal.ai等模型云平台获取。
FLUX.1 [dev] 是一个开源权重的指导蒸馏模型，从FLUX.1 [pro]蒸馏而来。它在保持类似质量和提示遵循能力的同时，比同等大小的标准模型更加高效。其权重可在HuggingFace上获取，但需要注意的是，它并非一个可用于商业用途的开源模型。
FLUX.1 [schnell] 专为本地开发和个人使用量身定制，采用宽松的Apache2.0开源协议。推理代码可在GitHub和HuggingFace的Diffusers中找到，并在推理速度上做了专门优化。

Black Forest Labs将FLUX.1系列与Midjourney v6.0、DALL·E 3（HD）和SD3-Ultra等主流模型进行了全面对比。无论是竞技场ELO分数，还是模型尺寸、生成质量、指令遵循等指标的平衡，FLUX.1都达到了SOTA水平。其开源的版本，也全面超越了Stable Diffusion 3系列的同类模型。

话说回来，今年视频模型的流行程度确实超过了文生图。Black Forest Labs也预告了其视频模型，这款模型将以FLUX.1为基础，力求在高精度、高清晰度和高速度上实现突破。

a16z在一篇博文中对此评价道：“视觉AI正面临供应链问题。尽管图像和视频生成的基础模型正在飞速发展，但这些模型只是AI价值链的起点。要发挥它们的最大潜力，需要全球最优秀的产品和工程团队，来打造令人愉悦、简单且量身定制的工作流程和终端用户体验——这才是价值链的终点——而开发者无需成为生成建模研究的专家也完全可以做到。

因此，我们非常高兴地宣布对Black Forest Labs（BFL）的种子投资。这个团队致力于为开发者构建世界上最好的开源视觉模型。BFL专注于解决这一需求，只聚焦于价值链的起点部分，从而让开发者和产品工程师能够心无旁骛地专注于终点部分。”

良好模型能力+强商业化能力，是视觉大模型创业的康庄大道

为什么视觉模型会呈现井喷式发展？

一方面，这是需求所致。视觉模态对人们的冲击力，显然比单纯的文字要强烈得多。另一方面，这也与AI模型的本质以及通往AGI的道路有关。

Transformer模型的本质是预测下一个Token，而AI模型的本质是对数据的“压缩”。视觉模型预测的是下一个视觉影像，压缩的是视觉数据，这比对文字的压缩更接近真实世界。不少学者认为，这正是通向AGI的关键一步。

不过，还有顶尖学者认为，视频仍然不够，模型的数据应该是三维的，需要引入“空间”这个属性。比如，美国国家工程院院士李飞飞曾对国内媒体表示，实现AGI的关键一环是“空间智能”，而非二维智能。只有通过空间智能，才能看到世界、感知世界、理解世界，并最终让机器人付诸行动，从而形成良性闭环。

从学术视角回到AI视觉模型的创业与应用，目前的格局与文本大模型类似，分为“模型派”和“应用派”。

模型派以OpenAI为代表，它的杀手产品仍然是ChatGPT。DALL·E 3是作为一项功能嵌入其中，并没有为视觉模型开发专门的应用，也没有针对某个具体场景进行针对性优化。

应用派在ToC方向上，比较典型的例子是MidJourney。它已经拥有成熟的应用生态，以及不断迭代的模型。在ToB方向上，大厂如Adobe将AI视觉模型的能力融入其视觉工具套件Firefly；也有像synthesia这样的创业公司，专注于用AI视觉模型为企业生成类真人的数字人形象。

在国内，快手可灵、智谱CogVideoX（开源）等视频模型已经逐步开放，而且效果颇具竞争力——相比之下，Sora至今还是个“期货”。

还有一类创业公司，走的是“模型+应用”的路线。国内比较典型的例子是Hidream.ai。它拥有自研的DiT架构大尺寸视觉模型，不仅有面向专业创作者的文生图和文生视频应用，在电商、视频彩铃等垂直场景中也有专用工具。

不得不说的是，这一类创业公司，通常是由具备学术、商业或大厂背景的顶尖创业者所创办，也是在当前AI创业环境下，最值得选择的方向之一。

你可能已经注意到，Black Forest Labs的FLUX.1系列模型中，有两个都是开源的。开源模型对于AI的开发者生态、创业和应用生态究竟有多重要？

一方面，开源模型让开发者社区能够探索更广泛的应用和用例，同时允许外部研究人员分析模型中的潜在偏差或问题，帮助模型建立信任并提高可靠性。另一方面，开源模型对于创业公司和小型企业使用AI来说格外关键，它有效降低了这些企业的模型训练负担，进而促进了小团队在应用层面的创新。要知道，MidJourney在实现1亿美元收入时，整个团队只有十几个人。

来源：https://www.aiagiai.com/2428.html

上一篇北大校友弃MIT教职打造千智能体AI文明西部世界 下一篇数字人技术助推直播进入自动驾驶时代

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。