如果2023年是文本生成大模型爆发的一年,那从2023年下半年到2024年上半年,就是视觉大模型(包括图片和视频)的井喷期。MidJourney V6、Sora、Stable Diffusion 3-Ultra等模型,逐一引领着这个潮流。

这股视觉模型的创业浪潮不仅没有消退,反而愈演愈烈。最新的玩家是Black Forest Labs,由Stable Diffusion的原始团队创立。它们刚推出了尺寸12B、采用DiT(Diffusion Transformer)架构的视觉大模型FLUX.1,输出表现足以媲美市面上的顶级模型。
本图片由FLUX.1生成,作者viet
Black Forest Labs近日完成了3100万美元的种子轮融资,由Andreessen Horowitz(a16z)领投,天使投资人阵容包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun,以及其他多位在AI研究和公司建设领域声名显赫的专家。同时,它也透露General Catalyst和MätchVC的后续融资已经在路上了。
FLUX.1文本生成图像模型共有三个版本,除了闭源并通过API提供服务的版本外,还有一个可以在Apache2.0许可下开放获取的开源版本。在StabilityAI风雨飘摇的当下,这个开源版本让开发者们能以低成本使用强大的视觉基础模型,为开源人工智能社区注入了新的活力。
先说一个核心判断:这是一个结构全新、尺寸庞大的开源视觉模型。
Black Forest Labs汇聚了一众杰出的AI研究人员和工程师,在学术界、工业界和开源世界都拥有深厚的积累。他们此前的代表作包括VQGAN、潜在扩散(Latent Diffusion)模型、Stable Diffusion图像和视频生成模型(如Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像合成的对抗性扩散蒸馏(Adversarial Diffusion Distillation)。
核心领导团队由Robin Rombach、Patrick Esser和Andreas Blattmann组成,其中Robin Rombach尤为关键——他是Stable Diffusion的两位主要创建者之一。可以说,他们在潜在扩散模型上的工作,不仅为Stable Diffusion奠定了基础,也深刻影响了DALL-E 2、DALL-E 3以及Sora等模型的核心架构。
Black Forest Labs宣称,他们的核心信念是:只有广泛可访问的高性能模型,才能在研究社区和学术界内促进创新与合作,同时增加透明度——这对建立信任和实现广泛采用至关重要。
FLUX.1模型家族
这次发布的FLUX.1文生图模型家族,全部采用DiT(Diffusion Transformer)混合架构,模型尺寸高达12B(在视觉模型中属于超大尺寸)。训练方法上采用了构建流匹配(flow matching)等新型扩散模型技术,并引入了旋转位置嵌入和并行注意力层,以提升模型性能和硬件效率。
从实际表现来看,这一系列新模型在图像细节、提示跟随、风格多样性和场景复杂性方面都交出了亮眼的成绩单。例如,它能生成高分辨率图像,人物在解剖结构上更加合理;而且由于Transformer的加入,在应对复杂指令时表现也更出色。
FLUX.1共有三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]。
- FLUX.1 [pro] 是性能最强的版本,在提示跟随、视觉质量、图像细节和输出多样性上都达到了行业顶尖水平。它可以通过Black Forest Labs的API,以及Replicate和fal.ai等模型云平台获取。
- FLUX.1 [dev] 是一个开源权重的指导蒸馏模型,从FLUX.1 [pro]蒸馏而来。它在保持类似质量和提示遵循能力的同时,比同等大小的标准模型更加高效。其权重可在HuggingFace上获取,但需要注意的是,它并非一个可用于商业用途的开源模型。
- FLUX.1 [schnell] 专为本地开发和个人使用量身定制,采用宽松的Apache2.0开源协议。推理代码可在GitHub和HuggingFace的Diffusers中找到,并在推理速度上做了专门优化。
Black Forest Labs将FLUX.1系列与Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等主流模型进行了全面对比。无论是竞技场ELO分数,还是模型尺寸、生成质量、指令遵循等指标的平衡,FLUX.1都达到了SOTA水平。其开源的版本,也全面超越了Stable Diffusion 3系列的同类模型。
话说回来,今年视频模型的流行程度确实超过了文生图。Black Forest Labs也预告了其视频模型,这款模型将以FLUX.1为基础,力求在高精度、高清晰度和高速度上实现突破。
a16z在一篇博文中对此评价道:“视觉AI正面临供应链问题。尽管图像和视频生成的基础模型正在飞速发展,但这些模型只是AI价值链的起点。要发挥它们的最大潜力,需要全球最优秀的产品和工程团队,来打造令人愉悦、简单且量身定制的工作流程和终端用户体验——这才是价值链的终点——而开发者无需成为生成建模研究的专家也完全可以做到。
因此,我们非常高兴地宣布对Black Forest Labs(BFL)的种子投资。这个团队致力于为开发者构建世界上最好的开源视觉模型。BFL专注于解决这一需求,只聚焦于价值链的起点部分,从而让开发者和产品工程师能够心无旁骛地专注于终点部分。”
良好模型能力+强商业化能力,是视觉大模型创业的康庄大道
为什么视觉模型会呈现井喷式发展?
一方面,这是需求所致。视觉模态对人们的冲击力,显然比单纯的文字要强烈得多。另一方面,这也与AI模型的本质以及通往AGI的道路有关。
Transformer模型的本质是预测下一个Token,而AI模型的本质是对数据的“压缩”。视觉模型预测的是下一个视觉影像,压缩的是视觉数据,这比对文字的压缩更接近真实世界。不少学者认为,这正是通向AGI的关键一步。
不过,还有顶尖学者认为,视频仍然不够,模型的数据应该是三维的,需要引入“空间”这个属性。比如,美国国家工程院院士李飞飞曾对国内媒体表示,实现AGI的关键一环是“空间智能”,而非二维智能。只有通过空间智能,才能看到世界、感知世界、理解世界,并最终让机器人付诸行动,从而形成良性闭环。
从学术视角回到AI视觉模型的创业与应用,目前的格局与文本大模型类似,分为“模型派”和“应用派”。
模型派以OpenAI为代表,它的杀手产品仍然是ChatGPT。DALL·E 3是作为一项功能嵌入其中,并没有为视觉模型开发专门的应用,也没有针对某个具体场景进行针对性优化。
应用派在ToC方向上,比较典型的例子是MidJourney。它已经拥有成熟的应用生态,以及不断迭代的模型。在ToB方向上,大厂如Adobe将AI视觉模型的能力融入其视觉工具套件Firefly;也有像synthesia这样的创业公司,专注于用AI视觉模型为企业生成类真人的数字人形象。
在国内,快手可灵、智谱CogVideoX(开源)等视频模型已经逐步开放,而且效果颇具竞争力——相比之下,Sora至今还是个“期货”。
还有一类创业公司,走的是“模型+应用”的路线。国内比较典型的例子是Hidream.ai。它拥有自研的DiT架构大尺寸视觉模型,不仅有面向专业创作者的文生图和文生视频应用,在电商、视频彩铃等垂直场景中也有专用工具。
不得不说的是,这一类创业公司,通常是由具备学术、商业或大厂背景的顶尖创业者所创办,也是在当前AI创业环境下,最值得选择的方向之一。
你可能已经注意到,Black Forest Labs的FLUX.1系列模型中,有两个都是开源的。开源模型对于AI的开发者生态、创业和应用生态究竟有多重要?
一方面,开源模型让开发者社区能够探索更广泛的应用和用例,同时允许外部研究人员分析模型中的潜在偏差或问题,帮助模型建立信任并提高可靠性。另一方面,开源模型对于创业公司和小型企业使用AI来说格外关键,它有效降低了这些企业的模型训练负担,进而促进了小团队在应用层面的创新。要知道,MidJourney在实现1亿美元收入时,整个团队只有十几个人。
