游乐游手机版
首页/AI教程/文章详情

Stable Diffusion原始作者创业,井喷的AI视觉赛道再添新玩家

时间:2026-07-03 15:28
由SD原始团队创立的BlackForestLabs推出12B参数DiT架构视觉大模型FLUX 1,性能媲美顶尖。提供闭源及开源版,获3100万美元种子轮融资,为开源社区注入新活力。

如果2023年是文本生成大模型爆发的一年,那从2023年下半年到2024年上半年,就是视觉大模型(包括图片和视频)的井喷期。MidJourney V6、Sora、Stable Diffusion 3-Ultra等模型,逐一引领着这个潮流。

Stable Diffusion原始作者创业,井喷的AI视觉再添新玩家

这股视觉模型的创业浪潮不仅没有消退,反而愈演愈烈。最新的玩家是Black Forest Labs,由Stable Diffusion的原始团队创立。它们刚推出了尺寸12B、采用DiT(Diffusion Transformer)架构的视觉大模型FLUX.1,输出表现足以媲美市面上的顶级模型。

本图片由FLUX.1生成,作者viet

Black Forest Labs近日完成了3100万美元的种子轮融资,由Andreessen Horowitz(a16z)领投,天使投资人阵容包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun,以及其他多位在AI研究和公司建设领域声名显赫的专家。同时,它也透露General Catalyst和MätchVC的后续融资已经在路上了。

FLUX.1文本生成图像模型共有三个版本,除了闭源并通过API提供服务的版本外,还有一个可以在Apache2.0许可下开放获取的开源版本。在StabilityAI风雨飘摇的当下,这个开源版本让开发者们能以低成本使用强大的视觉基础模型,为开源人工智能社区注入了新的活力。

先说一个核心判断:这是一个结构全新、尺寸庞大的开源视觉模型。

Black Forest Labs汇聚了一众杰出的AI研究人员和工程师,在学术界、工业界和开源世界都拥有深厚的积累。他们此前的代表作包括VQGAN、潜在扩散(Latent Diffusion)模型、Stable Diffusion图像和视频生成模型(如Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像合成的对抗性扩散蒸馏(Adversarial Diffusion Distillation)。

核心领导团队由Robin Rombach、Patrick Esser和Andreas Blattmann组成,其中Robin Rombach尤为关键——他是Stable Diffusion的两位主要创建者之一。可以说,他们在潜在扩散模型上的工作,不仅为Stable Diffusion奠定了基础,也深刻影响了DALL-E 2、DALL-E 3以及Sora等模型的核心架构。

Black Forest Labs宣称,他们的核心信念是:只有广泛可访问的高性能模型,才能在研究社区和学术界内促进创新与合作,同时增加透明度——这对建立信任和实现广泛采用至关重要。

FLUX.1模型家族

这次发布的FLUX.1文生图模型家族,全部采用DiT(Diffusion Transformer)混合架构,模型尺寸高达12B(在视觉模型中属于超大尺寸)。训练方法上采用了构建流匹配(flow matching)等新型扩散模型技术,并引入了旋转位置嵌入和并行注意力层,以提升模型性能和硬件效率。

从实际表现来看,这一系列新模型在图像细节、提示跟随、风格多样性和场景复杂性方面都交出了亮眼的成绩单。例如,它能生成高分辨率图像,人物在解剖结构上更加合理;而且由于Transformer的加入,在应对复杂指令时表现也更出色。

FLUX.1共有三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]。

  • FLUX.1 [pro] 是性能最强的版本,在提示跟随、视觉质量、图像细节和输出多样性上都达到了行业顶尖水平。它可以通过Black Forest Labs的API,以及Replicate和fal.ai等模型云平台获取。
  • FLUX.1 [dev] 是一个开源权重的指导蒸馏模型,从FLUX.1 [pro]蒸馏而来。它在保持类似质量和提示遵循能力的同时,比同等大小的标准模型更加高效。其权重可在HuggingFace上获取,但需要注意的是,它并非一个可用于商业用途的开源模型。
  • FLUX.1 [schnell] 专为本地开发和个人使用量身定制,采用宽松的Apache2.0开源协议。推理代码可在GitHub和HuggingFace的Diffusers中找到,并在推理速度上做了专门优化。

Black Forest Labs将FLUX.1系列与Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等主流模型进行了全面对比。无论是竞技场ELO分数,还是模型尺寸、生成质量、指令遵循等指标的平衡,FLUX.1都达到了SOTA水平。其开源的版本,也全面超越了Stable Diffusion 3系列的同类模型。

话说回来,今年视频模型的流行程度确实超过了文生图。Black Forest Labs也预告了其视频模型,这款模型将以FLUX.1为基础,力求在高精度、高清晰度和高速度上实现突破。

a16z在一篇博文中对此评价道:“视觉AI正面临供应链问题。尽管图像和视频生成的基础模型正在飞速发展,但这些模型只是AI价值链的起点。要发挥它们的最大潜力,需要全球最优秀的产品和工程团队,来打造令人愉悦、简单且量身定制的工作流程和终端用户体验——这才是价值链的终点——而开发者无需成为生成建模研究的专家也完全可以做到。

因此,我们非常高兴地宣布对Black Forest Labs(BFL)的种子投资。这个团队致力于为开发者构建世界上最好的开源视觉模型。BFL专注于解决这一需求,只聚焦于价值链的起点部分,从而让开发者和产品工程师能够心无旁骛地专注于终点部分。”

良好模型能力+强商业化能力,是视觉大模型创业的康庄大道

为什么视觉模型会呈现井喷式发展?

一方面,这是需求所致。视觉模态对人们的冲击力,显然比单纯的文字要强烈得多。另一方面,这也与AI模型的本质以及通往AGI的道路有关。

Transformer模型的本质是预测下一个Token,而AI模型的本质是对数据的“压缩”。视觉模型预测的是下一个视觉影像,压缩的是视觉数据,这比对文字的压缩更接近真实世界。不少学者认为,这正是通向AGI的关键一步。

不过,还有顶尖学者认为,视频仍然不够,模型的数据应该是三维的,需要引入“空间”这个属性。比如,美国国家工程院院士李飞飞曾对国内媒体表示,实现AGI的关键一环是“空间智能”,而非二维智能。只有通过空间智能,才能看到世界、感知世界、理解世界,并最终让机器人付诸行动,从而形成良性闭环。

从学术视角回到AI视觉模型的创业与应用,目前的格局与文本大模型类似,分为“模型派”和“应用派”。

模型派以OpenAI为代表,它的杀手产品仍然是ChatGPT。DALL·E 3是作为一项功能嵌入其中,并没有为视觉模型开发专门的应用,也没有针对某个具体场景进行针对性优化。

应用派在ToC方向上,比较典型的例子是MidJourney。它已经拥有成熟的应用生态,以及不断迭代的模型。在ToB方向上,大厂如Adobe将AI视觉模型的能力融入其视觉工具套件Firefly;也有像synthesia这样的创业公司,专注于用AI视觉模型为企业生成类真人的数字人形象。

在国内,快手可灵、智谱CogVideoX(开源)等视频模型已经逐步开放,而且效果颇具竞争力——相比之下,Sora至今还是个“期货”。

还有一类创业公司,走的是“模型+应用”的路线。国内比较典型的例子是Hidream.ai。它拥有自研的DiT架构大尺寸视觉模型,不仅有面向专业创作者的文生图和文生视频应用,在电商、视频彩铃等垂直场景中也有专用工具。

不得不说的是,这一类创业公司,通常是由具备学术、商业或大厂背景的顶尖创业者所创办,也是在当前AI创业环境下,最值得选择的方向之一。

你可能已经注意到,Black Forest Labs的FLUX.1系列模型中,有两个都是开源的。开源模型对于AI的开发者生态、创业和应用生态究竟有多重要?

一方面,开源模型让开发者社区能够探索更广泛的应用和用例,同时允许外部研究人员分析模型中的潜在偏差或问题,帮助模型建立信任并提高可靠性。另一方面,开源模型对于创业公司和小型企业使用AI来说格外关键,它有效降低了这些企业的模型训练负担,进而促进了小团队在应用层面的创新。要知道,MidJourney在实现1亿美元收入时,整个团队只有十几个人。

来源:https://www.aiagiai.com/2428.html
上一篇北大校友弃MIT教职打造千智能体AI文明西部世界 下一篇数字人技术助推直播进入自动驾驶时代
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通