首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
华人团队打造AI生图新势力香蕉与GPTImage之外的第三种选择

华人团队打造AI生图新势力香蕉与GPTImage之外的第三种选择

热心网友
79
转载
2026-05-07

一支不到15人的团队,把图像模型做到了全球第三。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

5月6日凌晨,Luma AI正式宣布开放Uni-1.1 API。

几乎在同一时间,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的“大洗牌”——

Luma凭UNI-1.1与UNI-1.1-Max直接冲进全球前三,仅次于OpenAI(gpt-image-2)和Google(nano-banana-2)。

△Arena.ai图片生成榜单

把Microsoft AI、Reve、xAI等玩家……悉数甩在身后。

这个排名的含金量不言而喻,Arena.ai采用的是一套依靠用户盲测投票产出的ELO评分系统,没有官方公关或自报数据,每张图都是由真实用户在不知道模型来源的前提下,对两份生成结果二选一投出来的。

这意味着,在真实场景下,图像模型Uni-1.1的审美和输出质量,已经成了OpenAI和Google之外的最优解。

随API、排名榜单一同发布的,还有两项硬指标值得一起看:

  • 价格腰斩:2K分辨率单图最低$0.0404(合rmb0.2755元),对比Nano Banana级别模型直接砍半;
  • 落地飞快:阿迪达斯、马自达以及阳狮集团等广告大户,已经带头签了单。

更值得注意的是,一个原本预算1500万美元、周期一年的广告campaign,用Luma Agents跑了40小时、花了不到2万美元,不仅拓展成多国本地化版本,还通过了甲方内审。

这已经不是在讨论“图画得好不好看”了。

推理和生成,住进同一个模型

很多人最初看到Uni-1,第一反应觉得这是又一个图像模型。

但Luma这次发布的真正卖点,并不在像素质量本身,而是它把推理(reasoning)和生成(generation)放进了同一个模型。

传统图像模型的工作流是:用户写prompt → 模型直接出图 → 不满意→ 换prompt重抽。

整个过程里,模型理解了什么和模型画了什么是两件事,企业拿这种AI工具去跑品牌投放,最大的痛点是不可控,同一个角色到了下一张图就变样、品牌色每次都飘、跨市场素材风格各跑各的。

而Uni的架构改变了这件事。

它采用decoder-only自回归Transformer,文本token与图像token共享同一个序列——

也就是说,模型不是先翻译再画,而是同时跨模态推理;构图、空间、品牌一致性这些约束,是在像素生成之前就已经在结构层面被求解。

API层面的体现就是两个端点:

  • Reasoning端点:解构指令、规划构图、锁定品牌/角色/产品约束;
  • Generation端点:在推理结果之上完成像素渲染。

这套设计的产业意义,是把创意可控性从prompt工程的玄学,变成了一组能写进生产pipeline的API契约。

谁在用:广告巨头、运动品牌、素材平台

Luma这次没有把Uni-1.1当成开发者玩具发布,而是直接把企业客户名单亮了出来。

1、广告与营销侧

Publicis Groupe(阳狮,全球领先的广告与传播集团)和Serviceplan(欧洲最大的自主经营广告袋里集团):

把Luma Agents(基于Uni-1.1)部署到从策略、创意开发到生产的全流程。

一个被多次援引的标杆案例是,把某品牌原计划1500万美元、一年期的广告campaign,用40小时、不到2万美元(合rmb约13.6万元)的成本,拓展为多国本地化版本,且通过了甲方内部质量审核。

Adidas、Mazda:

把Uni-1.1接入品牌内容生产流水线,用于跨市场视觉素材的批量生成与一致性维护。

2、素材与开发者生态侧

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作者平台与AI工作流公司,已基于Uni-1.1 API发布了集成。

Luma创始人兼CEO Amit Jain把这件事概括为:

用语言思考,用像素想象与渲染,这就是像素中的智能(intelligence in pixels)。

三个最先被产业验证的应用方向

从已落地的客户案例倒推,Uni-1.1 API在以下三个方向上,已经有了清晰的ROI模型:

1. 广告本地化

一支在纽约拍的广告主视觉,要在东京、利雅得、巴黎、上海各发一版。

传统流程要重拍、重P、重做合规审查,单条预算从几万到几十万美元不等。

Uni-1.1单次API调用支持最多9张参考图联合输入,把品牌主形象、文字、产品、地域元素作为模型层级的硬约束传入,多语言渲染(含中文、阿拉伯文等非拉丁字符)一次到位。

Publicis案例里40小时 vs 一年的差距,就是从这里挤出来的。

2. 电商与产品可视化

电商场景的痛点是量大、SKU杂、还要保证产品本体一致。

开发者可以把产品照、面料样、场景参考一并喂给API,单图成本最低$0.0404,做到按页/按用户/按地域实时生成产品图,而不是一次拍完反复套模板。

Luma官方把这种用法叫作reference-grounded brand workflows at scale,即参考图作为模型级约束,把视觉身份锁在所有channel里。

3. 角色与IP一致性

游戏美宣、漫画、影视前期、虚拟代言——

这些场景需要同一个角色穿越不同场景、姿态、光线,但身份信息必须稳如老狗。

Uni-1.1的多参考图机制+ 句子级编辑(按句改图,默认保留其他元素),让这件事可以做成确定性流水线,而不是反复抽卡赌运气。

能力速览:3个例子,看懂边界

单图直出一整张「2036年新闻网站」

Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who ha ve evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

(生成一个来自2036年的新闻网站页面,其中包含相关的新闻,以及专门为Agent设计的广告模块。这些Agent已经进化出各自独特的“人格”。整个网站内容以及所有广告都必须使用英文呈现。)

一张图测出一个模型的「真实成色」——

Uni-1.1单次推理生成了一整页可读的新闻网站:

包括报头、栏目导航、突发新闻条、头条主图、多栏正文、署名/时间戳、面向AI受众的横幅广告位、页脚链接,十几类版式元素同框,每一类的英文文本都是真实可读的。

而不是图像模型常见的「远看OK、但近看全是乱码」。

这样的复杂版面+长文本任务,在传统pipeline里要由文本编辑、OCR一致性、版面结构多个模块联合完成,Uni-1.1把它们捏在了一次推理里。

多参考图+品牌logo+真人融合

两只猫+一位真人+Luma logo,4张参考图融合成一个有逻辑的会议场景。

GPT Image 1.5把参考图当贴图直接嵌入了PPT区域,Uni-1在语义层面完成了融合,这是品牌campaign里产品+代言人+场景+logo组合最常见的需求。

多轮编辑:三连改不丢主体

去掉前面那只熊→加一个黑色布帘→改成黑白照片,三轮指令叠加,主体一致性和空间关系在每一轮都没崩。

这是按句编辑在生产环境里最值钱的能力,产品经理可以像编辑文档一样迭代视觉。

(注:Uni-1.1还支持中文文字渲染、UV贴图、草稿转漫画、风格迁移、跨年龄角色故事板等更多场景,本文不再展开。)

价格:把图像生成的边际成本打到地板

API直接对企业敞开了两档计费:

Build计划(按量计费)

Scale计划(预留吞吐,最低8单元起订)

Luma的官方说法是,价格与延迟均不到同类模型的一半——

这一点在第三方榜单和早期接入客户的成本对比里已被实证。

SDK覆盖Python/Ja vaScript/TypeScript/Go/CLI,从platform.lumalabs.ai拿key即可接入。

团队不到15人,干到全球第三:DDIM之父&CVPR最佳论文作者带队

Uni-1的核心研究团队不到15人,由两位华人学者领衔:

  • 宋佳铭(Jiaming Song):清华本科、斯坦福博士。代表作DDIM(Denoising Diffusion Implicit Models)是扩散模型采样加速的奠基工作之一,被Stable Diffusion、DALL·E等系统广泛采用;
  • 沈博魁(William Shen):斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。

一位深耕“生成”、一位精于“理解”。

这种互补的阵容,恰好对应了Uni-1.1“脑手合一”的架构,让模型在落笔画图之前,先学会像人类一样思考构图和品牌逻辑。

在Google、OpenAI主导的图像赛道里,一支不到15人的团队,把API定价压到同行一半,还顺便在Arena.ai上完成了对一众大厂的“越级反杀”,是这次发布另一个值得记一笔的产业信号。

API发布前后,Luma团队在X平台上,贴出了三条短评:

Luma首席科学家宋佳铭说:

我们用的算力规模可能会让你感到意外。为我们团队感到骄傲。

(稍微更详细的报告,很快会发布。)

Uni-1研究负责人沈博魁(William Shen)说:

UNI-1的首发,让我们成了除OpenAI与Gemini App之外排名最高的实验室。对一个第一代统一图像模型来说,这个起点不算差。顺带一提,这次榜单更新里,GPT Image 2的ELO比之前掉了110分,不太确定中间发生了什么……

而Luma模型产品lead Barkley Dai说:

Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审美,价格只有Nano Banana的零头。

两条背后的潜台词是,Uni-1.1是Luma统一智能路线的第一代产品;

而它是以第一代的身份,直接干到Arena.ai第三名,把价格压到同类一半。

下一步:从图像到“看说推想”的连续流

按照Luma的路线图,Uni-1.1只是统一智能的第一代落地形态。

下一步,他们会把这套统一框架从静态图像扩展到视频、语音和交互式世界模拟——

目标是构建一个能在连续流里看、说、推理、想象的多模态系统。

其CEO Amit Jain对此的总结是:

统一智能的真正价值,不是更好看的图,而是模型既能理解又能生成之后,AI第一次真正具备了端到端完成创意工作的能力。

来源:https://www.qbitai.com/2026/05/413264.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

蚂蚁阿福健康中国行动免费为1亿人解读体检报告
科技数码
蚂蚁阿福健康中国行动免费为1亿人解读体检报告

蚂蚁阿福启动“健康中国体检关怀行动”,目标为1亿人免费解读体检报告。AI通过红黄蓝绿灯系统快速标注风险,生成个性化健康清单,并支持多年报告连读以追踪趋势。此外,它还能管理个人健康档案、推荐体检项目、解答注意事项,助力大众便捷管理健康全程。

热心网友
05.06
五一假期AI出行助手需求激增四成千问开放智能办事功能
科技数码
五一假期AI出行助手需求激增四成千问开放智能办事功能

五一”期间,千问平台出行类AI需求激增超400%。用户不仅要求生成详细旅行攻略,近六成更直接委托订票、订酒店等实际操作。这反映用户期待AI从“问答”转向“办事”。千问近期已接入多项生活服务并开放“AI办事”能力,可串联规划、预订、出行等全流程,实现从计划到执行的闭环。

热心网友
05.06
豆包AI为何开始收费 解读应用商业化趋势与用户影响
科技数码
豆包AI为何开始收费 解读应用商业化趋势与用户影响

2024年5月,豆包主力模型将推理输入价格一举拉低至每千tokens 0 0008元,那场价格战仿佛还在昨天,它亲手将整个行业带入了“厘时代”。然而,仅仅两年后,又是豆包,为那个“AI免费时代”画上了一个阶段性的句号。 最近,豆包在App Store的页面悄然更新了服务声明,宣布在现有免费版基础上,

热心网友
05.06
AI游戏创作平台Astrocade用自然语言生成完整可玩游戏
业界动态
AI游戏创作平台Astrocade用自然语言生成完整可玩游戏

Astrocade是一个AI驱动的零代码游戏创作平台,用户只需用自然语言描述想法,系统便能在几分钟内自动生成包含代码、美术和音效的完整游戏。生成后还可调整难度、配色等参数。平台采用竖屏信息流设计,融合创作、游玩与社交,已覆盖全球80多个国家,并为创作者提供收益渠道。

热心网友
05.06
知识图谱AI构建!复杂知识点可视化,理解更轻松
AI
知识图谱AI构建!复杂知识点可视化,理解更轻松

知识图谱AI构建:五种方法,让复杂知识一目了然 面对海量、零散又抽象的知识点,是不是常常感觉理不清头绪?问题很可能出在缺乏结构化的梳理和可视化的呈现。将知识转化为图谱,恰恰是破解这一困境的利器。下面这五种AI构建方法,几乎覆盖了从技术极客到纯小白的全部需求场景,总有一款能帮你轻松跨越从0到1的门槛。

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Java对象比对防空指针指南Objects.equals方法安全使用详解
编程语言
Java对象比对防空指针指南Objects.equals方法安全使用详解

在Java中直接调用a equals(b)进行对象比较时,若a为null会抛出NullPointerException。使用Objects equals(a,b)方法能自动处理参数为null的情况,其内部通过先检查引用是否为null再调用equals,从而安全地完成比较。该方法适用于实体字段判等等场景,但需注意其将两个null视为相等的设计是否符合具体业务逻

热心网友
05.07
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解
编程语言
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解

全局拦截子线程崩溃需设置默认处理器并结合自定义ThreadFactory为每个新线程注入统一处理器,前者作为兜底方案,但无法覆盖已有专属处理器的线程及Android主线程。Android中还需额外处理主线程及异步框架异常。捕获崩溃后应留存现场、异步上报并防止雪崩。

热心网友
05.07
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析
编程语言
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析

CMS垃圾收集器以低延迟为目标,其四个阶段中仅初始标记和重新标记需要暂停所有用户线程。初始标记快速标记直接关联对象,重新标记修正并发标记期间变动的引用,两者停顿时间极短。而并发标记和并发清除阶段则与用户线程并行执行,避免了长时间中断。

热心网友
05.07
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践
编程语言
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践

ByteBuffer asReadOnlyBuffer()方法创建原缓冲区的只读视图,共享底层数据且禁止写入,但无法阻止通过其他可写引用修改数据,因此不提供真正的数据隔离。它适用于需只读访问且避免拷贝的场景;若需完全隔离,则应进行深拷贝。

热心网友
05.07
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南
编程语言
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南

ExceptionInInitializerError常包裹单例模式静态初始化时发生的空指针异常。排查需通过getCause()找到根源,通常是静态字段赋值或静态代码块中的空值。应注意静态初始化顺序,避免循环依赖。对于复杂初始化,推荐使用懒汉式并在getInstance()方法内进行异常处理,以便直接定位问题。

热心网友
05.07