首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
硅谷150人创企发布新AI模型,性能比肩GPT-4、价格仅三成

硅谷150人创企发布新AI模型,性能比肩GPT-4、价格仅三成

热心网友
52
转载
2026-03-26


智东西
编译 杨京丽
编辑 李水青

智东西3月24日消息,3月23日,硅谷初创公司Luma AI正式推出全新图像模型Uni-1。该模型将图像理解与图像生成统一起来,因而既能思考又能创作。Uni-1基准测试与Google的Gemini 3 Pro持平,并且在高分辨率图像生成任务中成本降低了约10%到30%,空间理解能力测试得分甚至超过谷歌Nano Banana 2和OpenAI GPT Image 1.5。


▲Luma AI官宣图片模型Uni-1(图源:X)

创立于2024年的Luma AI此前以视频生成工具Dream Machine闻名。此次Uni-1的发布标志着其从单一视频生成向“统一智能”方向转型。该模型最早于3月5日随Luma Agents创意平台一同亮相,3月22日的公开发布则面向更广泛的开发者和用户。

值得注意的是,Uni-1大胆地在底层架构上做了一次“换道”,抛弃了当前主流的扩散模型(Diffusion)路线,转而采用自回归生成架构,即大语言模型所使用的“逐token预测”方法。这意味着,Uni-1在生成图像时能够像语言模型一样进行推理,而非仅仅“降噪出图”。一家150人的旧金山初创公司,正在试图重新定义AI图像生成的技术范式。

智东西也亲身体验了一下。我让它“生成一张宿命感照片,一个长发飘飘的女子身穿战国袍,配了把剑”,输入提示词后,他会先花几秒钟分析我的需求,然后再进行创作。创作花了差不多5分钟终于完成了,生成的画面很有电影感,头发、衣摆随风自然飘动,服饰很有质感。整体语义理解精准、细节丰富,但是仔细看可以发现剑出现了两把,貌似有点小问题。


▲Uni-1生成的图片(图源:Lumalabs)

体验链接在这里,大家也可以去试试。
https://app.lumalabs.ai/

一、告别扩散模型,Uni-1用“语言模型的方式”画图

要理解Uni-1的意义,需要先理解它替代了什么。目前AI图像生成领域的主流方案是扩散模型,即从随机噪声出发,在文本嵌入的引导下逐步去噪,最终生成一张图像。Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于这一范式。扩散模型的视觉效果不错,但有一个根本性缺陷:它不具备真正的“推理”能力,无法在生成过程中思考空间关系、物理合理性或逻辑约束。

业界此前的应对方式是“打补丁”。比如,DALL-E 3用GPT-4先改写用户提示词,再交给生成模型;谷歌Imagen 3则依赖Gemini做前置推理。这些方案本质上引入了一道“翻译层”,用来消除创作中的理解偏差。


▲X上网友对于Uni-1的评价(图源:X)

Uni-1则选择了一种完全不同的方式。据Luma AI的技术文档,Uni-1采用纯解码器(decoder-only)自回归Transformer架构,即文本和图像token在同一序列中交错排列,共享传播通道,不依赖独立的视觉编码器。Luma AI称,Uni-1能在图像合成前和合成中进行结构化内部推理,包括分解指令、解决约束和规划构图。

在实际操作中,模型可将多张宠物照片中的动物合成到一个全新场景中,穿上学术礼服、站在写满科学图表的白板前,保留每只动物的独特特征。以往这些任务通常需要大量手动调整或后期处理。


▲Uni-1技术文档中示例图片(图源:Lumalabs)

二、关键跑分:推理能力拉开差距,逻辑推理得分翻倍

基于推理的视觉编辑的基准测试工具RISEBench从时间、因果、空间和逻辑四大维度对图像生成AI进行了跑分,Uni-1综合分0.51,谷歌Nano Banana 2得分0.50,Nano Banana Pro是0.49,OpenAI GPT Image 1.5是0.46。总分看着咬得很紧,我们可以聚焦不同维度来比一比:

空间推理:Uni-1得分0.58,Nano Banana 2仅0.47;逻辑推理:Uni-1得分0.32,略次于Nano Banana 2(0.38),是GPT Image 1.5(0.15)和Qwen-Image-2(0.17)的两倍以上。


▲五款图片生成模型RISEBench跑分对比(图源:Lumalabs)

在ODinW-13物体检测基准测试中,Uni-1完整版得分46.2 mAP,几乎追平谷歌Gemini 3 Pro的46.3,大幅领先Qwen3-VL-Thinking的43.2。值得注意的是,Uni-1仅具备理解能力(未经生成训练)的变体得分为43.9,而完整版提升了2.3分。这直接证明了一个关键假设:学会生成图像,能反过来提升模型的图像理解能力。


▲物体检测基准测试Uni-1几乎追平谷歌Gemini 3 Pro(图源:Lumalabs)

在与Midjourney v8的对比中,科技媒体The Decoder的测试认为Uni-1在复杂推理类生成任务上“明显优于Midjourney v8”。有Reddit用户在逐一对比后评价:“在真正的逻辑推理、复杂场景理解、空间合理性这些方面,Uni-1完全碾压。”不过,Midjourney在艺术风格化和审美质感方面仍保有优势。

三、定价策略:高分辨率比谷歌便宜,瞄准企业客户

根据公开定价数据,Uni-1在企业常用的2K分辨率上具有明显的价格优势:

谷歌Nano Banana 2在低分辨率上仍有价格优势,0.5K图像约0.045美元/张(约合人民币0.31元),1K图像约0.067美元/张(约合人民币0.46元)。对于大规模生产高分辨率图像的企业团队而言,Uni-1在质量和成本两端同时占优。Luma AI在输出端的token定价为每百万token 45.45美元(约合人民币322元)。

面向个人用户,定价则分为包年、包月和单次计价三种模式。作为一家初创公司,Luma AI无法在分发渠道和基础设施上与谷歌抗衡,“性能更强、价格更低”是它能打动客户的核心筹码。


▲Uni-1定价(图源:Uni-1正式)

四、社区反馈:从“提示词碰运气”到“真正的创作控制”

Uni-1发布后,尽管大规模独立测试仍在进行中,早期社区反应积极。

X平台用户反馈良好,网友直言,图像生成终于不用费劲想提示词了。Reddit上一位进行了逐项对比测试的用户给出了更细致的评价:Nano Banana 2在速度和文字渲染上仍有优势,但在“真正的逻辑推理、复杂场景理解和需要深度思考的编辑任务”上,Uni-1略胜一筹。该用户总结道:“如果你在意的是图像真正‘合理’,而不只是‘好看又快’,Uni-1是目前的最佳选择。”


▲X上网友对于Uni-1的评价(图源:X)

不过,也有用户持观望态度。部分用户表示仍在等待完整API权限以进行独立测试,对非拉丁文字的处理效果、极端边缘场景以及最高分辨率下的生成速度仍有疑问。客观地说,社区的兴奋更多针对“新技术路线的突破感”,长期表现仍需时间验证。

目前Uni-1可在lumalabs.ai免费体验,API访问正在逐步开放。

结语:Luma真的能后来居上吗?

从Uni-1的发布可以预测到,AI图像生成的竞争正在从“谁的图更好看”转向“谁的模型更能理解指令”。扩散模型统治这一领域已有三年之久,而自回归架构以大语言模型式的推理能力切入,第一次在核心基准测试上证明了这条路线的可行性,也可能影响未来更多实验室的技术路线选择。

真正的考验在于,Uni-1能否在API大规模调用、多语言支持和生成速度上经受住企业级场景的检验。这场“架构之争”才刚刚进入正赛。你认为自回归路线能在图像生成领域站稳脚跟吗?

来源:VentureBeat、Lumalabs、X、The Decoder

来源:https://www.163.com/dy/article/KOQGQP3F051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌与XREAL合作推出XR眼镜真机首秀年内全球量产
科技数码
谷歌与XREAL合作推出XR眼镜真机首秀年内全球量产

谷歌与XREAL合作的ProjectAuraAR眼镜在I O2026大会上首次公开实机体验,并宣布年内量产。该设备搭载AndroidXR系统,融合GeminiAI能力,实现空间计算与物理世界的连接。其硬件采用自研芯片与光学技术,展示了三维绘画等交互场景。双方合作旨在推动AR生态发展,加速轻量化设备进入消费市场。

热心网友
05.21
谷歌高管反思Google Glass失败原因 时尚比技术更关键
AI资讯
谷歌高管反思Google Glass失败原因 时尚比技术更关键

谷歌高管总结GoogleGlass失败教训,认为消费级穿戴设备中时尚比技术更重要。新一代AndroidXR眼镜因此与时尚品牌合作,强调外观与实用并重。初代产品曾因价格高昂、功能单一而遇冷。如今谷歌借助AI与生态协同寻求突破,未来计划推出搭载专用安卓系统的带屏版本。

热心网友
05.21
谷歌Nano Banana 2实测14图融合角色一致性表现如何
AI资讯
谷歌Nano Banana 2实测14图融合角色一致性表现如何

谷歌NanoBanana2在角色一致性上实现突破,能通过14张参考图融合稳定锚定角色与物体特征,支持跨图像语义对齐。该技术适用于系列插画、品牌资产批量生成等场景,通过固定种子、调节权重等协同控制确保输出稳定。其强项在于结构保真与特征复用,但在复杂交互、动态流体及长文本渲染方面仍有局限。

热心网友
05.21
谷歌核心业务面临哪些关键挑战
AI资讯
谷歌核心业务面临哪些关键挑战

2026年的Google I O大会,舆论场上的叙事出奇一致:“量大管饱”、“Agent帝国”、“操作系统级胜利”。 但如果你愿意多追问一句:当一家公司把什么都做成“系统”的时候,它的命门是不是也同时藏在了这套系统里? 那么,我们不妨顺着这个思路往下看。 速度换时间,却换不来护城河 这场发布会最抢眼

热心网友
05.21
谷歌I/O 2026大会重磅发布:一文看懂所有新品与更新
AI资讯
谷歌I/O 2026大会重磅发布:一文看懂所有新品与更新

谷歌I O2026大会聚焦AI实用价值。其产品月处理Token量超3 2千万亿,13款产品月活破十亿。新发布多模态世界模型GeminiOmni和高效模型Gemini3 5Flash。对话式AI深入YouTube、文档等核心产品,个人智能体GeminiSpark即将推出。基础设施投入大幅增加,资本支出预计达约1800亿美元。整套技术体系正全面向智能体方向演进。

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

造梦无双全BOSS爆点位置与掉落物品详解
游戏攻略
造梦无双全BOSS爆点位置与掉落物品详解

想在游戏里高效“刷”出心仪的装备或材料吗?摸清Boss的刷新位置是关键一步。这份汇总整理了游戏中各个Boss的常见刷新点,希望能帮你少走弯路,精准出击。 有几点需要提前说明:首先,地图信息部分来源于其他玩家的探索与分享;其次,为了保持信息清晰,正文中不会包含任何讨论或引导性发言,所有具体位置和细节都

热心网友
05.23
免费设计素材下载网站千图网素材资源库
AI教程
免费设计素材下载网站千图网素材资源库

在创意设计与数字营销工作中,高效获取高质量、可商用的设计素材是提升工作效率的关键。本文将为您全面解析国内知名的设计素材服务平台——千图网,深入探讨其核心功能、资源特色以及实际应用价值,帮助您判断它是否适合您的创作需求。 千图网是什么平台? 千图网是国内领先的在线设计素材与模板服务平台,致力于为设计师

热心网友
05.23
火币HTX安卓苹果官方APP下载渠道与安全安装指南
web3.0
火币HTX安卓苹果官方APP下载渠道与安全安装指南

火币HTX官方App需通过其官网安全下载。安卓用户访问官网可直接下载APK安装包;苹果用户则需通过官网跳转至AppStore下载,若遇地区限制需遵循官网指引。务必通过搜索引擎核实官方认证的官网地址,避免使用非官方链接,以确保资产安全。

热心网友
05.23
ManusAI教育应用指南 AI智能体教学实战案例解析
AI资讯
ManusAI教育应用指南 AI智能体教学实战案例解析

ManusAI是专为教育设计的智能协作者,教师只需用自然语言描述教学目标,它便能自动完成资源检索、内容生成、交互开发等全套工作,无需复杂操作。其内置教育流程可生成覆盖课前到课后的完整教学资源包,支持互动网页、微课脚本、个性化题库等。实际案例显示,该工具能有效提升学生参与度并减。

热心网友
05.23
极狐阿尔法S3上市 5.98万起售 B级空间支持99秒换电
业界动态
极狐阿尔法S3上市 5.98万起售 B级空间支持99秒换电

极狐贝塔S3纯电家轿上市,换电版采用电池租用方案起售价5 98万元。该车定位B级,空间利用率高,提供灵活租电方案与快速换电服务。品牌同时明确了“贝塔”系列,与“问道”“阿尔法”系列构成三大产品支柱。车辆配备智能座舱与丰富配置,续航版本多样,高配智驾版将于第四季度交付。

热心网友
05.23