硅谷150人创企发布新AI模型,性能比肩GPT-4、价格仅三成

智东西
编译 杨京丽
编辑 李水青
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
智东西3月24日消息,3月23日,硅谷初创公司Luma AI正式推出全新图像模型Uni-1。该模型将图像理解与图像生成统一起来,因而既能思考又能创作。Uni-1基准测试与Google的Gemini 3 Pro持平,并且在高分辨率图像生成任务中成本降低了约10%到30%,空间理解能力测试得分甚至超过谷歌Nano Banana 2和OpenAI GPT Image 1.5。

▲Luma AI官宣图片模型Uni-1(图源:X)
创立于2024年的Luma AI此前以视频生成工具Dream Machine闻名。此次Uni-1的发布标志着其从单一视频生成向“统一智能”方向转型。该模型最早于3月5日随Luma Agents创意平台一同亮相,3月22日的公开发布则面向更广泛的开发者和用户。
值得注意的是,Uni-1大胆地在底层架构上做了一次“换道”,抛弃了当前主流的扩散模型(Diffusion)路线,转而采用自回归生成架构,即大语言模型所使用的“逐token预测”方法。这意味着,Uni-1在生成图像时能够像语言模型一样进行推理,而非仅仅“降噪出图”。一家150人的旧金山初创公司,正在试图重新定义AI图像生成的技术范式。
智东西也亲身体验了一下。我让它“生成一张宿命感照片,一个长发飘飘的女子身穿战国袍,配了把剑”,输入提示词后,他会先花几秒钟分析我的需求,然后再进行创作。创作花了差不多5分钟终于完成了,生成的画面很有电影感,头发、衣摆随风自然飘动,服饰很有质感。整体语义理解精准、细节丰富,但是仔细看可以发现剑出现了两把,貌似有点小问题。

▲Uni-1生成的图片(图源:Lumalabs)
体验链接在这里,大家也可以去试试。
https://app.lumalabs.ai/
一、告别扩散模型,Uni-1用“语言模型的方式”画图
要理解Uni-1的意义,需要先理解它替代了什么。目前AI图像生成领域的主流方案是扩散模型,即从随机噪声出发,在文本嵌入的引导下逐步去噪,最终生成一张图像。Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于这一范式。扩散模型的视觉效果不错,但有一个根本性缺陷:它不具备真正的“推理”能力,无法在生成过程中思考空间关系、物理合理性或逻辑约束。
业界此前的应对方式是“打补丁”。比如,DALL-E 3用GPT-4先改写用户提示词,再交给生成模型;谷歌Imagen 3则依赖Gemini做前置推理。这些方案本质上引入了一道“翻译层”,用来消除创作中的理解偏差。

▲X上网友对于Uni-1的评价(图源:X)
Uni-1则选择了一种完全不同的方式。据Luma AI的技术文档,Uni-1采用纯解码器(decoder-only)自回归Transformer架构,即文本和图像token在同一序列中交错排列,共享传播通道,不依赖独立的视觉编码器。Luma AI称,Uni-1能在图像合成前和合成中进行结构化内部推理,包括分解指令、解决约束和规划构图。
在实际操作中,模型可将多张宠物照片中的动物合成到一个全新场景中,穿上学术礼服、站在写满科学图表的白板前,保留每只动物的独特特征。以往这些任务通常需要大量手动调整或后期处理。

▲Uni-1技术文档中示例图片(图源:Lumalabs)
二、关键跑分:推理能力拉开差距,逻辑推理得分翻倍
基于推理的视觉编辑的基准测试工具RISEBench从时间、因果、空间和逻辑四大维度对图像生成AI进行了跑分,Uni-1综合分0.51,谷歌Nano Banana 2得分0.50,Nano Banana Pro是0.49,OpenAI GPT Image 1.5是0.46。总分看着咬得很紧,我们可以聚焦不同维度来比一比:
空间推理:Uni-1得分0.58,Nano Banana 2仅0.47;逻辑推理:Uni-1得分0.32,略次于Nano Banana 2(0.38),是GPT Image 1.5(0.15)和Qwen-Image-2(0.17)的两倍以上。

▲五款图片生成模型RISEBench跑分对比(图源:Lumalabs)
在ODinW-13物体检测基准测试中,Uni-1完整版得分46.2 mAP,几乎追平谷歌Gemini 3 Pro的46.3,大幅领先Qwen3-VL-Thinking的43.2。值得注意的是,Uni-1仅具备理解能力(未经生成训练)的变体得分为43.9,而完整版提升了2.3分。这直接证明了一个关键假设:学会生成图像,能反过来提升模型的图像理解能力。

▲物体检测基准测试Uni-1几乎追平谷歌Gemini 3 Pro(图源:Lumalabs)
在与Midjourney v8的对比中,科技媒体The Decoder的测试认为Uni-1在复杂推理类生成任务上“明显优于Midjourney v8”。有Reddit用户在逐一对比后评价:“在真正的逻辑推理、复杂场景理解、空间合理性这些方面,Uni-1完全碾压。”不过,Midjourney在艺术风格化和审美质感方面仍保有优势。
三、定价策略:高分辨率比谷歌便宜,瞄准企业客户
根据公开定价数据,Uni-1在企业常用的2K分辨率上具有明显的价格优势:
谷歌Nano Banana 2在低分辨率上仍有价格优势,0.5K图像约0.045美元/张(约合人民币0.31元),1K图像约0.067美元/张(约合人民币0.46元)。对于大规模生产高分辨率图像的企业团队而言,Uni-1在质量和成本两端同时占优。Luma AI在输出端的token定价为每百万token 45.45美元(约合人民币322元)。
面向个人用户,定价则分为包年、包月和单次计价三种模式。作为一家初创公司,Luma AI无法在分发渠道和基础设施上与谷歌抗衡,“性能更强、价格更低”是它能打动客户的核心筹码。

▲Uni-1定价(图源:Uni-1正式)
四、社区反馈:从“提示词碰运气”到“真正的创作控制”
Uni-1发布后,尽管大规模独立测试仍在进行中,早期社区反应积极。
X平台用户反馈良好,网友直言,图像生成终于不用费劲想提示词了。Reddit上一位进行了逐项对比测试的用户给出了更细致的评价:Nano Banana 2在速度和文字渲染上仍有优势,但在“真正的逻辑推理、复杂场景理解和需要深度思考的编辑任务”上,Uni-1略胜一筹。该用户总结道:“如果你在意的是图像真正‘合理’,而不只是‘好看又快’,Uni-1是目前的最佳选择。”

▲X上网友对于Uni-1的评价(图源:X)
不过,也有用户持观望态度。部分用户表示仍在等待完整API权限以进行独立测试,对非拉丁文字的处理效果、极端边缘场景以及最高分辨率下的生成速度仍有疑问。客观地说,社区的兴奋更多针对“新技术路线的突破感”,长期表现仍需时间验证。
目前Uni-1可在lumalabs.ai免费体验,API访问正在逐步开放。
结语:Luma真的能后来居上吗?
从Uni-1的发布可以预测到,AI图像生成的竞争正在从“谁的图更好看”转向“谁的模型更能理解指令”。扩散模型统治这一领域已有三年之久,而自回归架构以大语言模型式的推理能力切入,第一次在核心基准测试上证明了这条路线的可行性,也可能影响未来更多实验室的技术路线选择。
真正的考验在于,Uni-1能否在API大规模调用、多语言支持和生成速度上经受住企业级场景的检验。这场“架构之争”才刚刚进入正赛。你认为自回归路线能在图像生成领域站稳脚跟吗?
来源:VentureBeat、Lumalabs、X、The Decoder
相关攻略
币安安卓端v6 272 1新版发布:界面更清爽,新手引导更友好 币安安卓客户端的最新版本v6 272 1已经正式推送了。这次更新,最直观的感受是界面设计更加简洁明了,功能布局也更为合理。对于首次使用的新手来说,安装和初始体验的优化非常明显,整个上手过程变得更加顺畅。 如果你正准备下载体验,可以通过以
一年烧钱近7000亿美元!谷歌、Meta、亚马逊、微软:AI不只是风口 当地时间4月30日周三盘后,科技界迎来了一场财报“四重奏”。Alphabet、Meta、亚马逊和微软集中披露业绩,一份由AI和云计算共同驱动的成绩单浮出水面。数据显示,Alphabet总营收达到1098 96亿美元,同比增长22
谷歌2026财年Q1财报:云业务首破200亿美元,AI驱动增长引擎全速运转 北京时间4月30日凌晨,谷歌母公司Alphabet交出了一份远超市场预期的成绩单。这份财报最引人注目的,莫过于其云业务以惊人的速度崛起,以及AI投资正在全面转化为实实在在的商业回报。 ▲谷歌近3年营收及增长情况(制图) 先看
谷歌 Gemini 2 0 AI模型现踪迹,响应速度更快 11月7日,科技媒体 testingcatalog 的一则博文,揭开了谷歌AI布局的新一角。报道明确指出,谷歌公司正酝酿 Gemini 模型的重大更新——2 0版本。 依据最新流出的界面截图,Advanced 用户在模型选择菜单中已经能瞥见“
谷歌搜索引擎快速入口导航-谷歌搜索引擎官方搜索首页地址 谷歌搜索引擎的官方首页地址在哪里?这恐怕是许多初次接触或需要稳定访问的用户最关心的问题。答案其实非常明确:https: www google com。这个看似简单的网址,背后却承载着一套确保全球用户都能快速、稳定、安全触达搜索服务的复杂机制。
热门专题
热门推荐
办公室文员三月份个人工作总结 时间过得飞快,转眼间,三月份的工作已告一段落。为了理清思路,更好地迎接后续的挑战,是时候对这个月的工作进行一次系统的梳理和复盘了。 这个月的工作量不算特别大,但事务颇为繁杂。对于一名办公室文员来说,应对这些琐碎而多元的任务,早已是常态。 具体来看,三月份的工作主要涵盖了
5月办公室文秘工作总结范文 一名优秀的文秘应加强自身学习,提高业务水平,以踏实的工作态度,适应办公室工作特点,认真做好调研工作。《5月办公室文秘工作总结范文》是本站客服工作总结栏目为您精心准备的,更多精彩内容请收藏本站(ctrl+D即可)! 时间回溯至XX年7月,我从zz医科大学毕业,同年12月进入
2026年办公室文书保密工作总结 4月份 本站工作总结范文栏目为您提供《2026年办公室文书保密工作总结 4月份》最新范文,仅供大家参考! 一、强烈的责任意识是干好机要工作的前提 办公室机要秘书岗,听起来或许有些刻板,但实际工作内容却相当繁杂。具体来说,岗位职责涵盖了当年文件的全程管理——从登记、流
BNB价格近日突破720美元关口,无疑在投资者圈中投下了一颗石子,激起了层层讨论的涟漪。这波涨势并非空xue来风,其背后是网络技术升级与机构关注度升温的双重引擎在驱动。那么,BNB的未来轨迹究竟会如何展开?我们不妨深入剖析一下。 BNB 的强势上涨:动能是否延续? Binance Coin(BNB)
工作总结做得好,能为你的工作画上完美句号 一份出色的工作总结,堪称职场生涯的完美句点;反之,如果总结做得不好,或者未能准确阐述你的工作成果,很可能会掩盖你的真实能力和表现,对未来的发展造成不利影响。因此,为了写出一份高质量的工作总结,不妨多参考一些优秀的范例。下面的内容,或许能为你提供清晰的思路和实





