谷歌低调发布“香蕉”新品,无CEO站台却引爆全场欢呼
在大模型发布新版本往往高举高打的当下,Google的一款秘密模型低调地引爆了社交网络。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
8月中旬,一个名为nano-banana的模型在LMArena平台的“Battle”中被发现,尽管没有任何官方开发者明确声称其归属,但很快,出于惊人的效果获得了病毒式的关注。甚至大量用户只为能被分配到该模型,而不断地参与平台模型盲测,相关图片也在社交平台上广泛传播。

直到北京时间8月27日凌晨,谷歌正式认领了该模型,正是新推出的Gemini 2.5 Flash Image,目前已经可以在Gemini app、Google AI studio、Google API进行使用。
在官方介绍中,核心技术亮点主要是以下三个:
颠覆性的一致性(Consistency):在连续生成或编辑中保持人物身份的稳定。
自然语言驱动的编辑:用户仅通过对话式指令即可实现高精度图像修改,无需复杂的专业工具。
闪电速度:图像生成与编辑响应时间通常在1-2秒内,提供了接近实时的交互体验。
我们也实测了一番,结果有惊艳,也有翻车,但确实在一致性上做到了断层领先的水平。
一、模型实测:能帮我实现Labubu自由,还会做计算题?
一打开模型,我们就向AI下达了第一个指令:给我来七个Labubu,直接实现“手办自由”。

直接上传一张Labubu的商品图,并复制修改了这段广为流传的手办Prompt,生成结果如下:

乍一看效果非常好,Labubu的外形特征、搪胶材质都非常的逼真,甚至可以发朋友圈以假乱真。但仔细一看,数量却不对,桌面上只有六小只,缺失了一个绿色的玩偶。
让AI学会准确数数,依然是个问题。另外,由于我们最初的prompt里提到了“正版”,AI没能输出结果,修改措辞后才完成了生成。
接下来,我们又尝试了多张图片融合,据官方介绍能够保持人物的一致性,目前最多可支持三张图片合成,我们尝试了一下让甄嬛和安陵容来到现代都市,并且要求保持复杂的中国传统首饰不变形。

AI也基本完成了任务,在甄嬛的身体发生转动和变化的情况下,袖口的花纹和头饰基本没有变化,并为了完成Prompt中提到的couple(没错,我是甄嬛和安陵容CP粉),设计了一个在街头亲密自拍的动作。

如果觉得这个姿势不够满意,甚至可以通过简笔画的方式,让AI直接理解图片示例,比如我们直接告诉AI,姿势照着图二修改。

尽管火柴人画得很抽象,但AI还是完成了任务。
这并不是一个简单的多图融合。此前生成模型的多图参考,是文本和图像两种跨模态输入的对齐,对prompt格式有要求,例如A+B+C+运动,图像主体尽量清晰,运动描述尽量直观简洁,还需要一定的抽卡概率。
而Gemini 2.5 Flash显然对复杂的多模态输入理解得更加准确。
这个多图融合的featuer,在匿名测试阶段就已经被电商用户疯狂夸赞了,我们接下来尝试了商品的替换,实测结果却轻微地翻车了。

将两张图片融合后的生成结果如下,尽管可以看到材质、样式符合了原图,但遗憾是个超大杯。

当我们试图通过prompt修改,让香水瓶恢复正常尺寸时,模型却显得始终执着于超大杯,修改后的图片与原图几乎没有差别。
虽然很想继续修改,但大量用户涌入后,由于“内部错误”,这个号称能速生图片的模型硬生生卡了几分钟,也无法完成更多任务了。
不过值得注意的是,官方提到得益于 Gemini 的先进推理,模型会有一定的理解和思维能力。尽管在符合现实逻辑上翻了车,但计算数学题却成功了。
我们给出了一个小学脑力计算题,在很短的时间内,模型就计算出了正确答案。

此处值得一个掌声。
二、“社区民选”的胜利
不仅模型的一致性效果很惊艳,此次模型出圈的路线也很有趣。
8月中旬,这款模型以完全匿名身份出现在LMArena的对战模式中时,用户需要在不知来源的情况下,仅凭生成效果进行盲测投票,短短两周时间,凭借在“一致性”上的压倒性优势,“nano-banana”在盲测中持续胜出,迅速引起了全球AI核心用户和开发者的注意。
讨论从LMArena平台迅速扩散至Reddit、X(Twitter)、Discord等社区。用户自发进行极限测试、分享惊艳案例,并为其创造了“一致性之王”、“Photoshop杀手”等极具传播力的标签,甚至很多人会因为想要使用nano-banana模型,反复参与点评和测试,只为获得一次随机抽中banana的机会。
就在不少人还在猜测,模型是否会开源,什么时候正式发布的时候,谷歌工程师巧妙地在社交媒体发布表情符号,将解谜游戏推向新高度。8月26日,在市场热度和口碑达到峰值时,谷歌正式宣布“nano-banana”即为Gemini 2.5 Flash Image模型,并开始全面推送。
很难说,这一路径并非谷歌有意为之。毕竟,早在8月初刚刚出圈,就有外媒报道,多位AI研究者和爱好者推测,nano-banana可能是谷歌最新的图像生成模型,也有观察人士认为,可能来源于Qwen Image或来自各大实验室尚未发布的其他模型。
当然,这种“神秘发布”模式并非谷歌首创,从去年开始,不少模型们都会选择在LMArena上进行盲测,OpenAI此前也曾让神秘模型"im-also-a-good-gpt2-chatbot"现身竞技场,最终揭晓为GPT-4o测试版,预热了产品发布。
一方面,模型们选择LMArena,固然是因为在匿名的黑箱中,用户的选择完全是基于模型的实力,而排除了品牌的偏见和预期,为真实性能提供了纯粹的认证。
另一方面,在AI竞赛白热化的背景下,大厂的模型发布往往会被置于一种“追赶者or颠覆者”的叙事框架内,从而被严格审视甚至审判。
相比起传统的高举高打的发布模式,匿名发布再到官方认领的策略,完成一次“民选”模型的病毒式传播,既充分利用了社区自发传播的势能,又避免了过度炒作可能带来的反噬效应,使其性能优势在发布前就已成为“市场共识”。
这也为焦虑市场反馈的下一代模型们,提供了一种新的发布思路。
-->本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:黄小艺,头图来自:AI生成
在大模型发布新版本往往高举高打的当下,Google的一款秘密模型低调地引爆了社交网络。
8月中旬,一个名为nano-banana的模型在LMArena平台的“Battle”中被发现,尽管没有任何官方开发者明确声称其归属,但很快,出于惊人的效果获得了病毒式的关注。甚至大量用户只为能被分配到该模型,而不断地参与平台模型盲测,相关图片也在社交平台上广泛传播。

直到北京时间8月27日凌晨,谷歌正式认领了该模型,正是新推出的Gemini 2.5 Flash Image,目前已经可以在Gemini app、Google AI studio、Google API进行使用。
在官方介绍中,核心技术亮点主要是以下三个:
颠覆性的一致性(Consistency):在连续生成或编辑中保持人物身份的稳定。
自然语言驱动的编辑:用户仅通过对话式指令即可实现高精度图像修改,无需复杂的专业工具。
闪电速度:图像生成与编辑响应时间通常在1-2秒内,提供了接近实时的交互体验。
我们也实测了一番,结果有惊艳,也有翻车,但确实在一致性上做到了断层领先的水平。
一、模型实测:能帮我实现Labubu自由,还会做计算题?
一打开模型,我们就向AI下达了第一个指令:给我来七个Labubu,直接实现“手办自由”。

直接上传一张Labubu的商品图,并复制修改了这段广为流传的手办Prompt,生成结果如下:

乍一看效果非常好,Labubu的外形特征、搪胶材质都非常的逼真,甚至可以发朋友圈以假乱真。但仔细一看,数量却不对,桌面上只有六小只,缺失了一个绿色的玩偶。
让AI学会准确数数,依然是个问题。另外,由于我们最初的prompt里提到了“正版”,AI没能输出结果,修改措辞后才完成了生成。
接下来,我们又尝试了多张图片融合,据官方介绍能够保持人物的一致性,目前最多可支持三张图片合成,我们尝试了一下让甄嬛和安陵容来到现代都市,并且要求保持复杂的中国传统首饰不变形。

AI也基本完成了任务,在甄嬛的身体发生转动和变化的情况下,袖口的花纹和头饰基本没有变化,并为了完成Prompt中提到的couple(没错,我是甄嬛和安陵容CP粉),设计了一个在街头亲密自拍的动作。

如果觉得这个姿势不够满意,甚至可以通过简笔画的方式,让AI直接理解图片示例,比如我们直接告诉AI,姿势照着图二修改。

尽管火柴人画得很抽象,但AI还是完成了任务。
这并不是一个简单的多图融合。此前生成模型的多图参考,是文本和图像两种跨模态输入的对齐,对prompt格式有要求,例如A+B+C+运动,图像主体尽量清晰,运动描述尽量直观简洁,还需要一定的抽卡概率。
而Gemini 2.5 Flash显然对复杂的多模态输入理解得更加准确。
这个多图融合的featuer,在匿名测试阶段就已经被电商用户疯狂夸赞了,我们接下来尝试了商品的替换,实测结果却轻微地翻车了。

将两张图片融合后的生成结果如下,尽管可以看到材质、样式符合了原图,但遗憾是个超大杯。

当我们试图通过prompt修改,让香水瓶恢复正常尺寸时,模型却显得始终执着于超大杯,修改后的图片与原图几乎没有差别。
虽然很想继续修改,但大量用户涌入后,由于“内部错误”,这个号称能速生图片的模型硬生生卡了几分钟,也无法完成更多任务了。
不过值得注意的是,官方提到得益于 Gemini 的先进推理,模型会有一定的理解和思维能力。尽管在符合现实逻辑上翻了车,但计算数学题却成功了。
我们给出了一个小学脑力计算题,在很短的时间内,模型就计算出了正确答案。

此处值得一个掌声。
二、“社区民选”的胜利
不仅模型的一致性效果很惊艳,此次模型出圈的路线也很有趣。
8月中旬,这款模型以完全匿名身份出现在LMArena的对战模式中时,用户需要在不知来源的情况下,仅凭生成效果进行盲测投票,短短两周时间,凭借在“一致性”上的压倒性优势,“nano-banana”在盲测中持续胜出,迅速引起了全球AI核心用户和开发者的注意。
讨论从LMArena平台迅速扩散至Reddit、X(Twitter)、Discord等社区。用户自发进行极限测试、分享惊艳案例,并为其创造了“一致性之王”、“Photoshop杀手”等极具传播力的标签,甚至很多人会因为想要使用nano-banana模型,反复参与点评和测试,只为获得一次随机抽中banana的机会。
就在不少人还在猜测,模型是否会开源,什么时候正式发布的时候,谷歌工程师巧妙地在社交媒体发布表情符号,将解谜游戏推向新高度。8月26日,在市场热度和口碑达到峰值时,谷歌正式宣布“nano-banana”即为Gemini 2.5 Flash Image模型,并开始全面推送。
很难说,这一路径并非谷歌有意为之。毕竟,早在8月初刚刚出圈,就有外媒报道,多位AI研究者和爱好者推测,nano-banana可能是谷歌最新的图像生成模型,也有观察人士认为,可能来源于Qwen Image或来自各大实验室尚未发布的其他模型。
当然,这种“神秘发布”模式并非谷歌首创,从去年开始,不少模型们都会选择在LMArena上进行盲测,OpenAI此前也曾让神秘模型"im-also-a-good-gpt2-chatbot"现身竞技场,最终揭晓为GPT-4o测试版,预热了产品发布。
一方面,模型们选择LMArena,固然是因为在匿名的黑箱中,用户的选择完全是基于模型的实力,而排除了品牌的偏见和预期,为真实性能提供了纯粹的认证。
另一方面,在AI竞赛白热化的背景下,大厂的模型发布往往会被置于一种“追赶者or颠覆者”的叙事框架内,从而被严格审视甚至审判。
相比起传统的高举高打的发布模式,匿名发布再到官方认领的策略,完成一次“民选”模型的病毒式传播,既充分利用了社区自发传播的势能,又避免了过度炒作可能带来的反噬效应,使其性能优势在发布前就已成为“市场共识”。
这也为焦虑市场反馈的下一代模型们,提供了一种新的发布思路。
相关攻略
在当前的人工智能(AI)盛宴中,似乎每个科技巨头都在不计后果地“砸重金”,确保不会在这场竞赛中落后。Meta首席执行官马克·扎克伯格也不例外,他正斥巨资确保Meta不会错过人工智能的“大好时机”。在
几天前,咱刚带大伙儿看过英伟达支援英特尔的逆袭爽文,世超都还没缓过来,前天老黄居然又搞了一波史无前例的大动作。这真不是咱夸大其词,天天非要整点大新闻。而是前天,英伟达放出计划,要掏出1000亿美元投
众所周知,最近两个月,淘宝搜索的AI化有了明显的提速趋势。8月,淘宝低调全量上线了“AI万能搜”产品;9月,淘宝“AI助手”传出内测消息、拍立淘的“AI找低价”也全量上线。这三个产品分别覆盖了传统搜
去年暑期,图灵奖得主、英国计算机科学家莱斯利·瓦利安特(Leslie Valiant)在北京出席2024国际基础科学大会(ICBS)时,获颁理论计算机与信息科学领域基础科学终身成就奖。瓦利安特在理论
近来百度搜索全面AI化,作为核心业务,内部称大搜,确如百度AIDay上所称,为十年来最大变化。然而众所周知,搜索的关键字零散,隐约指向用户的问题,而AI预期的Agent模式,能够辅助执行完整的任务,
热门专题
热门推荐
Incerto Observability是什么 在监控工具这个领域,我们常常面临一个选择题:是选择功能强大但黑盒化的商业套件,还是拥抱灵活却需要大量自研投入的开源方案?Incerto Observability的出现,似乎提供了一个折中的答案。这款由 Incerto Technologies 开发
《灰烬之国》深度评测:硬核肉鸽与叙事融合,是否值得长期投入? 近期,一款名为《灰烬之国》的 Roguelike 手游在玩家社群中热度显著上升。它尤其吸引了那些钟爱高自由度构筑与强随机性挑战的硬核玩家群体。本作成功地将深度叙事与复杂的玩法系统相结合,那么,它是否值得你投入大量时间进行深入体验?我们来全
大数据量插入的性能瓶颈分析在数据库操作中,直接使用简单的INSERT语句处理海量数据时,往往会遭遇显著的性能瓶颈。当数据量达到百万甚至千万级别时,单次事务过大、日志写入压力剧增、锁竞争激烈以及网络传输超时等问题会集中爆发,导致插入操作异常缓慢,甚至引发事务回滚或连接中断。其中,数据库的事务日志(如M
《红色沙漠》弓箭爆炸输出流玩法攻略分享 在《红色沙漠》这款游戏中,追求极致伤害与爽快战斗体验的玩家,往往会对弓箭爆炸输出流青睐有加。该流派以其卓越的爆发能力和广泛的适应性,堪称应对各类高难度BOSS与副本的“万金油”选择。其核心魅力在于通过精妙的技能组合,在短时间内倾泻出毁灭性的伤害。如果你渴望掌握
理解 insert into select 的核心概念在数据库操作中,数据的复制与迁移是一项常见任务。insert into select 语句正是为此而生的强大工具。它并非两个独立命令的简单拼接,而是一个将数据查询与数据插入无缝结合的单步操作。其基本语法结构为:INSERT INTO 目标表 (列





