谷歌Nano Banana全网刷屏起底背后团队

时间：2026-06-23 14:29

谷歌DeepMind推出Gemini2 5FlashImage模型，具备原生图像生成与编辑能力，支持多轮对话中保持场景一致性，能理解模糊指令实现创意编辑，并引入交错生成机制。该模型结合多模态理解，可快速生成高质量图像并保持风格连贯，在图像文字渲染上取得突破。团队核心成员包括LoganKilpatrick等，致力于推动多模态AI发展。

香蕉也能变成礼服？Google 真的实现了！

在最新一期谷歌开发者节目中，Google DeepMind 团队首次完整展示了 Gemini 2.5 Flash Image —— 一款具备原生图像生成与编辑能力的全新 AI 模型。它不仅能快速输出高质量图像，还能在多轮对话中保持场景一致性，带来了突破性的互动体验。可以说，这是一次真正意义上的“图像生成革命”。

更重要的是，负责研发与产品落地的幕后团队也首次公开亮相了。

深度解析幕后研发团队

首先，让我们认识一下这几位关键人物。

Logan Kilpatrick

作为 Google DeepMind 的高级产品经理，Logan 负责 Google AI Studio 和 Gemini API 的产品规划。在 AI 开发者社区中，他的名字几乎无人不知——他此前在 OpenAI 负责开发者关系，被业内称为“LoganGPT”。更早的时候，他还在 Apple 做过机器学习工程师，甚至在 NASA 担任过开源政策顾问。

在 Google，他主导了 Gemini 2.0 Flash 本地图像生成功能的推出，让开发者能够通过自然语言指令生成和编辑图像。多轮对话式编辑、图文交替生成、基于世界知识的图像生成，都是这套系统的主要亮点。他几乎成了 Google AI 的“非正式代言人”，经常在 X 平台分享产品更新和开发者资源。

Logan 毕业于哈佛和牛津，早期在 NASA 开发月球车软件，后来在 Apple 训练过机器学习模型。有趣的是，他对 Julia 编程语言非常看好，2024 年还曾表示，直接冲向人工超智能（ASI）而忽视中间阶段的做法“越来越可能”。

Kaushik Shivakumar

Kaushik 是 Google DeepMind 的研究工程师，主攻机器人技术、人工智能和多模态学习。他在 UC Berkeley 获得计算机科学学士学位，之后在 AUTOLab 实验室攻读硕士，师从 Ken Goldberg 教授。研究生期间，他主要研究可变形物体操作、语言模型以及强化学习在机器人上的应用。

加入 DeepMind 前，他在 Google Brain 做过软件工程实习生，研究深度神经网络的不确定性估计方法。在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等机构也都有过研究经历。进入 DeepMind 后，他参与了不少重量级项目，包括 Gemini 2.5 模型的开发，这套模型在推理能力、多模态理解和长上下文处理上进步显著。此外，他在机器人操作、物体追踪、语义搜索方面也发表过多篇论文。

Robert Riachi

Robert 是 Google DeepMind 的研究工程师，专注于多模态 AI 模型的研发，尤其在图像生成和编辑方面有显著贡献。他主修计算机科学和统计学，毕业于加拿大滑铁卢大学。

在 DeepMind，他参与了 Gemini 2.0 和 2.5 系列的研发，致力于将图像生成能力与对话式 AI 相结合，让用户可以通过自然语言指令进行精细的图像编辑。在此之前，他还在 Splunk、Bloomberg、SAP 和 Deloitte 等公司担任过软件工程师和机器学习工程师。

Nicole Brichtova

Nicole 本科和研究生分别毕业于乔治敦大学和杜克大学富卡商学院，现任 Google DeepMind 视觉生成产品负责人，专注于构建生成模型，推动 Gemini 应用、Google Ads 和 Google Cloud 等产品的发展。

在加入 DeepMind 之前，她在 Google 的消费产品团队做过产品和市场战略工作，还在德勤咨询公司担任过顾问，为财富 500 强的科技公司提供创新和增长方面的建议。

她特别关注生成式 AI 如何赋能创意、设计，以及人与技术互动的新方式。在多个公开场合，她分享了 DeepMind 在视觉生成领域的最新进展，重点展示了模型理解复杂指令和生成高质量图像的能力。

Mostafa Dehghani

Mostafa 是 Google DeepMind 的研究科学家，主要研究方向为深度学习，包括自监督学习、生成模型、大模型训练和序列建模。他博士毕业于阿姆斯特丹大学，研究聚焦于如何在不完备监督下改进学习过程——探索将归纳偏置引入算法、融入先验知识、以及利用数据本身进行元学习，目标是让算法在噪声或有限数据中表现得更好。

他 2020 年加入 DeepMind，参与了不少重要项目，包括多模态视觉语言模型 PaLI-X、220 亿参数的 Vision Transformer（ViT22B），以及 DSI++（Differentiable Search Indices）—— 一种用于文档增量更新的检索增强学习方法。

Nano Banana 演示中的技术亮点

具体如何做到“指哪儿打哪儿”？我们来看看节目里演示的几个亮点。

图像编辑与场景一致性

以第一个演示为例。让 AI 给 Logan “穿上一件巨大的香蕉服”，生成仅需十几秒。结果不仅保留了 Logan 的脸部特征，还自动加上了芝加哥街头的背景，场景一致性令人惊叹。

创意解读与模糊指令处理

更有趣的是，当提示改为“让它变成纳米（Nano）”，模型直接生成了 Logan 的“迷你 Q 版”形象，但香蕉服的设定一点没丢。整个过程中，模型能通过自然语言进行多轮互动，并且在多次编辑里始终保持场景一致性，完全不需要用户提供冗长的提示词。

过去图像生成 AI 最大的槽点是什么？是“写字像外星文”。但这次，Gemini 2.5 Flash Image 已经能在图中正确生成简短文字了，比如“Gemini Nano”这种。

团队甚至把文本渲染能力当成了评估模型的新指标——因为它能反映模型生成图像“结构”的能力，也反过来作为衡量整体图像质量的信号，有助于指导模型改进。他们通过追踪这个指标，成功避免了模型退步。当然，目前文本渲染方面仍有不足，团队也在持续优化。

话说回来，Gemini 2.5 Flash Image 可远不止是一台“画图机器”。它最核心的魅力，在于能“看懂图片”。

团队介绍说，这款模型实现了原生图像生成与多模态理解的紧密结合：图像理解为生成提供信息，生成又反过来强化理解，两者相辅相成。通过图像、视频甚至音频，Gemini 能从世界里学到额外知识，从而提升文本理解与生成能力——视觉信号，某种程度上成了理解世界的一条捷径。

在操作体验上，模型引入了“交错生成机制（interleaved generation）”。面对复杂、多点修改的任务，它会自动把一次指令拆解成多轮操作，逐步生成与编辑图像，相当于“像素级别的完美编辑”。用户只需要用自然语言下达指令，就算提示比较模糊，Gemini 也能创意解读，并且保持场景一致性。不管是角色动作、服装，还是背景环境，修改与生成都能在多轮中保持连贯。

举个例子，让它用 1980 年代美国魅力购物中心的风格生成多张图片，每张图都能风格一致，且彼此之间有上下文关联。模型会利用多模态上下文，参考先前的图像来生成修改。

因此除了娱乐搞怪，Gemini 2.5 Flash Image 在实际应用场景里也大有用武之地。比如家居设计，用户可以快速查看多种方案——房间换不同窗帘的效果，模型能精准只修改窗帘部分，不破坏整体环境。又比如人物 OOTD，无论是换衣服、变角度，还是生成 80 年代复古风形象，人物的面部和身份一致性都能保持得很稳。生成一张图只要十几秒，失败了也能迅速重试，创作效率确实提升了一大截。

那么，在实际开发中，开发者到底该在 Imagen 和 Gemini 之间怎么选？

Nicole Brichtova 的回答很直接：Gemini 的终极目标，是整合所有模态，朝 AGI（通用人工智能）方向迈进。这意味着 Gemini 不只是一个图像生成工具，而是一个能利用“知识转移”、在跨模态复杂任务中发挥作用的系统。相比之下，Imagen 专注文本到图像的任务，在 Vertex 平台里提供多种变体，针对特定需求做了优化——比如单张图像的高质量生成、快速输出、成本效益等方面。简单说，如果任务目标明确、追求速度和性价比，Imagen 依然是理想选择。

但一旦涉及复杂的多模态工作流，Gemini 的优势就出来了。它适合复杂多模态任务，支持生成+编辑、多轮创意迭代，能理解模糊指令。Gemini 能利用世界知识理解模糊提示，特别适合创意场景。Nicole 还补充了一句：Gemini 可以直接把参考图像作为风格输入，比 Imagen 更方便。这让它在处理“以某公司风格设计广告牌”这类任务上，操作起来更自然、更高效。

最后，团队成员也分享了对未来能力的展望。

一个是智能提升。Mostafa Dehghani 希望模型能展现出真正的“智能”——就算不完全遵循指令，也能生成“比我想的更好”的结果，让使用者感觉自己在和一个更聪明的系统打交道。另一个是事实性与功能性。Nicole Brichtova 对“事实性”充满期待，希望未来的模型可以生成既美观又功能准确的信息图或图表，甚至自动帮你做好工作简报。在她看来，这不过只是这些模型能力的一小部分罢了。

来源：https://www.aiagiai.com/14303.html

上一篇三大报告揭晓AIoT产业穿越周期的真实突破口 下一篇刚刚Ilya一个神秘动作引爆OpenAI全员狂欢AGI真的来了

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。