游乐游手机版
首页/科技数码/文章详情

谷歌Nano Banana爆火背后:揭秘其神秘开发团队

时间:2025-08-29 15:16
引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。香蕉也能变礼服?Google真的做到了!在最新一期谷歌开发者节目里,Google DeepMind团队首次全面展示了Gemini 2 5

引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。

香蕉也能变礼服?Google真的做到了!

在最新一期谷歌开发者节目里,Google DeepMind团队首次全面展示了Gemini 2.5 Flash Image——一款拥有原生图像生成与编辑能力的最新模型。

它不仅能快速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称SOTA级图像生成革命。

背后的研发和产品团队,也首次亮相。

起底背后团队

Logan Kilpatrick

Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作。

他在AI开发者社区中享有盛誉,曾在OpenAI担任开发者关系负责人,广为人知的昵称是「LoganGPT」。在加入Google之前,他曾在Apple担任机器学习工程师,并在NASA担任开源政策顾问。

在Google,Kilpatrick领导了Gemini 2.0 Flash的本地图像生成功能的推出,使开发者能够通过自然语言提示生成和编辑图像。这一功能的亮点包括多轮对话式图像编辑、图像和文本的交替生成,以及基于世界知识的图像生成。

Kilpatrick还定期在X上分享产品更新和开发者资源,成为Google AI的非正式代言人。

他毕业于哈佛大学和牛津大学,早期在NASA开发月球车软件,并在Apple训练机器学习模型。他对Julia编程语言持积极态度,并曾在2024年表示,直接迈向人工超智能(ASI)而不关注中间阶段的做法「越来越可能」。

Kaushik Shivakumar

Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用。

他在加利福尼亚大学伯克利分校获得了计算机科学学士学位,并在该校的AUTOLab实验室攻读硕士学位,师从Ken Goldberg教授。在研究生阶段,他主要从事与可变形物体操作、语言模型和强化学习相关的机器人研究。

在加入DeepMind之前,Kaushik曾在Google Brain团队担任软件工程实习生,研究深度神经网络的不确定性估计方法。他还在UC Berkeley的RISE Lab和Snorkel AI等机构担任研究员和实习生,参与了多项与机器人、机器学习和弱监督学习相关的项目。

在DeepMind,Kaushik参与了多个重要项目,包括Gemini 2.5模型的开发,该模型在推理能力、多模态理解和长上下文处理方面取得了显著进展。此外,他还在机器人操作、物体追踪和语义搜索等领域发表了多篇研究论文。

Robert Riachi

Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献。

他在大学期间主修计算机科学和统计学,毕业于加拿大滑铁卢大学。

在DeepMind,Riachi参与了多个重要项目,包括Gemini 2.0和Gemini 2.5系列模型的研发工作,致力于将图像生成能力与对话式AI相结合,使用户能够通过自然语言提示进行精细的图像编辑。

在加入DeepMind之前,Riachi曾在Splunk、Bloomberg、SAP和Deloitte等公司担任软件工程师和机器学习工程师。

Nicole Brichtova

Nicole Brichtova本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院,目前担任Google DeepMind的视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展。

在加入DeepMind之前,Nicole曾在Google的消费产品团队担任产品和市场战略工作,参与了多个项目的规划和推广。此外,她还在德勤咨询公司担任顾问,为财富500强的科技公司提供创新和增长方面的建议。

Nicole特别关注生成式人工智能如何支持创意、设计以及与技术互动的新方式。她在多个公开场合分享了DeepMind在视觉生成领域的最新进展,强调模型在理解复杂指令和生成高质量图像方面的能力。

Mostafa Dehghani

Mostafa Dehghani是Google DeepMind的研究科学家,主要从事机器学习,特别是深度学习方面的工作。他的研究兴趣包括自监督学习、生成模型、大模型训练和序列建模。

在加入谷歌前,他在阿姆斯特丹大学攻读博士学位,博士研究聚焦于改进在不完备监督下的学习过程。他探索了将归纳偏置引入算法、融入先验知识以及使用数据本身进行元学习的思想,旨在帮助学习算法更好地从噪声或有限数据中学习。

他于2020年加入Google DeepMind,参与了多个重要项目,包括开发多模态视觉语言模型PaLI-X、构建220亿参数的Vision Transformer(ViT22B)以及提出DSI++(Differentiable Search Indices),这是一种用于文档增量更新的检索增强学习方法。

Nano Banana有哪些技术亮点?

在节目一开始,研究人员就演展示了这款P图神器的几个亮点。

图像编辑与场景一致性:

让AI给Logan「穿上一件巨大的香蕉服」。生成只花了十几秒,结果既保留了Logan的脸部特征,还加上了芝加哥街头的背景。

创意解读与模糊指令处理:

当提示「让它变成纳米(Nano)」时,模型居然生成了Logan的「迷你Q版」形象,依旧保持了香蕉服的设定。

模型能够通过自然语言指令进行多轮互动,且在多次编辑中保持场景一致性,无需输入冗长提示词。

过去图像生成AI最大的槽点是「写字像外星文」。而这次,Gemini 2.5 Flash Image已经能在图中正确生成简短的文字,比如「Gemini Nano」。

团队甚至把文本渲染能力当作模型评估的新指标,因为它能反映模型生成图像「结构」的能力,并作为衡量整体图像质量的信号,有助于指导模型改进。

他们通过追踪此指标,避免了模型退步。虽然目前仍有文本渲染方面的不足,但团队正努力改进。

而且,Gemini 2.5 Flash Image不只是「画图机器」,它的核心魅力还在于「看懂图片」。

团队介绍,这款模型在原生图像生成与多模态理解方面实现了紧密结合:图像理解为生成提供信息,生成又反过来强化理解,两者相辅相成。

通过图像、视频甚至音频,Gemini能从世界中学习额外知识,从而提升文本理解与生成能力——视觉信号成为理解世界的捷径。

在操作体验上,模型引入了「交错生成机制(interleaved generation)」。

面对复杂、多点修改的任务,它会将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现「像素级别的完美编辑」。用户只需用自然语言下达指令,即便提示模糊,Gemini也能创意解读,并保持场景一致性。

无论是角色动作、服装,还是背景环境,修改与生成都能在多轮中保持连贯。

用1980年代美国魅力购物中心风格生成多张图片,每张图都保持风格一致且具上下文关联。模型会利用多模态上下文,参考先前的图像来生成修改。

因此,除了娱乐搞怪,Gemini 2.5 Flash Image在实际应用场景中也大有用武之地。家居设计中,用户可以快速查看多种方案。如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境。

人物OOTD,无论是换衣服、变角度,还是生成80年代复古风形象,人物的面部和身份一致性都能保持稳定。生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率。

那么,在实际应用中,开发者应该如何在Imagen和Gemini之间做选择?

Nicole Brichtova表示,Gemini的终极目标,是整合所有模态,向AGI(通用人工智能)方向迈进。这意味着Gemini不只是一个图像生成工具,而是一个能够利用「知识转移」,在跨模态的复杂任务中发挥作用的系统。

相比之下,Imagen专注文本到图像任务,在Vertex平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出、以及成本效益等方面。

简而言之,如果任务目标明确、追求速度和性价比,Imagen仍然是理想选择。

在复杂多模态工作流中,Gemini的优势则更加突出。它适合复杂多模态任务,支持生成+编辑、多轮创意迭代,能理解模糊指令。

Gemini能利用世界知识理解模糊提示,适合创意场景。Nicole还补充道,Gemini可以直接将参考图像作为风格输入,比Imagen的操作更方便。这让它在处理「以某公司风格设计广告牌」之类的任务时,更加自然和高效。

最后,团队成员分享了对未来模型能力的展望。

一个是智能提升。Mostafa Dehghani期待模型能展现出「智能」,即使不完全遵循指令,也能生成「比我实际描述的更好」的结果,让使用者感受到与一个更聪明的系统互动。

另一个是事实性与功能性。Nicole Brichtova对「事实性」感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报,她认为这只是这些模型能做到的一小部分。

参考链接:

https://www.youtube.com/watch?v=H6ZXujE1qBA

https://www.linkedin.com/in/logankilpatrick/details/experience/

https://www.linkedin.com/in/kaushik-shivakumar/

https://www.linkedin.com/in/robertjrriachi/

https://www.linkedin.com/in/nicolebrichtova/

https://www.linkedin.com/in/dehghani-mostafa/

-->

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:关注大模型的

引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。

香蕉也能变礼服?Google真的做到了!

在最新一期谷歌开发者节目里,Google DeepMind团队首次全面展示了Gemini 2.5 Flash Image——一款拥有原生图像生成与编辑能力的最新模型。

它不仅能快速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称SOTA级图像生成革命。

背后的研发和产品团队,也首次亮相。

起底背后团队

Logan Kilpatrick

Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作。

他在AI开发者社区中享有盛誉,曾在OpenAI担任开发者关系负责人,广为人知的昵称是「LoganGPT」。在加入Google之前,他曾在Apple担任机器学习工程师,并在NASA担任开源政策顾问。

在Google,Kilpatrick领导了Gemini 2.0 Flash的本地图像生成功能的推出,使开发者能够通过自然语言提示生成和编辑图像。这一功能的亮点包括多轮对话式图像编辑、图像和文本的交替生成,以及基于世界知识的图像生成。

Kilpatrick还定期在X上分享产品更新和开发者资源,成为Google AI的非正式代言人。

他毕业于哈佛大学和牛津大学,早期在NASA开发月球车软件,并在Apple训练机器学习模型。他对Julia编程语言持积极态度,并曾在2024年表示,直接迈向人工超智能(ASI)而不关注中间阶段的做法「越来越可能」。

Kaushik Shivakumar

Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用。

他在加利福尼亚大学伯克利分校获得了计算机科学学士学位,并在该校的AUTOLab实验室攻读硕士学位,师从Ken Goldberg教授。在研究生阶段,他主要从事与可变形物体操作、语言模型和强化学习相关的机器人研究。

在加入DeepMind之前,Kaushik曾在Google Brain团队担任软件工程实习生,研究深度神经网络的不确定性估计方法。他还在UC Berkeley的RISE Lab和Snorkel AI等机构担任研究员和实习生,参与了多项与机器人、机器学习和弱监督学习相关的项目。

在DeepMind,Kaushik参与了多个重要项目,包括Gemini 2.5模型的开发,该模型在推理能力、多模态理解和长上下文处理方面取得了显著进展。此外,他还在机器人操作、物体追踪和语义搜索等领域发表了多篇研究论文。

Robert Riachi

Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献。

他在大学期间主修计算机科学和统计学,毕业于加拿大滑铁卢大学。

在DeepMind,Riachi参与了多个重要项目,包括Gemini 2.0和Gemini 2.5系列模型的研发工作,致力于将图像生成能力与对话式AI相结合,使用户能够通过自然语言提示进行精细的图像编辑。

在加入DeepMind之前,Riachi曾在Splunk、Bloomberg、SAP和Deloitte等公司担任软件工程师和机器学习工程师。

Nicole Brichtova

Nicole Brichtova本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院,目前担任Google DeepMind的视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展。

在加入DeepMind之前,Nicole曾在Google的消费产品团队担任产品和市场战略工作,参与了多个项目的规划和推广。此外,她还在德勤咨询公司担任顾问,为财富500强的科技公司提供创新和增长方面的建议。

Nicole特别关注生成式人工智能如何支持创意、设计以及与技术互动的新方式。她在多个公开场合分享了DeepMind在视觉生成领域的最新进展,强调模型在理解复杂指令和生成高质量图像方面的能力。

Mostafa Dehghani

Mostafa Dehghani是Google DeepMind的研究科学家,主要从事机器学习,特别是深度学习方面的工作。他的研究兴趣包括自监督学习、生成模型、大模型训练和序列建模。

在加入谷歌前,他在阿姆斯特丹大学攻读博士学位,博士研究聚焦于改进在不完备监督下的学习过程。他探索了将归纳偏置引入算法、融入先验知识以及使用数据本身进行元学习的思想,旨在帮助学习算法更好地从噪声或有限数据中学习。

他于2020年加入Google DeepMind,参与了多个重要项目,包括开发多模态视觉语言模型PaLI-X、构建220亿参数的Vision Transformer(ViT22B)以及提出DSI++(Differentiable Search Indices),这是一种用于文档增量更新的检索增强学习方法。

Nano Banana有哪些技术亮点?

在节目一开始,研究人员就演展示了这款P图神器的几个亮点。

图像编辑与场景一致性:

让AI给Logan「穿上一件巨大的香蕉服」。生成只花了十几秒,结果既保留了Logan的脸部特征,还加上了芝加哥街头的背景。

创意解读与模糊指令处理:

当提示「让它变成纳米(Nano)」时,模型居然生成了Logan的「迷你Q版」形象,依旧保持了香蕉服的设定。

模型能够通过自然语言指令进行多轮互动,且在多次编辑中保持场景一致性,无需输入冗长提示词。

过去图像生成AI最大的槽点是「写字像外星文」。而这次,Gemini 2.5 Flash Image已经能在图中正确生成简短的文字,比如「Gemini Nano」。

团队甚至把文本渲染能力当作模型评估的新指标,因为它能反映模型生成图像「结构」的能力,并作为衡量整体图像质量的信号,有助于指导模型改进。

他们通过追踪此指标,避免了模型退步。虽然目前仍有文本渲染方面的不足,但团队正努力改进。

而且,Gemini 2.5 Flash Image不只是「画图机器」,它的核心魅力还在于「看懂图片」。

团队介绍,这款模型在原生图像生成与多模态理解方面实现了紧密结合:图像理解为生成提供信息,生成又反过来强化理解,两者相辅相成。

通过图像、视频甚至音频,Gemini能从世界中学习额外知识,从而提升文本理解与生成能力——视觉信号成为理解世界的捷径。

在操作体验上,模型引入了「交错生成机制(interleaved generation)」。

面对复杂、多点修改的任务,它会将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现「像素级别的完美编辑」。用户只需用自然语言下达指令,即便提示模糊,Gemini也能创意解读,并保持场景一致性。

无论是角色动作、服装,还是背景环境,修改与生成都能在多轮中保持连贯。

用1980年代美国魅力购物中心风格生成多张图片,每张图都保持风格一致且具上下文关联。模型会利用多模态上下文,参考先前的图像来生成修改。

因此,除了娱乐搞怪,Gemini 2.5 Flash Image在实际应用场景中也大有用武之地。家居设计中,用户可以快速查看多种方案。如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境。

人物OOTD,无论是换衣服、变角度,还是生成80年代复古风形象,人物的面部和身份一致性都能保持稳定。生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率。

那么,在实际应用中,开发者应该如何在Imagen和Gemini之间做选择?

Nicole Brichtova表示,Gemini的终极目标,是整合所有模态,向AGI(通用人工智能)方向迈进。这意味着Gemini不只是一个图像生成工具,而是一个能够利用「知识转移」,在跨模态的复杂任务中发挥作用的系统。

相比之下,Imagen专注文本到图像任务,在Vertex平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出、以及成本效益等方面。

简而言之,如果任务目标明确、追求速度和性价比,Imagen仍然是理想选择。

在复杂多模态工作流中,Gemini的优势则更加突出。它适合复杂多模态任务,支持生成+编辑、多轮创意迭代,能理解模糊指令。

Gemini能利用世界知识理解模糊提示,适合创意场景。Nicole还补充道,Gemini可以直接将参考图像作为风格输入,比Imagen的操作更方便。这让它在处理「以某公司风格设计广告牌」之类的任务时,更加自然和高效。

最后,团队成员分享了对未来模型能力的展望。

一个是智能提升。Mostafa Dehghani期待模型能展现出「智能」,即使不完全遵循指令,也能生成「比我实际描述的更好」的结果,让使用者感受到与一个更聪明的系统互动。

另一个是事实性与功能性。Nicole Brichtova对「事实性」感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报,她认为这只是这些模型能做到的一小部分。

参考链接:

https://www.youtube.com/watch?v=H6ZXujE1qBA

https://www.linkedin.com/in/logankilpatrick/details/experience/

https://www.linkedin.com/in/kaushik-shivakumar/

https://www.linkedin.com/in/robertjrriachi/

https://www.linkedin.com/in/nicolebrichtova/

https://www.linkedin.com/in/dehghani-mostafa/

来源:https://www.huxiu.com/article/4749178.html
上一篇AI Agent 2025大赛主席代永波:共筑智能新生态,发掘AI新英雄 下一篇AI图片生成工具对比:Stable Diffusion、MidJourney与DALL·E谁更强?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
理想新车布局预测:L9L与i9上半年发布
科技数码 · 2026-07-04

理想新车布局预测:L9L与i9上半年发布

1月23日消息,综合权威公开信息与行业趋势研判,理想汽车2026年度新车布局规划正式曝光。此番产品线布局,不仅持续深耕SUV市场,同时加速补齐全场景覆盖的拼图。 理想L9旗舰SUV 在增程动力领域,理想L系列将迎来一位新成员——L9L,预计2026年上半年正式上市,预估售价区间为45万至55万元。与

三星消息应用7月停用 部分旧设备可继续使用
科技数码 · 2026-07-04

三星消息应用7月停用 部分旧设备可继续使用

6月29日,多家海外媒体援引三星官方消息证实,三星消息(Samsung Messages)应用将于2026年7月正式终止服务。随着这个截止日期越来越近,依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里,三星一直在悄悄引导用户转向谷歌信息(Google Messages

吉利发布2030战略:年销650万辆全面迈向全球前五
科技数码 · 2026-07-04

吉利发布2030战略:年销650万辆全面迈向全球前五

1月22日,吉利控股集团在北京召开战略解析大会,正式发布“一个吉利,全面领先”的2030战略蓝图。战略目标清晰明确:到2030年,全球总销量(含乘用车与商用车)突破650万辆,稳居全球车企前五。其中,新能源车型占比预计达到75%左右,海外销量占比超过三分之一。尤为关键的是,依托全新全球化架构,单车型

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部
科技数码 · 2026-07-04

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

OPPO Find X9 Ultra 旗舰机型 回顾产品发布背景:Find X9系列于2025年10月正式登场,作为OPPO年度旗舰产品线,涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来,凭借芯片算力、屏幕显示素质、续航表现以及影

IntelliJ IDEA 2025.3.2 版本正式发布
科技数码 · 2026-07-04

IntelliJ IDEA 2025.3.2 版本正式发布

IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善,本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令,或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具(例如 Claude Code