谷歌AI发布会多模态新作惊艳亮相_AI热点日报

谷歌AI发布会多模态新作惊艳亮相

类型：热点整理2026-07-03

Google AI 技术持续突破，带来多模态新体验，令人耳目一新。本次发布的多款重磅产品，覆盖模型开源、图像生成与机器人交互三大方向，每一款都看点十足。先看要点 Gemma 3 多语言表现亮眼：Google 发布了参数规模从 1B 到 27B、上下文窗口达 128K 的多模态模型 Gemma 3，

Google AI 技术持续突破，带来多模态新体验，令人耳目一新。本次发布的多款重磅产品，覆盖模型开源、图像生成与机器人交互三大方向，每一款都看点十足。

先看要点

Gemma 3 多语言表现亮眼：Google 发布了参数规模从 1B 到 27B、上下文窗口达 128K 的多模态模型 Gemma 3，支持超过 140 种语言。社区对其有望在单个 GPU 或 TPU 上运行的潜力充满期待。
Gemini 2.0 Flash 文生图更直接：Gemini 2.0 Flash 新增原生图像生成功能，让用户直接在模型内生成与语境相关的图像。开发者可通过 Google AI Studio 抢先体验。
Gemini Robotics 让 AI 真正走进现实：Google 在 YouTube 展示了 Gemini Robotics，这是一套先进的视觉-语言-动作模型，使机器人能够更自然、更灵活地与真实世界互动。

Gemma 3 模型：开源领域的重磅新突破

作为一款开源大模型，Gemma 3 在 LMArena 基准测试中取得了出色成绩——这并非依靠营销包装，而是实打实的评测数据。

Gemma 3 的发布还刷新了同类模型的 Pareto 前沿，大幅领先于其他同量级模型。换句话说，如果你正在寻找一款能在单卡 GPU 上运行、同时保持顶级性能的开源模型，Gemma 3 是目前最值得关注的选项之一。

更重要的是，Gemma 3 将视觉能力作为核心功能之一，全面吸纳了此前的 PaliGemma 模型特性（ShieldGemma 则继续作为单独分支存在）。这意味着它不再是单纯的文本模型，而是能够直接处理图像的多模态工具。

Gemini 2.0 Flash 文生图

Gemini 2.0 Flash 现已提供原生图像生成能力，用户可以直接在模型内部创建与文本内容紧密相关的图像。虽然界面稍显复杂，但一旦找到入口，图像编辑将变得前所未有地简单——无需再切换到外部工具。

Google 开发者团队成员 Kaushik Shivakumar 表示：“非常高兴能公开 Gemini 的原生图像生成功能，目前仍处于实验阶段，我们已取得了很多进展，但也期待大家的进一步反馈！”而另一位工程师 Mostafa Dehghani 则兴奋地形容，这个团队“每一天都是不平凡的，既充满混乱，又富含创造力”。

创作者社区对 Gemini 2.0 Flash 的表现普遍赞叹，不少人已经开始期待未来能看到类似 Gemma 这样具备图像生成能力的 AI 模型出现——毕竟开源的力量最具吸引力。

Gemini Robotics 模型

Google DeepMind 推出了基于 Gemini 2.0 的全新一代机器人 AI 模型——Gemini Robotics，重点强调推理能力、互动性、灵活性与泛化性。这不再是实验室里只会重复动作的机械臂，而是能真正感知环境并自主决策的智能体。

值得注意的是，Google DeepMind 宣布与 Apptronik 合作，共同打造搭载 Gemini 2.0 技术的类人机器人，其中包括 Apptronik 的 Apollo 机器人。Gemini Robotics-ER 允许机器人利用 Gemini 模型的具身推理能力，实现物体检测、互动识别与障碍规避。根据官方数据，通过这一技术，机器人在基准测试中的表现相比当前最先进的模型提升了一倍，泛化能力令人惊叹。

Google DeepMind 明确表示，Gemini Robotics 模型的目标是让机器人能够更自然、更灵活地适应多样化任务环境，实现真正的智能互动。从演示视频来看，机器人已经能够对人类指令做出流畅反应，例如拿取特定物品、避开障碍物等——这距离我们想象中的服务机器人又近了一步。

来源：https://www.53ai.com/news/MultimodalLargeModel/2025031348517.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。