Google AI 技术持续突破,带来多模态新体验,令人耳目一新。本次发布的多款重磅产品,覆盖模型开源、图像生成与机器人交互三大方向,每一款都看点十足。
先看要点
- Gemma 3 多语言表现亮眼:Google 发布了参数规模从 1B 到 27B、上下文窗口达 128K 的多模态模型 Gemma 3,支持超过 140 种语言。社区对其有望在单个 GPU 或 TPU 上运行的潜力充满期待。
- Gemini 2.0 Flash 文生图更直接:Gemini 2.0 Flash 新增原生图像生成功能,让用户直接在模型内生成与语境相关的图像。开发者可通过 Google AI Studio 抢先体验。
- Gemini Robotics 让 AI 真正走进现实:Google 在 YouTube 展示了 Gemini Robotics,这是一套先进的视觉-语言-动作模型,使机器人能够更自然、更灵活地与真实世界互动。
Gemma 3 模型:开源领域的重磅新突破
作为一款开源大模型,Gemma 3 在 LMArena 基准测试中取得了出色成绩——这并非依靠营销包装,而是实打实的评测数据。
Gemma 3 的发布还刷新了同类模型的 Pareto 前沿,大幅领先于其他同量级模型。换句话说,如果你正在寻找一款能在单卡 GPU 上运行、同时保持顶级性能的开源模型,Gemma 3 是目前最值得关注的选项之一。
更重要的是,Gemma 3 将视觉能力作为核心功能之一,全面吸纳了此前的 PaliGemma 模型特性(ShieldGemma 则继续作为单独分支存在)。这意味着它不再是单纯的文本模型,而是能够直接处理图像的多模态工具。
Gemini 2.0 Flash 文生图
Gemini 2.0 Flash 现已提供原生图像生成能力,用户可以直接在模型内部创建与文本内容紧密相关的图像。虽然界面稍显复杂,但一旦找到入口,图像编辑将变得前所未有地简单——无需再切换到外部工具。
Google 开发者团队成员 Kaushik Shivakumar 表示:“非常高兴能公开 Gemini 的原生图像生成功能,目前仍处于实验阶段,我们已取得了很多进展,但也期待大家的进一步反馈!”而另一位工程师 Mostafa Dehghani 则兴奋地形容,这个团队“每一天都是不平凡的,既充满混乱,又富含创造力”。
创作者社区对 Gemini 2.0 Flash 的表现普遍赞叹,不少人已经开始期待未来能看到类似 Gemma 这样具备图像生成能力的 AI 模型出现——毕竟开源的力量最具吸引力。
Gemini Robotics 模型
Google DeepMind 推出了基于 Gemini 2.0 的全新一代机器人 AI 模型——Gemini Robotics,重点强调推理能力、互动性、灵活性与泛化性。这不再是实验室里只会重复动作的机械臂,而是能真正感知环境并自主决策的智能体。
值得注意的是,Google DeepMind 宣布与 Apptronik 合作,共同打造搭载 Gemini 2.0 技术的类人机器人,其中包括 Apptronik 的 Apollo 机器人。Gemini Robotics-ER 允许机器人利用 Gemini 模型的具身推理能力,实现物体检测、互动识别与障碍规避。根据官方数据,通过这一技术,机器人在基准测试中的表现相比当前最先进的模型提升了一倍,泛化能力令人惊叹。
Google DeepMind 明确表示,Gemini Robotics 模型的目标是让机器人能够更自然、更灵活地适应多样化任务环境,实现真正的智能互动。从演示视频来看,机器人已经能够对人类指令做出流畅反应,例如拿取特定物品、避开障碍物等——这距离我们想象中的服务机器人又近了一步。
