谷歌多模态模型革新:文本图像视频音频一体融合
henry 发自 凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
原生,启动!
刚刚,谷歌发布了首个原生多模态(Multimodal)嵌入模型——
Gemini Embedding 2
这次模型最大的变化在于:把文本、图像、视频、音频和文档,全部映射进同一个统一的嵌入空间。

换句话说,不同媒介的数据第一次被放进同一个语义坐标系里。
在输入能力上,Gemini Embedding 2支持多种数据类型:
文本:支持最多8192个token图像:每次请求最多处理6张图像,支持PNG和JPEG视频:支持最长120秒的视频输入,格式为MP4和MOV音频:原生嵌入音频数据,无需中间文本转录文档:可直接嵌入最多6页的PDF
此外,模型不仅可以处理单一模态,还支持多模态混合输入(例如图像 +文本)。
这意味着模型可以捕捉不同媒体之间的复杂语义关系,从而更准确地理解现实世界中的信息。
在评测方面,Gemini Embedding 2不仅整体性能较上一代提升,同时也为多模态嵌入任务树立了新的性能基准。
一方面增强了语音处理能力,另一方面也在文本、图像和视频任务中均超越现有领先模型,实现SOTA。

乍看之下,这似乎只是一次底层的数据工程升级。
但实际上,它正为像龙虾这样的AI Agent真正“看懂”世界,提供了关键基础。
目前,Gemini Embedding 2已经通过Gemini API和Vertex AI展开公测。
原生多模态嵌入
嵌入模型(Embedding Model)本质上是把数据转化为稠密向量表示。
在这个向量空间中,语义相似的数据会彼此靠近,不相似的数据则距离更远。
传统的嵌入模型主要针对文本。
例如,在谷歌此前的论文《Gemini Embedding: Generalizable Embeddings from Gemini》中——
Gemini Embedding通过在大语言模型参数中已有的海量知识基础上构建表征,并将得来的嵌入用于:语义检索、文本聚类、分类,排序等下游任务。

但这只停留在文字阶段。
最新的Gemini Embedding 2,则首次彻底打通了多模态数据。
文本、图片、视频、音频和文档,都被压缩到同一个向量空间之中。
而这,就意味着模型实现了“跨模态语义对齐”,能够让猫这个「文字概念」与猫的照片这个「视觉概念」,在统一的嵌入空间中的数学向量的距离极度接近。
通俗来说,当你搜索“猫”的时候,系统不仅能找到相关文字,还能直接找到猫的图片、视频甚至声音。
也正因为如此,很多原本复杂的多模态流程可以被大幅简化。
RAG检索、语义搜索、情感分析,到数据聚类等应用场景,都能直接受益。
更重要的是,这类能力对AI Agent意义巨大。
过去的Agent在操作电脑时,往往只能依赖文字信息。
例如识别按钮上的“设置”“确认”等标签。但真实世界的UI界面,大量信息其实来自视觉结构:
图标、布局、颜色、控件位置,正是传统文本嵌入模型难以处理的部分。
而有了多模态嵌入之后,情况就不同了。
对于像OpenClaw(龙虾)这样需要操作电脑,识别屏幕的Agent来说,它不再只是识别文字。

它可以直接理解:哪个像素区域是设置图标、哪个按钮与当前任务最相关,屏幕截图与文本指令之间的关系
换句话说,Gemini Embedding 2提供了一条统一的感官总线。视觉、听觉与文本信息,都能在同一个语义空间中进行关联。
这也为未来Agent真正理解屏幕、理解环境并代替人类操作电脑,奠定了最重要的语义基础。
在技术层面,Gemini Embedding 2继续采用Matryoshka Representation Learning(MRL)

这种方法允许嵌入向量在保持语义信息的同时进行动态维度缩减。
(注:MRL强制模型把最核心、最关键的特征压缩在向量的前几十维里,次要的特征放在后面,这让开发者可以根据预算和算力,自由决定信息密度的分布管理)
Gemini Embedding 2的默认输出维度为3072维,但开发者可以根据需求缩减,例如:3072维、1536维、768维,从而在性能与存储成本之间取得平衡。
除了支持API调用外,Gemini Embedding 2也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用。
通过为不同类型的数据赋予统一的语义表示,Gemini Embedding 2正在为下一代AI应用:多模态Agent,乃至具身智能机器人提供关键基础设施。
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
[2]https://arxiv.org/pdf/2503.07891
相关攻略
新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok
编辑|泽南、杨文没想到这次大面积市场震荡,还引出了学术大瓜。本周五晚,谷歌的学术不端事件成为了 AI 圈的焦点。来自苏黎世联邦理工学院(ETH Zurich)的博士后高健扬在知乎发布文章,表示 Go
文 | 盘古智库当前,市场上流行一种极度简化的商业叙事:将中国丰富的绿电资源视为人工智能时代的“新煤矿”。其基本逻辑可以表述为:利用西部低至 0 3 元每度的电力优势驱动大规模智算中心,通过算力芯片
新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而
国家知识产权局信息显示,青岛凯洛特科技有限公司申请一项名为“一种虚拟现实数据采集及修复方法”的专利,公开号CN121707869A,申请日期为2025年12月。专利摘要显示,本发明提供了一种虚拟现实
热门专题
热门推荐
洛克王国世界40级进阶无推图阵容打法攻略 在《洛克王国世界》的成长之旅中,达到40级是一个关键的进阶门槛。许多玩家可能会发现自己并未刻意组建一支成型的推图队伍,面对这个挑战时有些无从下手。这篇攻略将为你详细解析一套无需专门推图阵容的通关思路,帮助你利用现有资源,轻松突破40级进阶关卡。 核心阵容搭配
这城有良田主C僚属红品宝玉词条搭配攻略 在《这城有良田》中,红品宝玉的词条选择,是决定你主C僚属最终伤害上限的核心环节。面对各式各样的属性词条,不少玩家会感到困惑:如何搭配才能最大程度激发核心输出的潜力?本文将为你系统解析主C位红品宝玉的挑选逻辑与进阶策略,助你在资源投入上实现收益最大化,显著提升队
哔哩猫手表版优化指南:适配小屏的关键设置 想在智能手表上流畅体验哔哩猫?直接安装手机版本,往往会遇到界面拥挤、操作不便的问题。其实,只需调整几个核心选项,就能让哔哩猫完美匹配手表的小屏幕,操作体验大幅提升。 1、DPI优化:精准调节显示密度 手表屏幕空间有限,默认的显示比例常常导致文字过大、布局浪费
《深海迷航冰点之下》咖啡机使用全攻略:生存必备热饮制作指南 在《深海迷航冰点之下》这片危机四伏的极地海域中,新手面临的第一个致命威胁往往是持续不断的体温流失。与前作不同,身体失温在游戏前期是核心生存挑战之一。有效应对失温的方法主要有:尽快解锁并制作抗压潜水服的升级模块——防寒服、靠近能提供热源的炽热
三国志王道天下吕布骑阵容玩法攻略 在策略手游《三国志王道天下》中,构建强力阵容是核心乐趣。以飞将吕布为核心的群雄骑兵队,以其惊人的爆发力与爽快的操作体验,备受玩家关注。本攻略将为你详细解析这套阵容的构建精髓、核心机制与实战搭配思路,助你打造一支所向披靡的突击铁骑。 阵容构成 这套阵容以纯粹的群雄阵营





