谷歌新模型发布:多模态AI应用的关键布局
文 | 霞光AI实验室,作者|渡川
就在昨晚,谷歌发了首个原生多模态嵌入模型Gemini Embedding 2。
跟以往的纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和PDF文档等五种模态,全部映射到同一个向量空间里。
在这种情况下,模型可原生支持混合模态输入,例如同时传入图片+文字、视频+音频等复杂组合,而且系统也能够理解不同媒体之间的语义关联。这意味着,你用一段文字去搜索相关的图片,或者用一张图片找到含义相似的音频片段,都可以实现。
但这种嵌入模型并不是面向普通大众使用的,而是面向AI应用开发者、算法工程师以及拥有海量非结构化数据的企业,帮助他们大幅简化了复杂的多模态数据处理流程,提升检索增强生成(RAG)、语义搜索等多模态下游任务的表现,这也将为多模态智能应用铺平了道路。

通常大家说的大模型(LLM / 基础大模型),指的是能理解、推理、生成长文本的底座模型,表现出来是能够与人对话、思考、创作、写代码;而Embedding模型属于向量表征模型,它只做一件事——把文本 / 图像 / 音频转成向量(一串让机器读懂的数字),而不生成内容、不推理、不对话。
以前的机器在搜索/检索时有个问题:文本有文本的 Embedding 模型,图片有图片的 Embedding 模型,音频有音频的 Embedding 模型,它们各自生成的向量是互相隔离的。
而谷歌发布的Gemini Embedding 2 是一款“多模态翻译官”,它让不同类型的数据(文字、图片、声音)能够用同一种语言交流,为企业构建下一代多模态搜索引擎和推荐系统提供了强大的基础工具。

这款产品的核心在于统一和理解。主要特点包括:
总体来说,Gemini Embedding 2为机器创造了统一的“感官”,为下一个高级人工智能体验时代提供了必要的多模态基础。

Gemini Embedding 2最核心的受益群体,正是AI应用开发者和算法工程师,它会极大简化他们过去复杂的工作流程。
以前,如果AI应用开发者要做一个能同时搜索图片和文字的应用,需要维护图像模型和文本模型两套嵌入系统,还得写大量代码对齐结果,而现在一个模型、一个向量索引就能搞定;特别是对于需要处理音频和视频的开发者,以前需要先做语音转文字、视频抽帧等预处理,现在可以直接输入原始音视频,减少了信息丢失,也降低了开发维护成本。
此外,对于很多大型企业(如媒体、医疗、金融)来说,它们的数据资产中绝大部分都是非结构化的图片、扫描件、录音和视频。过去,这些数据只能在数据库里沉睡,而Gemini Embedding 2 可以让这些数据真正变得可搜索、可利用——比如媒体可以建立一个跨格式的资料库,编辑直接用文字描述(如“夕阳下的海滩,带有轻松的背景音乐”)就可以搜索出符合条件的视频素材,无需依赖人工打标签。
此外,随着大模型应用加快,让模型获取最新的、多模态的知识变得至关重要。RAG 是目前的主流方案,而 Gemini Embedding 2 将 RAG 从“文本检索”升级到了“多模态检索”。有了 Gemini Embedding 2 的加持,当用户提问时,系统不仅能检索相关文字,还能找出相关的图表、视频片段作为上下文提供给大模型,从而生成图文并茂、信息量更大的回复。
Gemini Embedding 2的发布,其意义超越了模型本身。谷歌表示,该模型在多项文本、图像和视频任务的基准测试中超越了当前的主流竞品,为多模态嵌入领域设立了新的性能标准。
此外,它还让一系列过去难以实现的场景变得触手可及。例如,在法律领域,它可以从数百万条记录中,快速检索出包含特定图片、音频片段的证据文件;在推荐系统中,它可以基于用户的浏览历史,混合推荐相关的文章、视频和播客,体验更自然流畅。
总结来看,Gemini Embedding 2让机器不仅能生成内容,更能从底层去理解这个由多元信息构成的世界,让AI开启“全感知”应用时代。

2026年,被认为是大模型的“多模态”之年。今年前两个月,国内的快手、字节跳动、阿里巴巴等科技巨头密集发布新一代多模态模型,标志着AI视频生成正从“盲盒式娱乐”向“精准工业化生产”跨越。尤其Seedance2.0的发布,在全球引发关注,其最大亮点在于通过“@素材名”的全新交互范式,让用户能够指定每个图片、视频、音频的用途,且画面的物理规律更合理、动作表现更自然流畅。
如今,全球大模型已从单一文本能力的深耕,转向多模态原生融合的深耕。不同于以往“文本+图像”的简单拼接,2026年的多模态大模型普遍采用统一表示空间架构,能够原生协同处理文本、图像、音频、视频,真正实现跨模态的理解、生成与交互。
Gemini Embedding 2 代表的底层基础设施的革新,则它让机器“读懂”世界的方式变得统一和高效。
相关攻略
在追求更高算力与能效的赛道上,RISC-V阵营迎来了一位实力强劲的新成员。美国当地时间5月12日,知名RISC-V IP供应商SiFive正式发布了其第三代高性能CPU IP——Performance P570 Gen 3。官方将其定位为当前功能最强大、效率最高的乱序执行处理器核心,旨在满足边缘AI
新智元报道编辑:Aeneas KingHZ【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机
新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok
编辑|泽南、杨文没想到这次大面积市场震荡,还引出了学术大瓜。本周五晚,谷歌的学术不端事件成为了 AI 圈的焦点。来自苏黎世联邦理工学院(ETH Zurich)的博士后高健扬在知乎发布文章,表示 Go
文 | 盘古智库当前,市场上流行一种极度简化的商业叙事:将中国丰富的绿电资源视为人工智能时代的“新煤矿”。其基本逻辑可以表述为:利用西部低至 0 3 元每度的电力优势驱动大规模智算中心,通过算力芯片
热门专题
热门推荐
在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c
登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而
GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。
在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱
宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并





