谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布:能让机器“理解”信息
谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2:让机器真正“理解”多元信息
北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视频乃至整个文档,都能被它映射到同一个“理解空间”里,让机器用一种前所未有的统一视角来“看”世界。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这里需要先分清一个概念:嵌入模型和咱们常聊的生成式模型(比如 Gemini 3)走的不是一条路。生成式模型负责“创造”,而嵌入模型的核心任务是“理解”。它的工作,是把一段文本、一张图片或一段视频,转换成机器更容易读取和分析的数学形式(通常是向量)。

那么,这种转换有什么实际价值呢?关键在于语义。通过语义搜索、分类和聚类这些方式,嵌入模型能够捕捉到信息之间深层次的含义关联。因此,它提供的结果往往比传统的关键词匹配更精准,也更贴合上下文,真正从“匹配词汇”升级到了“理解意图”。
回顾谷歌的嵌入模型发展,早期的版本其实只支持文本处理。而这次的 Gemini Embedding 2,堪称一次全方位的“感官开放”。它一举支持了文本、图像、视频、音频和文档五种模态,并且能在超过100种语言中识别用户的语义意图,野心不小。
当然,能力越大,处理起来也越需要清晰的规则。不同数据类型的处理限制如下:
文本:上下文窗口最高支持8192个tokens。
图像:每次请求最多处理6张,支持 PNG 和 JPEG 格式。
视频:输入视频最长120秒,支持 MP4 和 MOV 格式。
音频:一个亮点是,它可以直接处理原始音频数据,省去了先转录成文字的麻烦步骤。
文档:最多可支持6页的 PDF 文件。
谷歌在官方博客中特别强调,新模型的目标是双重的:一是简化那些原本复杂的多模态数据处理流程;二是全面增强各类应用的多模态理解能力。哪些应用会因此受益?范围很广,从当前火热的检索增强生成(RAG)、更智能的语义搜索,到细致的情感分析和大规模数据聚类,都能看到它的用武之地。
更妙的是,这个模型还支持在一次请求中接收混合输入,比如“图像+文本”。这意味着它能同时分析不同媒体类型之间的关系,而不是孤立地看待它们。这无疑是向真正的跨模态理解迈出了一大步。
举个具体的例子吧。在法律领域的诉讼取证阶段,面对海量的证据材料(包括合同文本、监控视频、沟通录音),法律专业人士如何快速定位关键证据?Gemini 嵌入模型就能大显身手。测试结果显示,在数百万条记录的数据库中进行搜索时,多模态嵌入技术能显著提升检索的精度和召回率,同时让图像与视频的搜索效果也上了一个台阶。
目前,Gemini Embeddings 2(具体型号为 gemini-embedding-2-preview)已经通过 Gemini API 和 Vertex AI 平台开放了公开预览。值得注意的是,原先的纯文本嵌入模型 gemini-embedding-001 并未退役,它将继续服务于那些只需要处理文本的轻量级应用场景。谷歌这次是扩展了能力边界,而非简单地替换,策略相当清晰。
相关攻略
谷歌DeepMind重组精锐团队,Gemini专攻AI编程难题与智能体开发 在人工智能编程领域,竞争已进入白热化阶段。为加速追赶Anthropic公司旗下Claude模型的技术表现,谷歌DeepMind近期完成了一次重要的内部重组,正式成立了由资深研究员Sebastian Borgeaud领导的Ge
Gemini 2 5 Pro——谷歌推出的最新AI思考模型 Gemini 2 5 Pro 是什么? 如果说在AI领域,模型的“智商”和“通识”能力是决胜关键,那么谷歌DeepMind最新推出的Gemini 2 5 Pro,无疑是一次显著的能力跃迁。这个模型的核心优势在于强大的推理能力和广泛的多模态原
Gemini平台:由Winklevoss兄弟打造的合规加密交互中心 在加密资产领域,选择一个安全、合规的起点至关重要。Gemini平台,由知名的Winklevoss兄弟创立,正是这样一个将合规与监管置于首位的交互中心。它不仅提供了多样化的现货交易选择,还无缝衔接了法币入金与高标准的资产托管服务。这份
一、确认图纸输入质量是否触发底层识别阈值 想让Gemini 2 0看懂图纸,第一步得确保它“看得清”。模型的视觉编码器对工程图纸的解析,本质上依赖像素级的结构保真度。如果图纸本身清晰度不够、噪点多,那么底层的卷积神经网络(CNN)在提取线条、交点等关键特征时就会失效,后续的视觉Transformer
Gemini交易所:官网与App安全获取指南 在挑选加密货币交易平台时,安全与合规是首要考量。Gemini(由 Gemini Trust Company, LLC 运营)作为一家在美国注册并受严格监管的平台,为用户提供了买卖、存储和理财的一站式服务。为了确保你能从官方渠道安全访问,这里整理了其官网入
热门专题
热门推荐
三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4
北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组
苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务
纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像
苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像





