据知情消息,谷歌于本周二正式发布了其首个多模态人工智能模型Gemini Embedding 2。作为这家科技巨头推出的最新模型,它能够将文本、图像、视频、音频和文档映射到一个统一的嵌入空间中。
谷歌在一篇博客文章中阐述:“Gemini Embedding 2将文本、图像、视频、音频和文档映射到一个统一的嵌入空间,并能在超过100种语言中捕捉语义意图。” 文中进一步指出,“这简化了复杂的处理流程,并增强了下游多种模态任务的能力——从检索增强生成和语义搜索,到情感分析和数据聚类。”
作为Gemini系列AI模型的最新成员,该模型最多支持8192个文本输入token;每次请求可处理最多6张图像,支持PNG和JPEG格式;可处理最长120秒的视频,支持MP4和MOV格式;能够直接摄取并嵌入音频数据而无需转录;并且可以直接嵌入最长6页的PDF文档。
谷歌补充道:“Gemini Embedding 2不仅仅是对传统模型的改进。” 在将其与亚马逊等其他模型以及谷歌自身模型进行比较时,谷歌表示:“它为多模态理解树立了新的性能标准,引入了强大的语音能力,并在文本、图像和视频任务中超越了领先模型。这种可衡量的性能提升以及独特的多模态覆盖能力,使开发者能够获得满足其多样化嵌入需求的一站式工具。”
