ICCV25亮点:格灵深瞳RICE模型,让AI精准理解图片每一处细节
在MVT系列的新成员RICE中,我们延续了前作Unicom(MVT v1.0)和MLCD(MVT v1.1)的视觉预训练理念,始终秉持通过边缘距离表征语义的核心观点,最终在国际顶级学术会议ICCV25上荣获Highlight论文荣誉。
最近,格灵深瞳公司灵感团队自主研发的视觉模型基座RICE(MVT v1.5)再次惊艳亮相,在多项视觉任务榜单上刷新了纪录。
作为MVT系列的最新迭代,RICE继承了Unicom和MLCD的视觉预训练思想,坚持通过margin表征语义差异的技术路线,在ICCV25会议上获得了大会重点推荐。

代码地址:https://github.com/deepglint/MVT论文地址:https://arxiv.org/abs/2507.20025模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
作为灵感团队自主研发的视觉基座预训练方法,MVT系列从1.0版本开始,就专注于如何让视觉模型在利用海量数据集时,能够进行更精准的视觉语义表征。该系列的技术灵感来源于格灵深瞳公司的顶尖技术——人脸识别算法,得益于在领域积累的大量训练经验和视觉表征认知。
团队深刻认识到,视觉知识就像不同的面孔一样,名称只是赋予的人为语义。只要能够充分实现不同语义间的差异化表征,就能让各类下游任务以及大语言模型轻松识别这些差异特征与人类认知之间的对应关系。
基于这一思路,MVT v1.0成功站在巨人的肩膀上,利用当时最先进的CLIP预训练模型为海量图文数据进行特征提取。再通过kmeans算法,将所有特征聚类为一百万个不同类别,并为图片进行自动标注。该版本在图片分类、检索等不同领域均获得了SOTA级别的卓越表现。

MVT v1.0方法中每个样本的学习过程实际上是基于超大规模数据集总结而来的,突破了CLIP这类方法的batch内差异学习的局限。
灵感团队持续研究发现,对图像赋予单一标签的做法,可能会将其他正确的标签当作负样本学习——正如人类对于事物的认知本身就具有多样性。基于这一认知,团队随后推出了MVT v1.1的工作,为每张图像分配top-k个软标签,从而进一步提升视觉基座对图像编码的语义丰富性。

新一代视觉模型基座——RICE
本次发布的MVT v1.5——RICE是沿着前作思路,并进一步洞悉图像语义组成方式的又一力作。
研究发现,一张图片包含的信息往往是由多种无关联或弱关联的视觉元素拼接而成,直接对图片内部的不同视觉元素进行监督学习可能更符合人类对于图像信息的处理方式,也能进一步成为目标检测、分割等下游任务更优质的基座视觉模型。除此之外,图片中存在的字符符号也被此框架兼容,其字符本身就是该区域图片的语义信息。
为此,团队使用SAM对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从400M的图像中得到2B个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用PaddleOCR从50M图片中提取出400M的字符级别候选区域,并直接使用字符作为类别标签。

在训练过程中,每张图片大约有10个区域级对象需要进行学习。为了让训练更加高效,团队提出了一种Region Attention Layer模块来加速模型训练。模型主体部分——编码器采用经典的ViT结构,对于最后一层的视觉特征图则使用mask机制对属于同一对象的视觉特征进行提取,完整的图片类别嵌入作为查询向量,对区域级别的视觉特征进行注意力计算,得到该区域的Region Class Embedding作为区域类别语义进行分类损失计算。

相较于MVT v1.1这类以全图语义信息编码的训练方法,RICE在训练过程中,对图片内部视觉特征差异性的表达能力得到了显著提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。
完备实验验证
作为新一代视觉基座模型,RICE在多种不同的下游任务上进行了充分的实验验证。
检测任务
RICE不仅在经典的COCO和LVIS任务上验证了检测任务中的线性探测能力,还在包含100种不同场景检测任务的Roboflow100数据集上,与其他先进的视觉基座模型进行了公平比较。针对区域级别语义学习的方法,让RICE在这类任务上拥有得天独厚的优势,在几乎所有指标上都取得了最佳结果。

多模态分割任务
作为多模态领域重要方向之一,RICE使用经典的LLaVA系列多模态框架,采用LISA方法进行训练,在refCOCO系列的所有子集上均获得了显著的性能提升。

视频追踪任务
尽管RICE是基于图片进行训练的模型,但其ROPE位置编码方式以及跨图片的区域级对象聚类方法,使得RICE可以接收不同尺寸的视频输入,并对不同视频帧中的相同目标进行持续追踪。在4个不同的视频追踪相关任务上,RICE均取得了领先表现,从特征降采样后的可视化效果来看,模型能够很好地持续追踪不同帧中的同一类别物体。

多模态问答任务
多模态模型是当前视觉基座模型的兵家必争之地。在LLaVA系列的主流训练架构中,使用RICE作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于训练方法可以无缝兼容光学字符识别,使得基于RICE视觉基座的多模态模型在OCR相关任务上获得了显著的优势。源自LLaVA- OneVision-1.5 的技术报告:

最近,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比肩的卓越工作。

结论
作为格灵深瞳公司MVT系列的又一力作,RICE在多个层面上展现了团队对于视觉预训练的深刻理解与洞察。该模型的成功印证了:视觉语义信息在学习时应当注重差异化,确保不同下游任务能够轻松辨别并快速识别不同的语义信息;图片中的视觉元素很多时候是无关联或弱关联的,因此对区域内的视觉元素学习能够更好地完整表征图片信息。
下一步,MVT系列即将开启v2.0工作——视频编码。图像是当前场景的静态帧,视频则是对真实世界的直接记录。视频中包含的大量信息值得深入挖掘,是通往AGI之路的富矿。MVT将继续沿着前作的差异化语义表征路线,开启视频编码时代的下一个SOTA里程碑!
相关攻略
Excel筛选功能能高效处理海量数据。基础筛选通过列标题下拉菜单勾选或搜索快速定位数据。高级筛选需设置条件区域,可满足多条件复杂查询。FILTER函数能实现动态自动化筛选,结果随数据源同步更新。掌握这些方法可显著提升数据处理效率。
Excel表格可通过多种方法美化以提升可读性。使用内置表格样式可一键快速套用格式;通过设置单元格格式能自定义边框与填充颜色;利用条件格式可根据数据规则自动突出显示特定内容。这些技巧能有效增强数据呈现的清晰度与专业性。
Excel提供了多种批量删除数据的方法。使用Ctrl键配合鼠标可选择不连续区域并右键删除;选中连续区域后按Delete键可快速清空内容。通过“开始”选项卡中的“清除”功能,可同时移除格式与内容。对于复杂任务,可利用VBA宏编写脚本,一键清空所有工作表数据。根据需求选择合适方法能提升效率。
面对表格数据,手动计算易错低效。掌握自动汇总技巧能显著提升效率。常用方法包括:利用筛选功能快速提取和查看特定数据;使用基础的SUM函数进行灵活求和;创建数据透视表进行多维度交互式分析;运用COUNTIF、SUMIF等条件统计函数实现智能计算。根据场景选用合适工具,可使数据处理变得轻松高效。
Excel表格合并有多种方法。复制粘贴适合简单任务;合并计算可汇总多区域数据;PowerQuery能处理复杂合并与数据清洗;CONCATENATE和TEXTJOIN函数专用于合并单元格文本;VBA宏可实现重复任务的自动化。根据数据规模、频率和复杂度选择合适工具,能显著提升数据整理的效率与准确性。
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





