首页 游戏 软件 资讯 排行榜 专题
首页
AI
ICCV25亮点:格灵深瞳RICE模型,让AI精准理解图片每一处细节

ICCV25亮点:格灵深瞳RICE模型,让AI精准理解图片每一处细节

热心网友
62
转载
2025-10-30

在MVT系列的新成员RICE中,我们延续了前作Unicom(MVT v1.0)和MLCD(MVT v1.1)的视觉预训练理念,始终秉持通过边缘距离表征语义的核心观点,最终在国际顶级学术会议ICCV25上荣获Highlight论文荣誉。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近,格灵深瞳公司灵感团队自主研发的视觉模型基座RICE(MVT v1.5)再次惊艳亮相,在多项视觉任务榜单上刷新了纪录。

作为MVT系列的最新迭代,RICE继承了Unicom和MLCD的视觉预训练思想,坚持通过margin表征语义差异的技术路线,在ICCV25会议上获得了大会重点推荐。

代码地址:https://github.com/deepglint/MVT论文地址:https://arxiv.org/abs/2507.20025模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

作为灵感团队自主研发的视觉基座预训练方法,MVT系列从1.0版本开始,就专注于如何让视觉模型在利用海量数据集时,能够进行更精准的视觉语义表征。该系列的技术灵感来源于格灵深瞳公司的顶尖技术——人脸识别算法,得益于在领域积累的大量训练经验和视觉表征认知。

团队深刻认识到,视觉知识就像不同的面孔一样,名称只是赋予的人为语义。只要能够充分实现不同语义间的差异化表征,就能让各类下游任务以及大语言模型轻松识别这些差异特征与人类认知之间的对应关系。

基于这一思路,MVT v1.0成功站在巨人的肩膀上,利用当时最先进的CLIP预训练模型为海量图文数据进行特征提取。再通过kmeans算法,将所有特征聚类为一百万个不同类别,并为图片进行自动标注。该版本在图片分类、检索等不同领域均获得了SOTA级别的卓越表现。

MVT v1.0方法中每个样本的学习过程实际上是基于超大规模数据集总结而来的,突破了CLIP这类方法的batch内差异学习的局限。

灵感团队持续研究发现,对图像赋予单一标签的做法,可能会将其他正确的标签当作负样本学习——正如人类对于事物的认知本身就具有多样性。基于这一认知,团队随后推出了MVT v1.1的工作,为每张图像分配top-k个软标签,从而进一步提升视觉基座对图像编码的语义丰富性。

新一代视觉模型基座——RICE

本次发布的MVT v1.5——RICE是沿着前作思路,并进一步洞悉图像语义组成方式的又一力作。

研究发现,一张图片包含的信息往往是由多种无关联或弱关联的视觉元素拼接而成,直接对图片内部的不同视觉元素进行监督学习可能更符合人类对于图像信息的处理方式,也能进一步成为目标检测、分割等下游任务更优质的基座视觉模型。除此之外,图片中存在的字符符号也被此框架兼容,其字符本身就是该区域图片的语义信息。

为此,团队使用SAM对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从400M的图像中得到2B个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用PaddleOCR从50M图片中提取出400M的字符级别候选区域,并直接使用字符作为类别标签。

在训练过程中,每张图片大约有10个区域级对象需要进行学习。为了让训练更加高效,团队提出了一种Region Attention Layer模块来加速模型训练。模型主体部分——编码器采用经典的ViT结构,对于最后一层的视觉特征图则使用mask机制对属于同一对象的视觉特征进行提取,完整的图片类别嵌入作为查询向量,对区域级别的视觉特征进行注意力计算,得到该区域的Region Class Embedding作为区域类别语义进行分类损失计算。

相较于MVT v1.1这类以全图语义信息编码的训练方法,RICE在训练过程中,对图片内部视觉特征差异性的表达能力得到了显著提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。

完备实验验证

作为新一代视觉基座模型,RICE在多种不同的下游任务上进行了充分的实验验证。

检测任务

RICE不仅在经典的COCO和LVIS任务上验证了检测任务中的线性探测能力,还在包含100种不同场景检测任务的Roboflow100数据集上,与其他先进的视觉基座模型进行了公平比较。针对区域级别语义学习的方法,让RICE在这类任务上拥有得天独厚的优势,在几乎所有指标上都取得了最佳结果。

多模态分割任务

作为多模态领域重要方向之一,RICE使用经典的LLaVA系列多模态框架,采用LISA方法进行训练,在refCOCO系列的所有子集上均获得了显著的性能提升。

视频追踪任务

尽管RICE是基于图片进行训练的模型,但其ROPE位置编码方式以及跨图片的区域级对象聚类方法,使得RICE可以接收不同尺寸的视频输入,并对不同视频帧中的相同目标进行持续追踪。在4个不同的视频追踪相关任务上,RICE均取得了领先表现,从特征降采样后的可视化效果来看,模型能够很好地持续追踪不同帧中的同一类别物体。

多模态问答任务

多模态模型是当前视觉基座模型的兵家必争之地。在LLaVA系列的主流训练架构中,使用RICE作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于训练方法可以无缝兼容光学字符识别,使得基于RICE视觉基座的多模态模型在OCR相关任务上获得了显著的优势。源自LLaVA- OneVision-1.5 的技术报告:

最近,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比肩的卓越工作。

结论

作为格灵深瞳公司MVT系列的又一力作,RICE在多个层面上展现了团队对于视觉预训练的深刻理解与洞察。该模型的成功印证了:视觉语义信息在学习时应当注重差异化,确保不同下游任务能够轻松辨别并快速识别不同的语义信息;图片中的视觉元素很多时候是无关联或弱关联的,因此对区域内的视觉元素学习能够更好地完整表征图片信息。

下一步,MVT系列即将开启v2.0工作——视频编码。图像是当前场景的静态帧,视频则是对真实世界的直接记录。视频中包含的大量信息值得深入挖掘,是通往AGI之路的富矿。MVT将继续沿着前作的差异化语义表征路线,开启视频编码时代的下一个SOTA里程碑!

来源:https://www.51cto.com/article/828434.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势
web3.0
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势

Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,

热心网友
04.02
京东发起全民养虾计划 整合AI硬件与服务降低门槛
科技数码
京东发起全民养虾计划 整合AI硬件与服务降低门槛

京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,

热心网友
04.02
一波资本从以太坊(ETH)流出,进入TRON [TRX]
web3.0
一波资本从以太坊(ETH)流出,进入TRON [TRX]

以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的

热心网友
04.02
自研第一个SKILL-openclaw入门
AI
自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

热心网友
04.02
消息称有国产 TOP5 手机厂商已合作豆包 AI 手机
科技数码
消息称有国产 TOP5 手机厂商已合作豆包 AI 手机

国产 TOP5 手机厂商被曝联手豆包 打造全新 AI 手机 手机行业再迎重磅 AI 合作!今日,知名数码爆料博主 @数码闲聊站 抛出了“豆包 AI 手机”的议题,并透露其已从内部渠道确认:一家位列国产前五的头部手机厂商,已与字节跳动旗下 AI 产品“豆包”达成深度合作协议。这标志着,AI 手机助理的

热心网友
04.02

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02