首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
MiniCPM-V 4.5:8B多模态旗舰性能超越72B,视频理解又快又准

MiniCPM-V 4.5:8B多模态旗舰性能超越72B,视频理解又快又准

热心网友
76
转载
2025-09-05

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

? 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先;

?‍?端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

?支持长思考、短思考可控混合推理,性能好、速度快。

➤模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

02

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著。

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

04

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以提高理解上限;而模型融入太多视频帧,又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为 6 ),3D-Resampler 会对每个视频组压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大 10 fps 抽帧,实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性,我们可以在推理阶段灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为 3D 视频编码的 2D 特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以提升数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」,使得多模态模型在 OCR 和知识学习两种模式之间无缝切换,首次实现了OCR 和知识学习两种学习范式的有效融合,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会 OCR 学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界,但在常见问题场景中,也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡:常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V 4.5 提出了混合推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术,MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号,以提升广泛通用领域的推理能力。最终,通过轻量化的 RLAIF-V 训练阶段,模型在保持推理能力的同时显著降低了幻觉。

来源:https://www.leiphone.com/category/ai/8MooCsGxC0g7szRa.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

端侧AI的密度法则与昇腾算力协同实践
科技数码
端侧AI的密度法则与昇腾算力协同实践

过去几年,大模型行业的注意力更多集中在云端,关注参数规模、推理速度或者能力榜单,而如今,客户关心的不是模型能不能更“强”,而是能不能在真实算力条件下跑起来,能不能稳定服务用户,能不能把成本压到一个可

热心网友
03.30
中国电信领投:墙面智能获数亿元融资开启新篇章
科技数码
中国电信领投:墙面智能获数亿元融资开启新篇章

近日,面壁智能完成马年春节之后首轮融资,迎来新春“开门红”。 本轮融资规模数亿元,由中国电信领投、中信金石、中信私募跟投。其中,中国电信作为战略投资方,将与面壁智能展开深度业务协同。中国电信将发挥

热心网友
02.28
壁仞科技获融资,高密度大模型创新受国家队战略青睐
科技数码
壁仞科技获融资,高密度大模型创新受国家队战略青睐

2月28日,面壁智能官宣2026年首轮数亿元融资。本轮融资由中国电信领投,中信金石、中信私募跟投。本轮融资显示了资本行业对面壁在“端侧大模型”赛道领先地位以及高密度技术创新的认可。具体来看,中国电信

热心网友
02.28
中国电信战略投资面壁智能:AI与算力设施协同新突破
科技数码
中国电信战略投资面壁智能:AI与算力设施协同新突破

来源:环球网【环球网科技综合报道】2月28日消息,近日,面壁智能宣布完成新一轮数亿元融资,由中国电信领投,中信金石、中信私募跟投。在行业步入‘中场战事’、商业化落地成为核心命题的当下,面壁智能在春节

热心网友
02.28
AI公司面壁智能获亿元新融资,专注大模型技术研发
科技数码
AI公司面壁智能获亿元新融资,专注大模型技术研发

端侧AI公司北京面壁智能科技有限责任公司(简称:面壁智能)日前完成马年春节之后新一轮融资。据澎湃科技(www thepaper cn)了解,本次融资规模为数亿元,由中国电信领投,中信金石、中信私募跟

热心网友
02.28

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

逸剑风云决手机版 叶飞莲心湖位置及叶飞触发方法详解
游戏攻略
逸剑风云决手机版 叶飞莲心湖位置及叶飞触发方法详解

《逸剑风云决》叶飞支线任务全攻略:触发条件与莲心湖位置详解 不少《逸剑风云决》玩家在推进支线任务时,常会困惑于叶飞角色的触发条件。尤其是在到达莲心湖地图后,许多玩家反复探索却无法找到叶飞,“莲心湖找不到叶飞”已成为常见问题。实际上,这并非游戏BUG,而是一系列精密的剧情前置要求未被满足。本指南将系统

热心网友
04.06
永恒树之歌创世世界种子使用方法 永恒树之歌新手必看的种子激活与世界生成教程
游戏攻略
永恒树之歌创世世界种子使用方法 永恒树之歌新手必看的种子激活与世界生成教程

《永恒树之歌:创世》世界种子攻略:获取方法、选址布局与高效家园建设指南 初次来到《永恒树之歌:创世》的阿莱瑞亚大陆,面对这片等待复苏的丰饶世界,你需要掌握的第一个核心机制就是“世界种子”。这款以自然共生与家园重建为主题的治愈系模拟经营游戏中,世界种子不仅是开启建设的钥匙,更是决定未来发展潜力的基石。

热心网友
04.06
纪念碑谷3全流程通关指南 纪念碑谷3全关卡详细 walkthrough 与解谜思路
游戏攻略
纪念碑谷3全流程通关指南 纪念碑谷3全关卡详细 walkthrough 与解谜思路

《纪念碑谷3》全章节图文攻略:从灯塔解密到莲花祭坛的完整流程解析 备受期待的视觉解谜游戏《纪念碑谷3》延续了系列标志性的极简美学与沉浸式空间叙事。游戏关卡设计由浅入深,即便是新手也能快速掌握核心机制,逐步建立对空间变换与机关互动的直觉。近期,“纪念碑谷3怎么通关”、“第三章攻略”、“莲花机关怎么过”

热心网友
04.06
《红色沙漠》动力核心获取攻略-阿比斯生命体掉落详解
游戏攻略
《红色沙漠》动力核心获取攻略-阿比斯生命体掉落详解

速览 你是否正在寻找《红色沙漠》中最强装备升级的关键材料——动力核心?本指南将为你精准揭秘动力核心的唯一高效获取途径:击败强大的阿比斯生命体。我们将详解如何根据不同核心定位特定目标怪物,传授运用法则之力的实战击杀技巧,并分享一个关键的核心掉落「S L小技巧」,助你系统性地提升收集效率,快速武装你的角

热心网友
04.06
《红色沙漠》影子森林遗迹解谜攻略-详细步骤解析
游戏攻略
《红色沙漠》影子森林遗迹解谜攻略-详细步骤解析

速览 在《红色沙漠》中,影子森林遗迹以其复杂的内部结构,成为许多玩家挑战的难点区域。解谜的关键路径其实并不复杂:首先我们需要前往阿方索领地,在此区域仔细探索,找到并触发一个被称为“可疑气息”的交互点,这即是通往遗迹内部的入口。进入遗迹后,最引人注目的便是那个被大量古老树藤严密包裹的核心机关。此时,玩

热心网友
04.06