面壁智能开源MiniCPM-V 4.5:8B参数端侧多模态模型,号称行业最强
8月27日最新消息,面壁智能于8月26日正式开源了其8B参数规模的MiniCPM-V 4.5多模态旗舰模型,这也是业界首款具备“高刷新率”视频解析能力的多模态人工智能系统。
据悉,MiniCPM-V 4.5在视频流畅度解析、长视频内容理解、光学字符识别及文档结构分析等维度均达到同规模模型的最优水准,其综合性能甚至超越了参数规模达72B的Qwen2.5-VL模型,被业界誉为“终端侧最强多模态模型”。

研发团队指出,传统多模态模型在处理视频内容时,由于需要兼顾计算效率与能耗控制,通常仅能采用每秒1帧的采样频率进行分析。这种处理方式虽能维持基本的推理效率,却不可避免地丢失了大量视觉细节,限制了模型对动态场景的精细化理解能力。
MiniCPM-V 4.5开创性地实现了高帧率视频解析技术,通过将原有的二维重构器升级为三维视频压缩架构,实现了对视频片段的密集型特征提取。在保持同等视觉令牌消耗的前提下,该模型可处理的视频帧数量提升至传统方案的6倍,视觉压缩效率达到96倍,整体性能较同类产品提升12至24倍。
凭借显著提升的采样频率,该模型实现了从“静态幻灯片式”观看向“动态场景式”理解的跨越式进步。面对快速变化的画面内容,MiniCPM-V 4.5在识别精度与细节捕捉方面均优于Gemini-2.5-Pro、GPT-5、GPT-4o等主流云端大模型。
在专门评估高帧率视频理解能力的MotionBench和FavorBench测试平台上,MiniCPM-V 4.5不仅取得同尺寸模型的最佳成绩,更在多项指标上超越72B参数的Qwen2.5-VL,展现出显著的性能优势。

这款仅需8B参数的紧凑型模型,在图像理解、视频分析、复杂文档解析等多模态任务中持续突破性能瓶颈。

在图像理解维度,MiniCPM-V 4.5于OpenCompass综合评测中表现突出,不仅领先于GPT-4o、GPT-4.1、Gemini-2.0-Pro等多款闭源模型,更实现对72B参数Qwen2.5-VL的跨级超越。

视频理解方面,该模型在LVBench、MLVU、Video-MME、LongVideoBench等权威测评体系中均取得同规模最佳成绩。

面对复杂文档解析任务,MiniCPM-V 4.5在OmniDocBench测评体系的OverallEdit、TextEdit、TableEdit三项核心指标中,均达到通用多模态模型的顶尖水平。

值得关注的是,该模型同步支持标准模式与深度思考双模式运行,在保证响应速度的同时兼顾复杂任务处理能力。标准模式适用于日常多模态场景,而深度思考模式则专为处理复合型推理难题设计。
在VideoMME视频理解测试与OpenCompass单图评测中,MiniCPM-V 4.5均达到同规格模型最优水平,并在显存占用、平均推理耗时等效率指标上保持领先。
特别是在涵盖短、中、长三类视频的Video-MME综合评测中,采用3帧打包推理策略的MiniCPM-V 4.5,其纯推理时间消耗仅为同级模型的十分之一(未计入视频采样耗时)。

附模型开源地址:
- Github:https://github.com/OpenBMB/MiniCPM-o
- Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
- ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
相关攻略
在人工智能浪潮席卷全球的今天,一家名为“面壁智能”的公司正以其独特的技术路径,悄然布局大模型产业的未来。这家公司将“智周万物”作为愿景,其核心目标直指创造安全、普惠的通用人工智能,并致力于将前沿的AI能力带给千行百业。 那么,面壁智能究竟有何不同?它的技术栈和产品矩阵,又是如何支撑其宏大愿景的?我们
AI行业风向正从小模型转向。腾讯、阿里和OpenAI相继推出小参数模型,显示小模型重回舞台中心。如今的小模型专为终端部署设计,称为端侧智能,能在手机等设备本地运行,应用于故障预警、智能座舱等场景。凭借低算力需求和本地化优势,小模型正开辟大模型之外的新战场。
大模型发展路径分化,部分转向应用层,部分聚焦参数效率。国内深度求索与面壁智能凭借高效开源技术脱颖而出,形成“6+2”格局。前者专注云端大规模混合专家模型,以低成本实现高性能;后者深耕端侧高效推理,通过稀疏化技术让轻量模型本地运行。两者技术路线不同,但共同指向算力受限下挖。
马斯克开源的大模型参数量巨大但性能未达预期,凸显参数规模不等于性能。面壁智能专注高效训练,通过小模型验证方法论,以更低成本实现高性能。其发布的MiniCPM系列模型参数少但性能强,体现了对ScalingLaw的科学应用。团队从算力、数据、算法多层面优化,致力于以高效路径推进AGI发展。
面壁智能发布MiniCPM2B端侧大模型,仅2B参数即在多项评测中超越更大模型。通过全栈优化、模型沙盒与数据闭环,显著降低训练成本并提升推理效率。该模型具备优秀语言、代码及多模态能力,可部署于手机等终端,拓展应用边界。团队通过大量实验积累经验,持续探索效率优化,并推动“大模型+Agent”双引擎发展。
热门专题
热门推荐
在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器
在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入
在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C
近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论
蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。





