首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
面壁智能开源MiniCPM-V 4.5:8B参数端侧多模态模型,号称行业最强

面壁智能开源MiniCPM-V 4.5:8B参数端侧多模态模型,号称行业最强

热心网友
92
转载
2025-08-29

8月27日最新消息,面壁智能于8月26日正式开源了其8B参数规模的MiniCPM-V 4.5多模态旗舰模型,这也是业界首款具备“高刷新率”视频解析能力的多模态人工智能系统。

据悉,MiniCPM-V 4.5在视频流畅度解析、长视频内容理解、光学字符识别及文档结构分析等维度均达到同规模模型的最优水准,其综合性能甚至超越了参数规模达72B的Qwen2.5-VL模型,被业界誉为“终端侧最强多模态模型”。

\

研发团队指出,传统多模态模型在处理视频内容时,由于需要兼顾计算效率与能耗控制,通常仅能采用每秒1帧的采样频率进行分析。这种处理方式虽能维持基本的推理效率,却不可避免地丢失了大量视觉细节,限制了模型对动态场景的精细化理解能力。

MiniCPM-V 4.5开创性地实现了高帧率视频解析技术,通过将原有的二维重构器升级为三维视频压缩架构,实现了对视频片段的密集型特征提取。在保持同等视觉令牌消耗的前提下,该模型可处理的视频帧数量提升至传统方案的6倍,视觉压缩效率达到96倍,整体性能较同类产品提升12至24倍。

凭借显著提升的采样频率,该模型实现了从“静态幻灯片式”观看向“动态场景式”理解的跨越式进步。面对快速变化的画面内容,MiniCPM-V 4.5在识别精度与细节捕捉方面均优于Gemini-2.5-Pro、GPT-5、GPT-4o等主流云端大模型。

在专门评估高帧率视频理解能力的MotionBench和FavorBench测试平台上,MiniCPM-V 4.5不仅取得同尺寸模型的最佳成绩,更在多项指标上超越72B参数的Qwen2.5-VL,展现出显著的性能优势

\

这款仅需8B参数的紧凑型模型,在图像理解、视频分析、复杂文档解析等多模态任务中持续突破性能瓶颈。

\

在图像理解维度,MiniCPM-V 4.5于OpenCompass综合评测中表现突出,不仅领先于GPT-4o、GPT-4.1、Gemini-2.0-Pro等多款闭源模型,更实现对72B参数Qwen2.5-VL的跨级超越

\

视频理解方面,该模型在LVBench、MLVU、Video-MME、LongVideoBench等权威测评体系中均取得同规模最佳成绩。

\

面对复杂文档解析任务,MiniCPM-V 4.5在OmniDocBench测评体系的OverallEdit、TextEdit、TableEdit三项核心指标中,均达到通用多模态模型的顶尖水平。

\

值得关注的是,该模型同步支持标准模式与深度思考双模式运行,在保证响应速度的同时兼顾复杂任务处理能力。标准模式适用于日常多模态场景,而深度思考模式则专为处理复合型推理难题设计。

在VideoMME视频理解测试与OpenCompass单图评测中,MiniCPM-V 4.5均达到同规格模型最优水平,并在显存占用、平均推理耗时等效率指标上保持领先

特别是在涵盖短、中、长三类视频的Video-MME综合评测中,采用3帧打包推理策略的MiniCPM-V 4.5,其纯推理时间消耗仅为同级模型的十分之一(未计入视频采样耗时)。

附模型开源地址:

  • Github:https://github.com/OpenBMB/MiniCPM-o
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
来源:https://www.ithome.com/0/878/512.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

面壁智能自然语言处理技术前沿与应用解析
AI资讯
面壁智能自然语言处理技术前沿与应用解析

在人工智能浪潮席卷全球的今天,一家名为“面壁智能”的公司正以其独特的技术路径,悄然布局大模型产业的未来。这家公司将“智周万物”作为愿景,其核心目标直指创造安全、普惠的通用人工智能,并致力于将前沿的AI能力带给千行百业。 那么,面壁智能究竟有何不同?它的技术栈和产品矩阵,又是如何支撑其宏大愿景的?我们

热心网友
05.17
小模型崛起成为AI新战场
AI资讯
小模型崛起成为AI新战场

AI行业风向正从小模型转向。腾讯、阿里和OpenAI相继推出小参数模型,显示小模型重回舞台中心。如今的小模型专为终端部署设计,称为端侧智能,能在手机等设备本地运行,应用于故障预警、智能座舱等场景。凭借低算力需求和本地化优势,小模型正开辟大模型之外的新战场。

热心网友
05.16
DeepSeek与面壁智能大模型技术路径深度解析
AI资讯
DeepSeek与面壁智能大模型技术路径深度解析

大模型发展路径分化,部分转向应用层,部分聚焦参数效率。国内深度求索与面壁智能凭借高效开源技术脱颖而出,形成“6+2”格局。前者专注云端大规模混合专家模型,以低成本实现高性能;后者深耕端侧高效推理,通过稀疏化技术让轻量模型本地运行。两者技术路线不同,但共同指向算力受限下挖。

热心网友
05.16
如何复现OpenAI的Scaling Law曲线实现模型高效扩展
AI资讯
如何复现OpenAI的Scaling Law曲线实现模型高效扩展

马斯克开源的大模型参数量巨大但性能未达预期,凸显参数规模不等于性能。面壁智能专注高效训练,通过小模型验证方法论,以更低成本实现高性能。其发布的MiniCPM系列模型参数少但性能强,体现了对ScalingLaw的科学应用。团队从算力、数据、算法多层面优化,致力于以高效路径推进AGI发展。

热心网友
05.16
面壁曾国洋专访:千次模型试炼打造高效性能小钢炮
AI资讯
面壁曾国洋专访:千次模型试炼打造高效性能小钢炮

面壁智能发布MiniCPM2B端侧大模型,仅2B参数即在多项评测中超越更大模型。通过全栈优化、模型沙盒与数据闭环,显著降低训练成本并提升推理效率。该模型具备优秀语言、代码及多模态能力,可部署于手机等终端,拓展应用边界。团队通过大量实验积累经验,持续探索效率优化,并推动“大模型+Agent”双引擎发展。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Cursor AI代码编辑器:智能编程工具的功能与使用指南
AI教程
Cursor AI代码编辑器:智能编程工具的功能与使用指南

在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器

热心网友
05.23
美图WHEE-WHEE AI视觉创作工具使用指南与功能详解
AI教程
美图WHEE-WHEE AI视觉创作工具使用指南与功能详解

在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入

热心网友
05.23
NightCafe Creator AI艺术生成器:手机创作数字绘画
AI教程
NightCafe Creator AI艺术生成器:手机创作数字绘画

在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C

热心网友
05.23
加密市场恐慌蔓延 比特币以太坊为何领跌山寨币
web3.0
加密市场恐慌蔓延 比特币以太坊为何领跌山寨币

近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论

热心网友
05.23
蔡司6月2日发布新品镜头技术迎来重大突破
科技数码
蔡司6月2日发布新品镜头技术迎来重大突破

蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。

热心网友
05.23