首页 游戏 软件 资讯 排行榜 专题
首页
AI
Molmo+2重磅发布:全球最强开源视频理解模型上线

Molmo+2重磅发布:全球最强开源视频理解模型上线

热心网友
36
转载
2026-01-23

如果说Molmo让AI学会了在图片里“指手画脚”,那么Molmo 2则更进一步,它教会了AI如何在视频中追踪事件、捕捉动作细节,甚至能够准确计数——真正实现了对动态场景的时空联合理解。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

无论是智能手机、自动驾驶,还是工业传感领域,视频正日益成为AI认知世界的一种新“语言”。如今,Molmo 2的诞生,让开源模型也能看懂视频里的每一帧画面,理解其中每一个细微的变化。

2025年12月11日,艾伦人工智能研究所正式发布了Molmo 2。这是一款为下一代视频理解、空间定位与跨帧追踪而专门设计的开源多模态大模型。它不仅能够在多项权威评测中超越如Gemini 3 Pro、GPT-5等闭源系统,更首次将这种视频级的“指哪打哪”能力带入了开源社区的视野。

为什么 Molmo 2 值得关注?

Molmo 2 是对2024年备受瞩目的Molmo图像理解模型的全面升级。如果说初代Molmo让AI学会了在静态图片中识别并指向物体,那么Molmo 2则让AI掌握了在动态视频里追踪事件、定位动作和进行精确计数的能力,从而真正实现了对时空信息的联合理解。

核心突破:

视频原生理解:支持单图、多图和任意长度视频输入。精准时空定位:不仅能回答“发生了什么”,还能明确指出“在哪一帧、哪个位置”。高效小模型:8B参数版本性能碾压上一代72B模型,训练数据仅为竞品的1/8。完全开源:采用Apache 2.0许可,提供三种架构选择,包含全栈开源的Olmo版本。

三大模型变体,满足不同场景需求

体积虽小,能力却大:Molmo 2(8B)在图像指代、视频追踪等任务上全面超越了上一代72B参数的Molmo,这充分证明了“精炼数据+精准目标”的策略远比盲目堆叠参数更为有效。

性能碾压:开源第一,闭源也难挡

Molmo 2在多个维度刷新了开源模型的纪录:

视频追踪:大幅超越Gemini 3 Pro及所有开源多模态视觉模型。短视频问答:在NextQA、PerceptionTest、MVBench等7项基准平均得分位列开源第一。人类偏好评估:其8B版本领先于Qwen3-VL-8B,甚至在某些方面超越了GPT-5和Claude Sonnet 4.5。视频计数与定位:它是唯一能通过“返回坐标+时间戳”来精确回答“多少次”这类问题的开源模型。

举例:

问:“机器人几次抓起红色积木?” → 模型返回每次抓取对应的帧号与积木坐标。问:“杯子什么时候掉的?” → 返回精确时间戳与掉落位置框。问:“穿条纹衬衫的人何时秀肌肉?” → 自动追踪人物ID,并标记所有相关事件的时空点。

技术亮点:为“接地”而生

Molmo 2的核心设计理念是Grounding(接地)——即让语言信号与视觉信息在空间和时间上实现精准对齐。

统一架构:视觉编码器 + 轻量连接器 + 强大语言模型。跨帧注意力:不同帧的视觉片段可以相互关注,显著提升追踪稳定性。SlowFast推理策略:关键帧采用高分辨率处理,非关键帧采用低分辨率分析,兼顾精度与效率。16,384超长上下文:能轻松处理长视频或多图输入。

900万+视频样本,打造高质量开源数据集

为训练Molmo 2,艾伦人工智能研究所构建了史上规模最大的视频接地数据集,包含9个全新子集:

Molmo2-Cap:涵盖10.4万视频与43.1万片段,每段均配有数百字的密集描述。Molmo2-VideoPoint:包含30万+查询,专门用于训练模型的“指物+计数”能力。Molmo2-VideoTrack:支持自然语言查询的物体追踪。Molmo2-MultiImageQA:涉及跨2-5张相关图像的复杂问答。

所有数据集都将开源发布,助力社区构建更强大的视频理解系统。

立即体验

论文:项目:仓库:
来源:https://www.51cto.com/article/834855.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

打工人速领!鹅厂“小龙虾”已到货,OpenClaw免部署
AI
打工人速领!鹅厂“小龙虾”已到货,OpenClaw免部署

从求“代养虾”到一键开箱:腾讯 WorkBuddy AI 智能助理正式上线 效率升级的浪潮来得如此之快。就在前几天,全网还在热议如何获取并安装那只爆火的“AI 小龙虾”——OpenClaw,而今天,腾讯官方就正式推出了即开即用的企业级 AI 助手解决方案:WorkBuddy。可以说,它为所有职场人提

热心网友
04.01
OpenClaw隔夜失忆解决方案
AI
OpenClaw隔夜失忆解决方案

OpenClaw “隔夜失忆” 症候群:你的 AI 助手为什么第二天不认识你了? 作者:一个被 OpenClaw 折磨了三个月的老用户日期:2026-03-08 故事从一个崩溃的早晨开始 前一天晚上,你和 OpenClaw 的配合堪称完美。 你让它帮忙写个“EvoCap”项目,它不仅立刻响应,还花了

热心网友
04.01
OpenClaw 龙虾教程
AI
OpenClaw 龙虾教程

OpenClaw:全网爆火的“养龙虾”,究竟是何方神圣? 最近,一个叫做“养龙虾”的话题在技术圈里火了起来。别误会,这说的可不是水产养殖,而是一款名为 OpenClaw 的开源AI智能体工具的民间昵称。它是一款主打本地部署的AI自动化工具,今天咱们就来彻底盘一盘它。 一、先搞懂:OpenClaw 到

热心网友
03.31
蚂蚁灵波开源2.71TB空间感知数据集
业界动态
蚂蚁灵波开源2.71TB空间感知数据集

3月31日消息,据媒体报道,蚂蚁灵波科技开源大规模RGB-D深度数据集LingBot-Depth-Dataset。此前,社区中一直缺少大规模真实场景拍摄的深度数据集。现有公开数据集普遍存在规模有限、

热心网友
03.31
百度飞桨PaddleOCR登GitHub榜首:最受欢迎中文开源OCR工具
业界动态
百度飞桨PaddleOCR登GitHub榜首:最受欢迎中文开源OCR工具

3月31日消息,近日,百度文心衍生模型PaddleOCR在GitHub上的Star数突破73 3K,首次超越谷歌旗下开源OCR标杆产品Tesseract OCR(73 2K),成为全球Star数最高

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02