蚂蚁开源全模态大模型Ming-Flash Omni 2.0:性能对标Gemini 2.5 Pro
Ming-Flash-Omni 2.0是行业内首个实现全场景音、视、音频统一生成的大模型,它允许在同一条音轨中同步生成对话语音、环境音效与背景音乐。用户仅需使用自然语言发出指令,便能对音色、语速、语调、音量、情感甚至方言进行细致的调控,操作直观便捷。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
2月11日,蚂蚁集团正式开源发布了全模态大模型Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型于视觉语言理解、语音可控生成、图像生成与编辑等关键能力上表现突出,部分指标已超越Gemini 2.5 Pro,成为开源全模态大模型性能的新标杆。
作为业界首创的全场景音频统一生成模型,Ming-Flash-Omni 2.0能在单条音轨内同时合成语音、环境声与音乐。用户用自然语言下达简单指令,即可精细调节包括音色、语速、语调、音量、情绪及方言在内的各项参数。模型在推理阶段实现了3.1Hz的极低推理帧率,达成了分钟级长音频的实时高保真生成,同时在推理效率与成本控制上保持了业界领先优势。

(图示:Ming-Flash-Omni 2.0在视觉语言理解、语音可控生成、图像生成与编辑等核心领域的实测表现均已达到开源领先水准)
业内普遍认为,多模态大模型的最终演进方向将是更统一的架构,以实现不同模态与任务间更深层次的协同。然而现实情况是,“全模态”模型往往难以兼顾通用性与专精:在特定单项能力上,开源模型通常不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在此背景下持续演进:早期版本致力于构建统一的多模态能力底座;中期版本验证了规模增长带来的能力提升;而最新的2.0版本则通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。
此次将Ming-Flash-Omni 2.0开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供了统一的能力入口。
Ming-Flash-Omni 2.0基于Ling-2.0架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标进行全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升了对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持通过自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍能保持画面连贯与细节真实。
百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。
目前,Ming-Flash-Omni 2.0的模型权重、推理代码已在Hugging Face等开源社区发布。用户亦可通过蚂蚁百灵最新平台LingStudio在线体验与调用。
热门专题
热门推荐
海信E7S Pro RGB-Mini LED电视发布:4K 180Hz玲珑真彩背光屏,政企双补价6999元起 3月10日,海信正式推出了E7S Pro RGB-Mini LED电视。这款新品最引人注目的亮点,无疑是它那极具竞争力的“政企双补价”——起售价定在了6999元。 核心画质:玲珑真彩背光屏与
用docker来安装openclaw 前言 最近OpenClaw的热度确实居高不下,但它本质上仍是一个处于高速成长期的系统,远未到“成熟稳定”的阶段。这不奇怪,看看开源代码库,一天一个Release算是常态,频繁且快速的迭代正是它活力的体现。 随之而来的,自然是各种意料之外的Bug、与第三方插件的兼
加密货币世界正在产生比以往任何时候都都多的数据。面对数百条区块链、数千种代币以及源源不断涌现的新型去中心化应用,驾驭这一复杂格局对于投资者、开发者和分析师而言都极具挑战性。可靠、实时的区块链数据对于做出明智的决策和驱动下一代加密产品至关重要。 这正是 Chainbase (C) 试图解决的难题。这个
15岁学生花8684元网购苹果iPhone 16,激活日期竟显示1978年 最近一起网购纠纷,听起来有点魔幻。一位15岁的初二学生,攒钱买了台新款iPhone,激活后一看购买日期,居然是1978年。这到底是怎么回事?背后又藏着一个怎样的消费陷阱? 事情发生在江苏苏州。初二学生小金(化名)向媒体反映了
听劝:微软将停止向 Teams 用户自动发送“会议录制过期提醒”邮件 3月11日,微软公布了一项“听劝”的政策调整:将取消默认通过邮件自动发送 Teams 会议录制过期提醒。这意味着,自6月1日起,当会议录制内容即将被永久删除时,多数用户的收件箱将能保持清净,不会再收到系统发来的提醒邮件。 这一调整





