美团开源LongCat实时音视频模型:支持交互,达到SOTA水平
11月3日最新消息,美团于今年9月1日正式发布LongCat-Flash系列模型以来,现已开源LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本,引发了开发者的广泛关注。今天,LongCat-Flash系列迎来了全新成员——LongCat-Flash-Omni。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据最新发布的资料显示,LongCat-Flash-Omni以该系列高效架构设计(Shortcut-Connected MoE,含零计算专家)为基础,同时创新性地集成了高效多模态感知模块与语音重建模块。即使总参数达到5600亿(激活参数270亿)的庞大规模,该模型依然以低延迟实现了实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。


综合评估结果表明,LongCat-Flash-Omni在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”三位一体的开源大语言模型,并首次在开源范围内实现了全模态能力对闭源模型的对标。该模型凭借创新的架构设计与工程优化,使大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。


文本能力:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,并在多领域均呈现领先性能。相较于LongCat-Flash系列早期版本,该模型不仅未出现文本能力衰减,反而在部分领域实现了性能提升。这一结果不仅印证了训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。
图像理解:LongCat-Flash-Omni的性能(RealWorldQA 74.8分)与闭源全模态模型Gemini-2.5-Pro相当,且优于开源模型Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。
音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写等维度进行评估,Instruct Model层面表现突出:ASR在LibriSpeech、AISHELL-1等数据集上优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;音频理解在TUT2017、Nonspeech7k等任务达到当前最优;音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o,实现了从基础能力到实用交互的高效转化。
视频理解:LongCat-Flash-Omni视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩Gemini-2.5-Pro与Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。
跨模态理解:性能优于Gemini-2.5-Flash(非思考模式),比肩Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上,相比其他开源全模态模型展现出显著性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。
端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案。该方案由定量用户评分(250名用户评分)与定性专家分析(10名专家,200个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni在开源模型中展现出显著优势——其评分比当前最优开源模型Qwen3-Omni高出0.56分;定性结果显示:LongCat-Flash-Omni在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。
模型已同步开源:
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github:
https://github.com/meituan-longcat/LongCat-Flash-Omni
相关攻略
3月26日,美团发布2025年第四季度及全年业绩报告,公司全年实现收入3649亿元,同比增长8%。受即时零售行业“内卷式”竞争影响,美团全年业绩由盈转亏,净亏损234亿元、经营亏损170亿元,其中核
3月31日,美团升级2026年“放心外卖”行动,在既有食安治理体系上进一步加码:线上以AI强化资质核验和后厨巡检,构建更透明的食安信息展示体系;线下引入骑手、消费者参与监督,探索更主动的社会共治机制
如今,芯片半导体、AI大模型、具身智能等硬科技赛道热度高涨,相关初创企业从不缺曝光和资金。如果多个细分赛道的头部玩家都选择了同一个投资方,那大概率不是钱的问题。宇树申请IPO的热度,把背后持股接近1
文 | 窄播,作者 | 李威美团AI战略开始暴露出更明确的进攻意图,要成为生活服务领域的「AI全案服务商」。去年3月的财报会上,美团CEO王兴就在强调,当AI这样革命性的事物到来时,唯一合理的策略,
封面新闻记者 孟梅 易弋力中国互联网的发展史,几乎就是一部持续不断的补贴大战史。从电商到打车,再到外卖,每一轮补贴大战,都是玩家们砸下重金,争夺新时代消费行为的主导权与分配权。而2025年的外卖大战
热门专题
热门推荐
V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与
红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“
金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1
索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页
未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能






