首页 游戏 软件 资讯 排行榜 专题
首页
AI
美团开源LongCat实时音视频模型:支持交互,达到SOTA水平

美团开源LongCat实时音视频模型:支持交互,达到SOTA水平

热心网友
64
转载
2025-11-04

11月3日最新消息,美团于今年9月1日正式发布LongCat-Flash系列模型以来,现已开源LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本,引发了开发者的广泛关注。今天,LongCat-Flash系列迎来了全新成员——LongCat-Flash-Omni。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据最新发布的资料显示,LongCat-Flash-Omni以该系列高效架构设计(Shortcut-Connected MoE,含零计算专家)为基础,同时创新性地集成了高效多模态感知模块与语音重建模块。即使总参数达到5600亿(激活参数270亿)的庞大规模,该模型依然以低延迟实现了实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

综合评估结果表明,LongCat-Flash-Omni在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”三位一体的开源大语言模型,并首次在开源范围内实现了全模态能力对闭源模型的对标。该模型凭借创新的架构设计与工程优化,使大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

文本能力:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,并在多领域均呈现领先性能。相较于LongCat-Flash系列早期版本,该模型不仅未出现文本能力衰减,反而在部分领域实现了性能提升。这一结果不仅印证了训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

图像理解:LongCat-Flash-Omni的性能(RealWorldQA 74.8分)与闭源全模态模型Gemini-2.5-Pro相当,且优于开源模型Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写等维度进行评估,Instruct Model层面表现突出:ASR在LibriSpeech、AISHELL-1等数据集上优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;音频理解在TUT2017、Nonspeech7k等任务达到当前最优;音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o,实现了从基础能力到实用交互的高效转化。

视频理解:LongCat-Flash-Omni视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩Gemini-2.5-Pro与Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

跨模态理解:性能优于Gemini-2.5-Flash(非思考模式),比肩Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上,相比其他开源全模态模型展现出显著性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案。该方案由定量用户评分(250名用户评分)与定性专家分析(10名专家,200个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni在开源模型中展现出显著优势——其评分比当前最优开源模型Qwen3-Omni高出0.56分;定性结果显示:LongCat-Flash-Omni在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

模型已同步开源:

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github:

https://github.com/meituan-longcat/LongCat-Flash-Omni

来源:https://www.ithome.com/0/894/423.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团首曝食安巡检体系:年检130万次,整改2.4万家商户
娱乐
美团首曝食安巡检体系:年检130万次,整改2.4万家商户

美团首曝食安巡检体系:年检130万次,整改2 4万家商户 最近,美团将其食品安全线下巡检体系的运作情况,连同核心数据一并公之于众。数据显示,在2025年4月至2026年4月这一年里,平台的实地巡检次数超过了130万次。这一系列行动直接推动了超过2 4万家餐饮商户进行整改,范围涵盖了门头形象和后厨环境

热心网友
04.30
美团加速布局“快乐猴”,平价超市为何扎堆开店?
科技数码
美团加速布局“快乐猴”,平价超市为何扎堆开店?

自去年推出高性价比线下超市后,美团等平台今年加快了开店节奏。4月以来美团快乐猴、盒马超合算NB在多地开出新店。 眼下,“平价”与“折扣”这两个词,几乎成了零售业的通关密码。对于手握流量和技术的互联网平台来说,布局线下高性价比超市,无疑是一条触达新用户、挖掘新增长的现实路径。 迎来开店潮 4月28日,

热心网友
04.28
不满35元收3元运费!美团小象:4月20日起大部分站点已暂停自提
业界动态
不满35元收3元运费!美团小象:4月20日起大部分站点已暂停自提

不满35元收3元运费!美团小象:4月20日起大部分站点已暂停自提 最近,美团旗下的小象超市在配送服务上做了一个不小的调整。从4月20日开始,全国大部分站点已经暂停了自提服务。这意味着,用户下单时,只剩下“送货上门”这一个选项了。 这个变化,让不少习惯了自提的消费者感到有点不适应。过去,买点小东西,比

热心网友
04.26
美团推59.9元腰靠式餐箱,专为骑手减负设计
娱乐
美团推59.9元腰靠式餐箱,专为骑手减负设计

美团推出腰靠式餐箱:一个为骑手减负的59 9元解决方案 2026年4月16日,美团正式面向广大配送骑手推出了一款专为职业需求设计的腰靠式外卖餐箱,市场定价为59 9元。值得关注的是,这款产品的研发过程深度融合了骑手的实际体验。在正式发布前,它已历经超过两百名一线骑手的深度实测与反馈。基于这些来自真实

热心网友
04.24
骑手欠百万债拼命接单2年还40万元 平台方:属实 已被强制下线240次
业界动态
骑手欠百万债拼命接单2年还40万元 平台方:属实 已被强制下线240次

外卖骑手2年还债40万元被质疑摆拍?平台数据揭开真相 最近,一则关于“外卖骑手2年还债40万元”的新闻,在社交平台上吵翻了天。质疑声主要集中在:如此高强度的工作和收入,是不是摆拍?是不是在博眼球? 事情的原委是这样的。当事人今年37岁,湖北仙桃人。他并非一开始就是骑手,曾经也当过老板,经营火锅店,年

热心网友
04.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

小米SU7车主引奥迪互动,新老品牌山脊赛道共赴热爱
娱乐
小米SU7车主引奥迪互动,新老品牌山脊赛道共赴热爱

2026年4月2日,一场始于订单的“双向奔赴” 汽车圈最近上演了一出颇有温度的品牌互动,起因是一张来自社交平台的购车订单。一位原奥迪车主公开晒出了小米SU7的订单截图,并向相关负责人致以问候。这原本只是一条个人动态,却没承想,引发了一连串超出预期的友好回应。 消息传出后,上汽奥迪的反应堪称迅速且巧妙

热心网友
04.30
特斯拉2026年Q1电动车产销双增,加速布局Robotaxi与人形机器人量产
娱乐
特斯拉2026年Q1电动车产销双增,加速布局Robotaxi与人形机器人量产

特斯拉2026年Q1财报解读:业绩稳健增长,自动驾驶与机器人战略加速落地 2026年第一季度,特斯拉再次向市场展示了其强劲的发展动能。在全球电动汽车市场,特斯拉产量成功突破40 8万辆,实现同比12 7%的稳健增长;同期交付量达到35 8万辆,同比增长6 5%。与此同时,特斯拉储能业务表现突出,总装

热心网友
04.30
我的世界愚人节更新移除仓库系统,地面直取物品引热议
娱乐
我的世界愚人节更新移除仓库系统,地面直取物品引热议

四月一日,沙盒游戏我的世界推出一次特别更新,引发广泛关注 话说回来,四月的第一天,经典沙盒游戏《我的世界》,就整了个“大活儿”。一项听起来颇有碘伏性的设计调整,在社区内炸开了锅:游戏直接移除了沿用已久的仓库系统,改为所有物品都能随手放在地面,想用的时候捡起来就行。 仓库功能向来是此类建造型游戏的核心

热心网友
04.30
某巨鲸从Kraken提取4,472枚ETH,当前持仓市值约2,000万美元
web3.0
某巨鲸从Kraken提取4,472枚ETH,当前持仓市值约2,000万美元

巨鲸再出手:千万美元级ETH悄然离场 市场总是静水深流。就在今天,链上数据捕捉到一笔值得玩味的动向。根据链上分析师Onchain Lens的监测,大约三小时前,一个地址尾号为“24d4”的巨鲸,从知名交易所Kraken一口气提取了4,472枚ETH。按当前市价估算,这笔资产价值接近一千万美元。 这可

热心网友
04.30
京东京造推黄金气囊磁吸支架:含1克99.99%黄金,售价1199元
娱乐
京东京造推黄金气囊磁吸支架:含1克99.99%黄金,售价1199元

京东京造再推黄金配件新品:磁吸支架以亲民价格亮相 关注京东京造的朋友一定还记得此前推出的黄金手机壳,因其独特设计与高纯度金材质引发了不少讨论。如今品牌再度升级,带来了一款更贴近日常使用的“轻量化”黄金配件——黄金气囊手机磁吸支架,进一步降低了黄金数码配件的入手门槛。 产品解析:含金量与设计亮点 这款

热心网友
04.30