
近日,美团LongCat团队正式推出了全新的开源大模型LongCat-Flash-Omni,这标志着团队在多模态人工智能领域迈出了关键一步。该模型的参数总量高达5600亿,激活参数为270亿,不仅全面实现了全模态技术能力的突破,更跻身当前开源体系中技术水平领先的代表性作品。
作为LongCat-Flash系列的最新成员,LongCat-Flash-Omni继续深化并拓展了该系列的技术发展路径。继今年9月发布LongCat-Flash-Chat与LongCat-Flash-Thinking两个版本后,此次新模型进一步拓宽了功能边界,成为业内首个集“全模态覆盖、端到端架构、大参数量下高效推理”三大特性于一体的开源大语言模型。这也是首次有开源模型在全模态能力上达到与主流闭源模型相当的水平。
该模型的核心创新在于,有效化解了大规模参数与实时高效推理之间的固有矛盾。它基于LongCat-Flash系列独有的ScMoE架构,引入零计算专家机制作为语言模型骨架,结合高效的多模态编解码技术,以及独创的“分块式音视频特征交织机制”,实现了高质量、低延迟的跨模态内容处理,同时支持流式语音生成与复杂音视频交互。
在实际性能方面,LongCat-Flash-Omni支持高达128K tokens的上下文长度,并能处理超过8分钟的连续音视频输入,在多模态长时记忆、多轮对话连贯性以及时序逻辑推理等场景中表现出显著优势。测试结果显示,其图像理解能力与先进闭源模型Gemini-2.5-Pro相当,优于开源同类Qwen3-Omni;在短视频理解任务中表现超越现有模型,长视频处理能力也接近Gemini-2.5-Pro水平。
为了便于用户实际体验,LongCat最新应用已同步上线,目前支持联网搜索和语音通话功能,视频通话功能将在后续逐步开放。该模型的发布不仅推动了开源社区在全模态AI方向的发展,也为行业应用提供了高性能、可扩展的新选择。
