阿里开源Qwen2.5-Omni 7B参数多模态模型_AI热点日报

阿里开源Qwen2.5-Omni 7B参数多模态模型

类型：热点整理2026-07-04

3月27日凌晨，阿里通义千问团队正式扔出了一枚重磅冲击波——Qwen2 5-Omni，一个全新的旗舰级多模态大模型。简单来说，这个模型专为全面感知多种信息而设计，能无缝处理文本、图片、音频、视频等各类输入，同时还支持边接收边生成文本和语音。那么，它到底能干些什么？最直观的感受是，以后你可以像打电

3月27日凌晨，阿里通义千问团队正式扔出了一枚重磅冲击波——Qwen2.5-Omni，一个全新的旗舰级多模态大模型。

简单来说，这个模型专为全面感知多种信息而设计，能无缝处理文本、图片、音频、视频等各类输入，同时还支持边接收边生成文本和语音。

那么，它到底能干些什么？最直观的感受是，以后你可以像打电话或视频聊天一样跟AI对话了。相当于同时实现了“语音聊天”和“视频聊天”功能——这在以往的模型中，并不多见。

比产品体验更值得关注的是，团队把支撑这一切的Qwen2.5-Omni-7B模型给开源了。采用的Apache 2.0许可证，意味着开发者、企业可以直接拿去免费商用，连部署到手机这类终端智能硬件上都行。背后的技术细节，也都写进了发布的技术报告里，敞开了分享。

这种级别的开放，引来不少网友感慨：这才是真正的“Open AI”。

具体表现如何，大家可以去官方Demo里亲自体验一番。

Qwen2.5-Omni 模型架构

这次Qwen2.5-Omni的几个特点很值得深挖一下。

全模态融合与创新架构：团队提出了Thinker-Talker架构，这是一种端到端的多模态模型，核心能力是感知包括文本、图像、音频、视频在内的多种模态数据，同时能以流式的形式生成文本和语音响应。一个亮点是配套的TMRoPE（Time-aligned Multimodal RoPE）位置嵌入方案，专门用于对齐视频输入与音频的时间戳。
实时语音与视频聊天：架构专为真正的实时交互优化，支持分块输入并即时输出，响应速度很快。
自然且稳定的语音生成：在语音生成这块，模型的表现也很有趣——它超越了不少现有的流式甚至非流式方案，质量上的稳健性和自然度都比较突出。
极强多模态性能：在与同体量的单模态模型对比时，Qwen2.5-Omni在各个模态上的表现都相当亮眼。它的音频能力超越了同样大小的Qwen2-Audio，同时图像和视频理解能力也达到了与Qwen2.5-VL-7B相当的水平。
端到端语音指令遵循：模型在端到端的语音指令遵循上，表现几乎可以媲美文本输入。在MMLU和GSM8K这类基准上，数据给出了有力的证明。

前文提到，架构的关键在于Thinker-Talker。顾名思义，Thinker相当于大脑，负责处理理解文本、音频、视频等输入，生成高级表征和文本；而Talker则像嘴巴，以流式方式接收Thinker的这些表征，并顺畅地输出离散的语音token。

具体实现上，Thinker是一个配备音频和图像编码器的Transformer解码器。Talker则被设计成一种双轨自回归Transformer解码器架构。训练和推理时，Talker直接接收来自Thinker的高维表征，并共享所有历史上下文。所以，整体是一个统一的端到端模型，避免了模块间的割裂。

Qwen2.5-Omni 模型架构

模型性能

团队对Qwen2.5-Omni进行了全面评估，结论是：在所有模态上的表现，都优于同体量的单模态模型，甚至不少闭源模型，比如Gemini-1.5-pro也没能讨到便宜。

特别在需要融合多种模态的综合性任务上，比如OmniBench，模型直接达到了最先进的水平。而在各项单模态任务中，它的表现同样覆盖了多个领域：语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然度评分等），成绩都相当可观。

来源：https://www.53ai.com/news/OpenSourceLLM/2025032867304.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。