阿里云开源Qwen3-Omni等AI工具，多模态与语音合成能力全面升级

时间：2025-12-12 22:33

阿里云今日宣布开源三项重要AI技术成果，包括全球首个原生端到端全模态AI模型Qwen3-Omni、多语言文本转语音系统Qwen3-TTS，以及图像编辑工具Qwen-Image-Edit-2509。这

阿里云今日重磅开源三项人工智能核心技术成果，涵盖全球首个原生端到端全模态AI模型Qwen3-Omni、跨语言语音合成系统Qwen3-TTS，以及智能图像编辑工具Qwen-Image-Edit-2509。这些创新技术在多模态交互、语音生成和视觉创作领域带来革命性突破。

作为行业首款原生全模态处理系统，Qwen3-Omni创新性地实现了文本、视觉和听觉信息的无缝协同处理。该模型采用混合预训练范式，不仅维持了单模态任务的卓越表现，更在跨模态理解上取得长足进步。在36项音视频基准测试中，共计22项达到国际最优水平，32项在开源领域保持领先。尤其在语音转写与交互场景下，其表现可对标Gemini 2.5 Pro商业产品。该模型支持119种文本语言、19种语音输入与10种语音输出能力，覆盖全球主要语种及粤语、闽南话等8种中国方言。

技术创新层面，Qwen3-Omni采用前沿的"思考者-表达者"MoE架构，结合AuT预训练技术强化通用表征学习能力。多码本优化设计使得系统延迟降至行业新低，完美支持实时流式交互。用户通过自定义系统提示词即可灵活调整模型行为。同期开源的Qwen3-Omni-30B-A3B-Captioner音频描述模型，在细节还原与语义准确性方面创造了行业新标准。

语音合成技术Qwen3-TTS提供17种专业音色选择，每种音色均适配10种语言，涵盖中英法等主流语言及四川话等8种方言。最新推出的Qwen3-TTS-Flash版本在语音流畅度与音色保真度上超越SeedTTS等行业主流方案。性能指标显示，其双卡并发处理效率较前代提升50%，首包响应时间压缩至97毫秒，实时因子(RTF)优化至0.30的顶尖水平。

图像处理工具Qwen-Image-Edit-2509迎来重大升级，突破性实现多图拼接编辑功能。新版支持"人物+场景"、"商品+背景"等复合创作模式，在1-3张素材输入时的效果最理想。单项编辑能力显著增强：人像编辑的特征保留精度提升40%，新增风格迁移与姿态调整功能；商品编辑可精确保持产品特征，满足电商设计需求；文字编辑新增字体样式、色彩及特效修改。系统深度融合ControlNet技术，支持深度图、边缘检测等专业控制方式。

配套发布的Qwen3-Next-80B系列模型包含指令微调和思维链两种版本，采用FP8量化技术实现性能与效率的最佳平衡。全部模型代码与预训练权重已在GitHub、HuggingFace及魔塔社区开放获取，并同步上线在线演示空间，助力开发者快速体验模型能力。

来源：https://www.itbear.com.cn/html/2025-09/965539.html

上一篇小米17系列即将发布：雷军预告玄戒芯片与小米汽车最新进展 下一篇苹果图乐园计划接入多个AI模型，助力智能化升级

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。