阿里云今日重磅开源三项人工智能核心技术成果,涵盖全球首个原生端到端全模态AI模型Qwen3-Omni、跨语言语音合成系统Qwen3-TTS,以及智能图像编辑工具Qwen-Image-Edit-2509。这些创新技术在多模态交互、语音生成和视觉创作领域带来革命性突破。
作为行业首款原生全模态处理系统,Qwen3-Omni创新性地实现了文本、视觉和听觉信息的无缝协同处理。该模型采用混合预训练范式,不仅维持了单模态任务的卓越表现,更在跨模态理解上取得长足进步。在36项音视频基准测试中,共计22项达到国际最优水平,32项在开源领域保持领先。尤其在语音转写与交互场景下,其表现可对标Gemini 2.5 Pro商业产品。该模型支持119种文本语言、19种语音输入与10种语音输出能力,覆盖全球主要语种及粤语、闽南话等8种中国方言。
技术创新层面,Qwen3-Omni采用前沿的"思考者-表达者"MoE架构,结合AuT预训练技术强化通用表征学习能力。多码本优化设计使得系统延迟降至行业新低,完美支持实时流式交互。用户通过自定义系统提示词即可灵活调整模型行为。同期开源的Qwen3-Omni-30B-A3B-Captioner音频描述模型,在细节还原与语义准确性方面创造了行业新标准。
语音合成技术Qwen3-TTS提供17种专业音色选择,每种音色均适配10种语言,涵盖中英法等主流语言及四川话等8种方言。最新推出的Qwen3-TTS-Flash版本在语音流畅度与音色保真度上超越SeedTTS等行业主流方案。性能指标显示,其双卡并发处理效率较前代提升50%,首包响应时间压缩至97毫秒,实时因子(RTF)优化至0.30的顶尖水平。
图像处理工具Qwen-Image-Edit-2509迎来重大升级,突破性实现多图拼接编辑功能。新版支持"人物+场景"、"商品+背景"等复合创作模式,在1-3张素材输入时的效果最理想。单项编辑能力显著增强:人像编辑的特征保留精度提升40%,新增风格迁移与姿态调整功能;商品编辑可精确保持产品特征,满足电商设计需求;文字编辑新增字体样式、色彩及特效修改。系统深度融合ControlNet技术,支持深度图、边缘检测等专业控制方式。
配套发布的Qwen3-Next-80B系列模型包含指令微调和思维链两种版本,采用FP8量化技术实现性能与效率的最佳平衡。全部模型代码与预训练权重已在GitHub、HuggingFace及魔塔社区开放获取,并同步上线在线演示空间,助力开发者快速体验模型能力。
