阿里集团旗下Qwen研究团队最新动向引发热议,接连推出Qwen3-Omni和Qwen-Image-Edit-2509两款创新AI模型,在业内掀起波澜。团队表示未来还将有重磅新品发布,进一步吊足了业界胃口。
Qwen3-Omni:突破性多模态AI模型
Qwen3-Omni的问世,代表着多模态AI技术取得重大进展。与需要在不同处理能力间做取舍的传统系统不同,这款全能型AI实现了文本、图像、音频与视频处理的完美融合,彻底打破了多模态技术间的壁垒。
性能表现上,Qwen3-Omni创造了多项记录:在36项音视频基准测试中有22项排名第一;支持119种文本语言处理、19种语音输入和10种语音输出语言,展现出惊人的全球化适应能力。
尖端技术与应用创新
Qwen3-Omni兼具卓越性能与实用特性:
- 超低延迟仅211毫秒
- 可精准处理长达30分钟的音频内容
- 支持自定义系统提示词
- 提供完善的API工具调用功能
为推动技术发展,团队开源了多个版本:
Qwen3-Omni-30B-A3B-Instruct(指令执行)
Qwen3-Omni-30B-A3B-Thinking(推理)
Qwen3-Omni-30B-A3B-Captioner(字幕生成)
Qwen-Image-Edit-2509:图像编辑新标杆
这款升级版模型实现了质的飞跃:
- 大幅提升编辑一致性
- 支持"人物+场景"等复杂图像的无缝融合
- 全新ControlNet功能实现精准控制
在具体功能上表现卓越:
- 人脸保真:变换风格时保留面部特征
- 产品保真:广告设计中保持品牌特征
- 文字编辑:支持字体、颜色、材质全面修改
