游乐游手机版
首页/科技数码/文章详情

阿里重磅开源三款工具,斩获32项技术领先指标

时间:2025-09-23 18:05
智东西9月23日消息,深夜,阿里通义大模型团队连放三个大招:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。 Q

智东西9月23日消息-阿里通义大模型团队昨夜迎来重磅更新,三款创新产品同步亮相:开源原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS以及升级版图像编辑模型Qwen-Image-Edit-2509。

Qwen3-Omni具备出色的多模态处理能力,可同时解析文本、图像、音频及视频内容,并支持实时流式输出文本和自然语音。该模型在36项音视频基准测试中表现抢眼,32项位列开源榜首,22项刷新行业纪录,整体性能超越Gemini-2.5-Pro、Seed-ASR及GPT-4o-Transcribe等商业闭源模型,同时在图像和文本处理方面也达到同规模模型的顶尖水准。

Qwen3-TTS提供17种拟真音色与10种语言支持,在语音流畅度和音色还原度上超越SeedTTS、GPT-4o-Audio-Preview等主流产品。

Qwen-Image-Edit-2509最显著的功能迭代是多图像编辑能力,可实现"人物+人物"、"人物+物体"等元素的跨图融合。

阿里开源主页

01. 119种语言交互与人设定制

在国际版通义千问应用中,用户可通过输入框右下角按钮启用视频通话功能(Beta测试阶段)。实际测试显示网页端体验尚需优化,而移动App端的Qwen-Omni-Flash模型已能实现接近真人对话的低延迟响应。

该模型表现出优异的世界知识储备,在啤酒品牌识别、植物鉴别等测试中均给出准确答案。官方数据显示,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,音频对话延迟低至211ms,视频对话507ms,还支持30分钟长音频解析。不过在语音输出时,外语发音仍带明显普通话腔调,粤语交流时也存在普通话词汇混用现象。

演示场景中,模型展现了多语言应用能力:解析意大利餐厅菜单后用法语推荐意面;识别毕加索博物馆游戏内容并讲解建筑历史;分析日语视频中的环境与对话内容。其system prompt定制功能让用户可以自由设定回复风格,例如成功模拟广东幼师用童趣语言讲解模型特性。

02. 22项测试登顶 创新架构设计

Qwen3-Omni在单模态任务保持Qwen系列水准的同时,音频处理能力更为突出。36项测试中32项位居开源首位,22项总评第一,语音识别性能堪比Gemini-2.5-Pro。

该模型采用Thinker-Talker创新架构:Thinker负责文本生成,Talker专注语音Token流式生成。通过2000万小时音频训练的AuT编码器提供通用音频表征,配合MoE架构实现高并发推理。独特的混训模式确保跨模态能力提升不影响单模态性能,全流程流式设计支持首帧Token实时音频转化。

03. 语音合成新标杆

Qwen3-TTS-Flash在中英稳定性、多语言表现上超越SeedTTS与GPT-4o,支持17种音色与10种语言,涵盖九种方言,首包延迟仅97ms。其在MiniMax多语言测试集中,中文、英文等语种的错误率和说话人相似度均领先同业。

04. 图像编辑新突破

Qwen-Image-Edit-2509新增多图拼接功能,强化了单图编辑一致性:人物ID保持、商品海报修改、文字样式调整等。原生支持ControlNet的深度图、边缘图处理。

05. 多模态赛道加速

此次升级彰显阿里在多模态领域的持续突破,Qwen3-TTS-Flash与Qwen3-Omni的协同将提升语音交互体验。团队透露未来将聚焦视频OCR、音视频主动学习等技术方向,强化智能体工作流支持,推动更多场景落地应用。

来源:https://36kr.com/p/3478838269286790
上一篇英伟达千亿美元投资OpenAI内幕:奥特曼购芯片疑云与甲骨文获利真相 下一篇黄仁勋豪掷7100亿押注AI芯片市场
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
全新vivo TWS 5e真无线耳机今日正式发布 售价仅需229元
科技数码 · 2026-05-30

全新vivo TWS 5e真无线耳机今日正式发布 售价仅需229元

vivoTWS5e耳机发布价为229元,提供留白、墨黑、天青三种配色,单耳重4 3g,支持IP54防水。搭载11mm动圈单元、蓝牙5 4,具备55dB混合自适应降噪和双麦克风AI通话降噪,支持空间音频,延迟低至42ms,配合充电盒续航达55小时。

华擎Taichi十周年特别版X870E/Z890主板与视觉暂留水冷
科技数码 · 2026-05-30

华擎Taichi十周年特别版X870E/Z890主板与视觉暂留水冷

华擎2026COMPUTEX将展出Taichi十周年纪念主板X870E和Z890,以及水冷新品:AQUA360LCD支持混合改装,360HOLO具3D漂浮显示,另有Rock系列水冷、TC-3000P电源及1 2L迷你主机。

LG 27英寸4K 60Hz显示器首发价1472元
科技数码 · 2026-05-30

LG 27英寸4K 60Hz显示器首发价1472元

LG推出二十七英寸显示器27U711B,采用四K六十赫兹IPS液晶面板,亮度三百尼特,响应速度五毫秒,支持八位加帧率控制实现的十位色深与百分之九十DCI-P3色域。支架可俯仰调节,兼容VESA壁挂,提供DP和HDMI接口,首发价一千四百七十二元。

华硕ProArt创13 2026搭载锐龙AI Max+395重塑移动创作
科技数码 · 2026-05-30

华硕ProArt创13 2026搭载锐龙AI Max+395重塑移动创作

华硕ProArt创132026搭载锐龙AIMax+395,集成40核GPU与64GB统一内存,轻1 39kg、薄15 8mm。配备2 8KOLED触控屏及360°翻转,色准ΔE0 85,续航约11 7小时,支持本地AI大模型流畅推理。

神舟二十一号航天员乘组平安返抵北京
科技数码 · 2026-05-30

神舟二十一号航天员乘组平安返抵北京

北京时间2026年5月30日,神舟二十一号载人飞行任务取得圆满成功,航天员乘组搭乘专机平安抵达北京。空间站应用与发展阶段飞行任务总指挥部相关领导及成员前往机场迎接,欢迎英雄凯旋。3名航天员抵京后将进入隔离恢复阶段,接受全面的医学检查与健康评估,并开展系统休养。随后,他们将在北京与新闻媒体进行集体见面