游乐游手机版
首页/科技数码/文章详情

阿里重磅开源三款工具,斩获32项技术领先指标

时间:2025-09-23 18:05
智东西9月23日消息,深夜,阿里通义大模型团队连放三个大招:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。 Q

智东西9月23日消息-阿里通义大模型团队昨夜迎来重磅更新,三款创新产品同步亮相:开源原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS以及升级版图像编辑模型Qwen-Image-Edit-2509。

Qwen3-Omni具备出色的多模态处理能力,可同时解析文本、图像、音频及视频内容,并支持实时流式输出文本和自然语音。该模型在36项音视频基准测试中表现抢眼,32项位列开源榜首,22项刷新行业纪录,整体性能超越Gemini-2.5-Pro、Seed-ASR及GPT-4o-Transcribe等商业闭源模型,同时在图像和文本处理方面也达到同规模模型的顶尖水准。

Qwen3-TTS提供17种拟真音色与10种语言支持,在语音流畅度和音色还原度上超越SeedTTS、GPT-4o-Audio-Preview等主流产品。

Qwen-Image-Edit-2509最显著的功能迭代是多图像编辑能力,可实现"人物+人物"、"人物+物体"等元素的跨图融合。

阿里开源主页

01. 119种语言交互与人设定制

在国际版通义千问应用中,用户可通过输入框右下角按钮启用视频通话功能(Beta测试阶段)。实际测试显示网页端体验尚需优化,而移动App端的Qwen-Omni-Flash模型已能实现接近真人对话的低延迟响应。

该模型表现出优异的世界知识储备,在啤酒品牌识别、植物鉴别等测试中均给出准确答案。官方数据显示,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,音频对话延迟低至211ms,视频对话507ms,还支持30分钟长音频解析。不过在语音输出时,外语发音仍带明显普通话腔调,粤语交流时也存在普通话词汇混用现象。

演示场景中,模型展现了多语言应用能力:解析意大利餐厅菜单后用法语推荐意面;识别毕加索博物馆游戏内容并讲解建筑历史;分析日语视频中的环境与对话内容。其system prompt定制功能让用户可以自由设定回复风格,例如成功模拟广东幼师用童趣语言讲解模型特性。

02. 22项测试登顶 创新架构设计

Qwen3-Omni在单模态任务保持Qwen系列水准的同时,音频处理能力更为突出。36项测试中32项位居开源首位,22项总评第一,语音识别性能堪比Gemini-2.5-Pro。

该模型采用Thinker-Talker创新架构:Thinker负责文本生成,Talker专注语音Token流式生成。通过2000万小时音频训练的AuT编码器提供通用音频表征,配合MoE架构实现高并发推理。独特的混训模式确保跨模态能力提升不影响单模态性能,全流程流式设计支持首帧Token实时音频转化。

03. 语音合成新标杆

Qwen3-TTS-Flash在中英稳定性、多语言表现上超越SeedTTS与GPT-4o,支持17种音色与10种语言,涵盖九种方言,首包延迟仅97ms。其在MiniMax多语言测试集中,中文、英文等语种的错误率和说话人相似度均领先同业。

04. 图像编辑新突破

Qwen-Image-Edit-2509新增多图拼接功能,强化了单图编辑一致性:人物ID保持、商品海报修改、文字样式调整等。原生支持ControlNet的深度图、边缘图处理。

05. 多模态赛道加速

此次升级彰显阿里在多模态领域的持续突破,Qwen3-TTS-Flash与Qwen3-Omni的协同将提升语音交互体验。团队透露未来将聚焦视频OCR、音视频主动学习等技术方向,强化智能体工作流支持,推动更多场景落地应用。

来源:https://36kr.com/p/3478838269286790
上一篇英伟达千亿美元投资OpenAI内幕:奥特曼购芯片疑云与甲骨文获利真相 下一篇黄仁勋豪掷7100亿押注AI芯片市场
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个