首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里重磅开源三款工具,斩获32项技术领先指标

阿里重磅开源三款工具,斩获32项技术领先指标

热心网友
62
转载
2025-09-23

智东西9月23日消息-阿里通义大模型团队昨夜迎来重磅更新,三款创新产品同步亮相:开源原生全模态大模型Qwen3-Omni、语音合成模型Qwen3-TTS以及升级版图像编辑模型Qwen-Image-Edit-2509。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Qwen3-Omni具备出色的多模态处理能力,可同时解析文本、图像、音频及视频内容,并支持实时流式输出文本和自然语音。该模型在36项音视频基准测试中表现抢眼,32项位列开源榜首,22项刷新行业纪录,整体性能超越Gemini-2.5-Pro、Seed-ASR及GPT-4o-Transcribe等商业闭源模型,同时在图像和文本处理方面也达到同规模模型的顶尖水准。

Qwen3-TTS提供17种拟真音色与10种语言支持,在语音流畅度和音色还原度上超越SeedTTS、GPT-4o-Audio-Preview等主流产品。

Qwen-Image-Edit-2509最显著的功能迭代是多图像编辑能力,可实现"人物+人物"、"人物+物体"等元素的跨图融合。

阿里开源主页

01. 119种语言交互与人设定制

在国际版通义千问应用中,用户可通过输入框右下角按钮启用视频通话功能(Beta测试阶段)。实际测试显示网页端体验尚需优化,而移动App端的Qwen-Omni-Flash模型已能实现接近真人对话的低延迟响应。

该模型表现出优异的世界知识储备,在啤酒品牌识别、植物鉴别等测试中均给出准确答案。官方数据显示,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,音频对话延迟低至211ms,视频对话507ms,还支持30分钟长音频解析。不过在语音输出时,外语发音仍带明显普通话腔调,粤语交流时也存在普通话词汇混用现象。

演示场景中,模型展现了多语言应用能力:解析意大利餐厅菜单后用法语推荐意面;识别毕加索博物馆游戏内容并讲解建筑历史;分析日语视频中的环境与对话内容。其system prompt定制功能让用户可以自由设定回复风格,例如成功模拟广东幼师用童趣语言讲解模型特性。

02. 22项测试登顶 创新架构设计

Qwen3-Omni在单模态任务保持Qwen系列水准的同时,音频处理能力更为突出。36项测试中32项位居开源首位,22项总评第一,语音识别性能堪比Gemini-2.5-Pro。

该模型采用Thinker-Talker创新架构:Thinker负责文本生成,Talker专注语音Token流式生成。通过2000万小时音频训练的AuT编码器提供通用音频表征,配合MoE架构实现高并发推理。独特的混训模式确保跨模态能力提升不影响单模态性能,全流程流式设计支持首帧Token实时音频转化。

03. 语音合成新标杆

Qwen3-TTS-Flash在中英稳定性、多语言表现上超越SeedTTS与GPT-4o,支持17种音色与10种语言,涵盖九种方言,首包延迟仅97ms。其在MiniMax多语言测试集中,中文、英文等语种的错误率和说话人相似度均领先同业。

04. 图像编辑新突破

Qwen-Image-Edit-2509新增多图拼接功能,强化了单图编辑一致性:人物ID保持、商品海报修改、文字样式调整等。原生支持ControlNet的深度图、边缘图处理。

05. 多模态赛道加速

此次升级彰显阿里在多模态领域的持续突破,Qwen3-TTS-Flash与Qwen3-Omni的协同将提升语音交互体验。团队透露未来将聚焦视频OCR、音视频主动学习等技术方向,强化智能体工作流支持,推动更多场景落地应用。

来源:https://36kr.com/p/3478838269286790
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08
什么是CTSI代币?代币经济学怎么样?
web3.0
什么是CTSI代币?代币经济学怎么样?

CTSI代币深度解析:Cartesi网络的灵魂与价值引擎 在飞速演进的Web3世界中,区块链的可扩展性始终是制约其大规模应用的核心瓶颈。Cartesi网络以其独特的“链下计算”方案脱颖而出,而驱动这一精密生态运转的核心燃料,正是CTSI代币。它不仅仅是一种支付媒介,更是集成了支付结算、网络安全、去中

热心网友
04.08
SUI区块链的技术基础包括什么?共识机制的工作原理是什么?
web3.0
SUI区块链的技术基础包括什么?共识机制的工作原理是什么?

SUI区块链技术深度解析:如何重塑高性能公链格局 当谈到下一代高性能区块链时,SUI区块链凭借其革命性的技术架构,已成为行业无法绕开的焦点。其核心竞争力并非源于单一优化,而是由Move编程语言、以对象为核心的数据模型以及并行执行引擎三者深度协同构成的完整技术体系。更引人注目的是其共识层的创新——Na

热心网友
04.08