首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里Qwen3.5-Omni新突破:音视频交互登顶,全模态能力全球领先

阿里Qwen3.5-Omni新突破:音视频交互登顶,全模态能力全球领先

热心网友
52
转载
2026-04-01

全球全模态大模型竞赛迎来新变数。

3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3.5-Omni。

这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(State of the Art),直接对标并超越了谷歌Gemini-3.1 Pro的诸多核心指标。

Qwen3.5-Omni跑分图

与市面上多数“拼接式”多模态方案不同,Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、视觉数据及超过1亿小时的音视频素材上完成了端到端的原生预训练。

这意味着,Qwen3.5-Omni并非简单地将语音转文字再处理,而是真正具备对视频画面、人物情绪、对话逻辑的深层次理解能力。

据最新披露,Qwen3.5-Omni支持113种语言及方言的语音识别(包括毛利语、海南方言等小语种),以及36种语言的语音合成。在考察抗噪能力的WenetSpeech测试中,其错误率远低于Gemini;而在Multi-Lingual 30语言语音生成评测中,表现同样压过Gemini-2.5-Pro-TTS一头。

Qwen3.5-Omni跑分图

更值得关注的是其实时交互的“情商”——Qwen3.5-Omni能精准区分用户的有效指令与随口附和,自主判断是否需要调用工具获取实时信息(如天气查询),对话流畅度已接近真人水平。

如果说年初爆火的Vibe Coding还停留在文字/图片生成代码阶段,Qwen3.5-Omni则直接将这一概念推进到了音视频维度。

用户只需打开摄像头,对着草图或实物口述需求,哪怕是包含复杂产品逻辑的描述,模型也能直接输出带UI界面的产品原型代码。有意思的是,这一能力并非人工刻意调教的结果,而是模型在扩展原生多模态能力过程中自然涌现的副产品。

这种所见即所得的编程方式,对于产品经理、设计师乃至普通用户而言,意味着从想法到原型的路径被压缩到了分钟级。

除此之外,Qwen3.5-Omni在专业内容生产领域同样展现出降本增效的潜力。

模型可对视频画面主体、人物关系、情绪起伏进行像素级拆解,自动完成章节切片与时间戳标注,支持超过10小时的长音频输入。以往需要数小时的人工后期梳理工作,如今可被缩短至秒级。短视频平台、直播平台、内容审核机构、游戏厂商等内容密集型行业,或将成为首批受益者。

难能可贵的是,阿里在商业化路径上延续了千问系列的高性价比策略。

目前,Qwen3.5-Omni已通过阿里云百炼平台开放Plus、Flash、Light三档API接口,普通用户也可在Qwen Chat免费体验。定价方面,每百万Tokens输入价格不到0.8元人民币,不足Gemini-3.1 Pro的十分之一。

据第三方数据,千问系列目前稳居中国企业级大模型调用市场头把交椅,覆盖互联网、金融、消费电子及汽车等行业的超100万家企业客户。

过去半年,市场注意力被OpenAI和谷歌多模态迭代牵引,国内厂商多被质疑为跟随者。但这次,阿里在音视频理解、方言识别和实时交互等细分维度实现了反超,且选择了完全开放的API策略。这或许正是中国AI企业在全球化竞争中找到的有效路径:不追求在所有榜单上霸榜,但在特定高价值场景建立不可替代性。

如今大模型技术门槛被抹平,剩下的就是执行力的较量了。

来源:https://www.leikeji.com/article/75808
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

通义千问深度研究功能升级 接入实时股票行情与机构级投研分析
AI
通义千问深度研究功能升级 接入实时股票行情与机构级投研分析

4月7日,阿里巴巴旗下AI助手通义千问宣布,其核心的“深度研究”专业能力迎来重磅升级。本次升级不仅新增了财经分析等关键模块,更接入了覆盖A股、港股、美股等市场超过1 3万支股票的实时行情数据,以及近百万家上市公司的财报与公告信息。在当前AI高阶功能普遍转向付费订阅的行业趋势下,千问团队选择将此次升级

热心网友
05.14
宇树机器人 R1 现身阿里西溪园区,有望合作“树卖通”项目
业界动态
宇树机器人 R1 现身阿里西溪园区,有望合作“树卖通”项目

宇树科技与阿里酝酿合作,机器人现身西溪园区 最近科技圈里有个消息传得挺热:宇树科技和阿里巴巴,这两家分别在机器人和电商领域举足轻重的公司,可能正在联手谋划一项重要的出海战略。这事儿要是成了,对行业格局的影响,恐怕不小。 消息的源头,是几张颇有故事感的现场照片。宇树科技最新的机器人产品R1,近日出现在

热心网友
04.22
阿里发布 Wan2.7-Video 视频生成模型:“能导擅演”,聚焦创作全链路
AI
阿里发布 Wan2.7-Video 视频生成模型:“能导擅演”,聚焦创作全链路

阿里发布 Wan2 7-Video 视频生成模型:“能导擅演”,聚焦创作全链路 今天下午,AI视频创作领域迎来一个重要更新:阿里正式上线了其视频生成模型Wan2 7-Video。这款新模型主打一个“全”字,支持文本、图像、视频、音频全模态输入,并将目光聚焦在“创作”的每一个环节上。从生成到编辑,从复

热心网友
04.21
阿里云宣布在5个国家投资新建数据中心  首次进入墨西哥市场
科技数码
阿里云宣布在5个国家投资新建数据中心 首次进入墨西哥市场

阿里云加码全球AI基建:五国新建数据中心,首次进入墨西哥市场 5月23日,阿里云的一则公告,在全球云计算市场投下了一枚重磅消息。他们宣布,将在韩国、马来西亚、菲律宾、泰国和墨西哥这五个国家,投资新建数据中心。这一轮海外扩张,目标非常明确——重点布局AI基础设施,为下一阶段的全球竞争全力冲刺。 值得注

热心网友
04.18
千人千面,告别AI标准脸,阿里发布Wan2.7-Image
业界动态
千人千面,告别AI标准脸,阿里发布Wan2.7-Image

告别“标准脸”与“色彩盲盒”:阿里Wan2 7-Image如何重塑AI生图体验 4月1日,阿里巴巴正式发布了图像生成与编辑统一模型Wan2 7-Image。这款新模型直指当前AI生图领域的两大核心痛点——千篇一律的“标准脸”审美疲劳和难以预测的“色彩盲盒”效应。它带来的,是真正意义上的“千人千面”生

热心网友
04.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

秒创AI视频制作平台:一键生成专业视频,简单高效
AI
秒创AI视频制作平台:一键生成专业视频,简单高效

在内容创作领域,效率是核心竞争力。随着AIGC技术浪潮的全面到来,一个能够整合文案、图像、音频、视频全流程的智能创作平台,已成为创作者提升生产力的关键工具。今天我们要深入解析的“秒创”,正是这样一个旨在实现“秒级”内容生成的一站式AI创作解决方案。 秒创是什么?一站式AI创作平台详解 秒创,其前身为

热心网友
05.17
UNI代币详解:Uniswap治理代币的作用与价值关联
web3.0
UNI代币详解:Uniswap治理代币的作用与价值关联

UNI是Uniswap平台的治理代币,持有者可参与协议决策。其总量10亿枚,分配注重社区发展。关键转折在于“UNIfication”提案通过后,平台部分手续费用于回购销毁UNI,使代币具备价值积累功能。Uniswap作为领先的去中心化交易所,其交易活跃度直接支撑UNI价值。未来发展与平台交易量及监管环境密切相关,需关注相关风险。

热心网友
05.17
自动做市商AMM详解:运作原理、DeFi影响与未来趋势
web3.0
自动做市商AMM详解:运作原理、DeFi影响与未来趋势

自动做市商通过算法和流动性池革新了加密资产交易,消除了对订单簿和中介的依赖。其核心是恒定乘积公式,能实时定价并降低参与门槛,但也伴随无常损失风险。未来,AMM将向可编程、跨链互操作、AI赋能及拓展至真实世界资产等方向发展,并在合规框架下演进,以提升交易效率与安全性。

热心网友
05.17
中国电影电视技术学会:科协团体会员单位的专业职能与服务
AI
中国电影电视技术学会:科协团体会员单位的专业职能与服务

在中国广播影视与网络视听行业的技术演进历程中,中国电影电视技术学会始终扮演着关键角色。作为该领域内唯一的国家级学术组织,学会依托中央广播电视总台的强大支撑,核心使命在于推动行业技术交流、协同创新与高质量发展。它不仅是我国广播、电影、电视及网络视听科技事业的重要社会力量,更是连接产学研用、促进行业整体

热心网友
05.17
iPhone重置三种简单方法详细步骤
iphone
iPhone重置三种简单方法详细步骤

iPhone硬重置可将设备彻底恢复至出厂状态,清除所有个人数据和设置,常用于解决系统故障或转让前清理隐私。具体可通过设备设置、连接电脑使用iTunes或Finder、以及借助专业解锁工具三种方法实现。其中专业工具能在忘记密码时强制清除设备数据。重置后所有内容将被永久删除,需提前备份重要信息。

热心网友
05.17