阿里狂揽200多项SOTA,Qwen3.5-Omni多模态超越Gemini 3.1 Pro
3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3.5-Omni。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据悉,Qwen3.5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。
在音视频理解、识别、交互等215项任务中,Qwen3.5-Omni取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。

例如在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro。
在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高。
在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。

目前,Qwen3.5-Omni拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述。
新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成,就连使用人数不足一百万的毛利语和国内的海南方言,也能精准识别。
同时,基于一系列技术创新,Qwen3.5-Omni还将Vibe Coding能力推入下一阶段。
与纯文本或图片驱动的Vibe Coding不同,千问可以实现音视频编程:打开摄像头,用户对着草图口述需求,哪怕是包括复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现“动动嘴即可编程”。
而Qwen3.5-Omni顶尖的全模态能力,还能为专业领域带来超级生产力。
新模型可对画面主体、人物关系、对话逻辑、乃至人物情绪起伏进行极细的拆解,并自动完成视频章节切片与时间戳标注,支持超过10小时的音频输入。
目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。
普通用户可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。
当前,千问已稳居中国企业级大模型调用市场第一,服务涵盖互联网、金融、消费电子及汽车等重点行业超100万家客户。

热门专题
热门推荐
探索新游戏+模式通关古墓丽影9后,新游戏+模式是个不错的选择。此模式下,玩家能继承通关后的所有解锁内容,像武器升级、服装等。而且敌人的难度会提升,战斗更具挑战性,能让你再次体验游戏
由孙俪、吴慷仁领衔主演的电视剧《危险关系》今日起登陆北京卫视品质剧场。 该剧融合悬疑叙事与社会议题,聚焦PUA在两性关系中的情感操控本质,直击亲密关系里隐蔽而致命的精神控制与暴力。在揭开黑暗的同时,
IT之家 3 月 31 日消息,魅族现已在其商城上架一款 PANDAER PASA 反向自动伞,其主打“反向架构”设计,提供全遮光黑胶、8 骨复合伞骨,定价为 109 元。据介绍,这款伞的最大特色是
小红书重拳出击:AI托管账号迎来严管新规 3月10日,小红书官方发布了一则重磅治理公告,剑指日益泛滥的“AI托管”运营模式。公告明确,平台将从即日起,对这类账号采取分级治理措施。 具体怎么管?规则其实很清晰: 首先,如果是普通用户账号,只是偶尔使用AI工具代写笔记或进行互动,那么平台会根据违规情节的
iOS 26 4 Beta 4 来了:新表情+护眼功能上线 苹果的更新节奏向来稳定。这不,今天凌晨,iOS 26 4 Beta 4 测试版如期而至,版本号也来到了 23E5234a。距离上一个 Beta 3 版本发布正好一周,从这个推送频率来看,距离正式版与所有用户见面的日子,确实不远了。 本次更新





