首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini

阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini

热心网友
61
转载
2026-03-31

快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3.5-Omni。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据悉,Qwen3.5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。

在音视频理解、识别、交互等215项任务中,Qwen3.5-Omni取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。


例如在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro。

在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高。

在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。


目前,Qwen3.5-Omni拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述。

新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成,就连使用人数不足一百万的毛利语和国内的海南方言,也能精准识别。

同时,基于一系列技术创新,Qwen3.5-Omni还将Vibe Coding能力推入下一阶段。

与纯文本或图片驱动的Vibe Coding不同,千问可以实现音视频编程:打开摄像头,用户对着草图口述需求,哪怕是包括复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现"动动嘴即可编程"。

而Qwen3.5-Omni顶尖的全模态能力,还能为专业领域带来超级生产力。

新模型可对画面主体、人物关系、对话逻辑、乃至人物情绪起伏进行极细的拆解,并自动完成视频章节切片与时间戳标注,支持超过10小时的音频输入。

目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。

普通用户可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。

当前,千问已稳居中国企业级大模型调用市场第一,服务涵盖互联网、金融、消费电子及汽车等重点行业超100万家客户。


来源:https://www.163.com/dy/article/KPA9EH7C0511CPVM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里云Qwen3.5-Omni全模态大模型发布
科技数码
阿里云Qwen3.5-Omni全模态大模型发布

3月30日,阿里云正式发布Qwen3 5-Omni全模态大模型,这是Qwen系列最新一代产品,支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构,Thinker

热心网友
03.31
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini
科技数码
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini

快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3 5-Omni。据悉,Qwen3 5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。在

热心网友
03.31
阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro
科技数码
阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro

3月30日,阿里发布千问新一代全模态大模型Qwen3 5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3 1 Pro,成为目前全球最强的全模态大模型

热心网友
03.30
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析
科技数码
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析

这项由英属哥伦比亚大学、加州大学伯克利分校和Vector人工智能研究所联合开展的突破性研究发表于2026年3月的计算机视觉领域顶级会议,论文编号为arXiv:2603 19203v1。研究团队通过深

热心网友
03.30
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB
科技数码
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

“语料数据正成为人工智能发展的重要胜负手。”3月28日,在2026全球开发者先锋大会(GDPS)“语料筑基、智生时代”主题论坛上,上海市经济和信息化委员会副主任潘焱指出,当前人工智能发展正在加快进入

热心网友
03.29

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布
网络安全
OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布

PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO

热心网友
03.31
2026最新小红书官网登录入口与PC端访问地址
电脑教程
2026最新小红书官网登录入口与PC端访问地址

小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检

热心网友
03.31
举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
数字智能赋能正能量:网络媒体论坛探讨三个治理方向
科技数码
数字智能赋能正能量:网络媒体论坛探讨三个治理方向

来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技

热心网友
03.31
AI驱动CRM升级:企业级智能解决方案重塑付费模式
科技数码
AI驱动CRM升级:企业级智能解决方案重塑付费模式

当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功

热心网友
03.31