首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里云Qwen3.5-Omni全模态大模型发布

阿里云Qwen3.5-Omni全模态大模型发布

热心网友
62
转载
2026-03-31

3月30日,阿里云正式发布Qwen3.5-Omni全模态大模型,这是Qwen系列最新一代产品,支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构,Thinker与Talker模块均基于此架构设计。系列包含Plus、Flash、Light三种尺寸的Instruct版本,其中Plus版本支持256K长上下文,可处理超过10小时音频输入及400秒720P音视频。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在训练数据方面,模型基于海量文本、视觉素材及超过1亿小时音视频数据进行原生多模态预训练。语言能力方面,Qwen3.5-Omni支持113种语种和方言的语音识别,以及36种语种和方言的语音生成,相比前代Qwen3-Omni有明显提升。

在离线能力测试中,Qwen3.5-Omni-Plus在音频及音视频理解、推理和交互任务上取得215项子任务SOTA成绩,涵盖3个音视频Benchmark、5个音频Benchmark、8个ASR Benchmark、156个S2TT任务和43个ASR任务。通用音频理解、推理、识别、翻译及对话能力全面超越Gemini-3.1 Pro,音视频理解能力达到同尺寸Qwen3.5模型水平。

该模型具备音视频caption能力,可生成可控、详细、结构化的音视频描述,支持自动切片、时间戳打标及人物与音频关系描述。通过原生多模态Scaling,模型还涌现出根据音视频指令直接进行coding的能力,称为Audio-Visual Vibe Coding。

实时交互方面,模型支持五项核心功能。一是语义打断,基于Omni开发自动识别turn-talking意图,避免无效背景音干扰。二是原生支持WebSearch和复杂FunctionCall调用,可自主判断是否启用搜索。三是端到端语音控制和对话,支持对声音大小、语速、情绪等自由控制。四是音色克隆,用户可上传音色定制AI Assistant声音。五是ARIA技术,通过自适应速率交错对齐解决流式语音交互中因文本与语音Token编码效率差异导致的漏读、误读问题。

模型延续Thinker-Talker架构,Thinker通过Vision Encoder和Aut接受视觉和音频信号,Talker负责接收多模态输入及文本输出进行contextual语音生成。不同于前代双轨Talker输入,新版本采用ARIA动态对齐文本与语音单元。

用户可通过Qwen Chat、HuggingFace及ModelScope体验离线及实时Demo,也可通过阿里云百炼调用API。模型提供中英主音色5个、中英场景音色19个、中文方言特色音色8个、多语言音色23个,共计55个发音人选项。

来源:https://www.163.com/dy/article/KPA567A40519U3I5.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里Qwen3.5-Omni发布:多模态能力顶级,视频交互成新突破
科技数码
阿里Qwen3.5-Omni发布:多模态能力顶级,视频交互成新突破

全球全模态大模型竞赛迎来新变数。3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3 5-Omni。这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(Stat

热心网友
03.31
阿里云Qwen3.5-Omni全模态大模型发布
科技数码
阿里云Qwen3.5-Omni全模态大模型发布

3月30日,阿里云正式发布Qwen3 5-Omni全模态大模型,这是Qwen系列最新一代产品,支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构,Thinker

热心网友
03.31
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini
科技数码
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini

快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3 5-Omni。据悉,Qwen3 5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。在

热心网友
03.31
阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro
科技数码
阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro

3月30日,阿里发布千问新一代全模态大模型Qwen3 5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3 1 Pro,成为目前全球最强的全模态大模型

热心网友
03.30
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析
科技数码
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析

这项由英属哥伦比亚大学、加州大学伯克利分校和Vector人工智能研究所联合开展的突破性研究发表于2026年3月的计算机视觉领域顶级会议,论文编号为arXiv:2603 19203v1。研究团队通过深

热心网友
03.30

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

14岁小S女儿反驳读书无用论:别把嫁豪门当退路
娱乐
14岁小S女儿反驳读书无用论:别把嫁豪门当退路

小S的三个女儿受人关注,一家人的一举一动都能引起大家的讨论与吐槽。尤其是她的三个漂亮女儿,大女儿许曦文20岁,在南加州读大学。二女儿许韶恩18岁,开始在贵圈发展,许老三许曦恩14岁,也开始频繁露面。

热心网友
03.31
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南
礼仪与书信
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南

IT之家 3 月 31 日消息,华擎 ASRock 现已推出两款幻影电竞系列显示器 PG27QFT2C 和 PG27QFT1B。两款型号拥有一致的核心规格,均采用 27 英寸 QHD (2560×1

热心网友
03.31
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点
网络安全
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点

3月31日消息,据报道,苹果20周年纪念版iPhone 20将采用1 1毫米极窄屏幕边框,搭配极致圆润的边缘处理与四曲面瀑布屏设计,整机视觉效果接近无缝玻璃面板。此次曝光的设计核心为真全面屏形态,为

热心网友
03.31
QQ邮箱官方登录入口与网页版最新地址
电脑教程
QQ邮箱官方登录入口与网页版最新地址

QQ邮箱网页版最新最新地址是https: mail qq com,支持多方式快捷验证、跨终端实时同步、大文件智能传输、智能地址分类管理及多重安全防护。QQ邮箱登录入口正式 QQ邮

热心网友
03.31
vivo X300系列正式发布:售价4999元起,专业影像旗舰
科技数码
vivo X300系列正式发布:售价4999元起,专业影像旗舰

2026年3月30日,vivo于云南丽江正式发布vivo X300系列全新旗舰手机——vivo X300 Ultra、vivo X300s,重塑移动影像新高度。打破拍照与摄像的设备鸿沟,带来手机中的

热心网友
03.31