首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里通义Qwen3-VL开源4B与8B模型,超越GPT-5 Nano

阿里通义Qwen3-VL开源4B与8B模型,超越GPT-5 Nano

热心网友
27
转载
2025-10-16

10月15日最新消息,阿里通义今日正式宣布,其多模态大模型家族Qwen3-VL系列再添新成员——基于Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型现已开源上线。

超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

这两款密集架构的视觉理解模型在显存占用上更具优势,同时完整继承了Qwen3-VL系列的全部能力,每个尺寸都提供了Instruct和Thinking两个版本。

其中Qwen3-VL-8B在STEM、VQA、OCR、视频理解和Agent任务等公开评测中表现优异,不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano,甚至能够媲美上一代超大规模模型Qwen2.5-VL-72B。

而4B版本则在端侧展现出更高的性价比,特别适合需要AI视觉理解的智能终端部署。

超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

值得一提的是,这两款视觉理解模型实现了“视觉精准”与“文本稳健”的协同突破:针对小模型常见的“跷跷板”问题(提升视觉能力往往会牺牲文本性能,反之亦然),阿里通过架构创新和技术优化,让模型在保持文本理解能力的同时,增强了多模态感知与视觉理解能力,在小身材里塞进了更强的视觉和文本能力。

新模型现已上线魔搭社区和Hugging Face平台,同时提供FP8量化版本,开源地址如下:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

来源:https://www.ithome.com/0/889/591.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中国第一:阿里通义千问 3.5-Max-Preview 首发亮相 LM Arena 国际大模型竞技场
业界动态
中国第一:阿里通义千问 3.5-Max-Preview 首发亮相 LM Arena 国际大模型竞技场

中国第一:阿里通义千问 3 5-Max-Preview 首发亮相 LM Arena 国际大模型竞技场 大模型赛道的竞争,从来都不缺乏看点。这不,阿里千问家族又添新丁了。3月20日,千问3 5系列的旗舰预览版——Qwen3 5-Max-Preview,正式在全球知名的LM Arena竞技场上线参战,并

热心网友
04.21
下一代OpenClaw来了?“龙虾之父”称将率先支持阿里千问
业界动态
下一代OpenClaw来了?“龙虾之父”称将率先支持阿里千问

4月7日消息,“龙虾之父”彼得·斯坦伯格(Peter Steinberger)在社交媒体上透露称,下一代OpenClaw产品将融入视频生成功能,并率先提供阿里千问大模型的最新支持。据了解,过去的一周

热心网友
04.07
阿里发布国产最强编程模型Qwen3.6-Plus
业界动态
阿里发布国产最强编程模型Qwen3.6-Plus

4月2日,阿里发布千问新一代大语言模型Qwen3 6-Plus。千问3 6拥有原生多模态理解和推理能力,整体性能大幅增强,在智能体编程SWE-bench系列评测、真实世界智能体任务Claw-Eval

热心网友
04.07
阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入
AI
阿里千问发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

阿里千问重磅发布Qwen3 5-Omni:全能全模态大模型,解锁音视频实时交互新时代 2025年,阿里千问(通义千问)正式推出了其革命性的Qwen3 5-Omni全模态大型语言模型。此次发布标志着人工智能模型能力边界的重大突破,从传统的文本、图像处理,全面迈入了复杂的音频、视频理解与实时对话交互的新

热心网友
04.01
通义千问Qwen3.5-Omni发布,多模态能力全面领先
业界动态
通义千问Qwen3.5-Omni发布,多模态能力全面领先

3月30日,阿里发布千问新一代全模态大模型Qwen3 5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3 1 Pro,成为目前全球最强的全模态大模型

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19