阿里云Qwen3-VL-30B开源模型性能对标GPT-5-Mini

首页

热心网友

转载

2025-10-05

10月4日最新动态，阿里云通义千问团队正式开源发布Qwen3-VL-30B-A3B-Instruct和Thinking两大模型，同时推出FP8精度的新版本，以及超大规模模型Qwen3-VL-235B-A22B的FP8优化版本。

阿里云通义千问开源

据介绍，最新开源的Qwen3-VL-30B-A3B-Instruct与Thinking模型虽然参数规模更精简，但依然保持了卓越性能，完整继承了Qwen3-VL系列的核心能力。仅需30亿激活参数，就能在STEM学科、视觉问答(VQA)、文字识别(OCR)、视频理解和智能体(Agent)等多项任务中，与GPT-5-Mini和Claude4-Sonnet等业界标杆相抗衡，部分场景表现更胜一筹。

阿里云通义千问开源

目前这些模型已在魔搭社区和Hugging Face平台开放免费下载，并同步上线Qwen Chat服务。

以Qwen3-VL-30B-A3B-Instruct为例，其主要特性包括：

通义千问3-VL系列——迄今为止最先进的视觉语言模型。
新一代产品在各项能力上实现全方位升级：更精准的文本理解与生成能力、更敏锐的视觉感知与推理能力、更长的上下文处理长度、更强的空间定位与视频动态理解能力，以及更出色的智能体交互性能。
提供从边缘计算到云端部署的密集型和MoE架构选择，同时包含标准Instruct版本和推理增强型Thinking版本，满足不同场景需求。
核心技术突破：
• 视觉智能体：支持操作PC/移动端图形界面，可识别UI元素、理解功能逻辑、调用系统工具完成复杂任务
• 视觉编码增强：直接从图像/视频生成Draw.io图表和HTML/CSS/JS代码
• 三维空间感知：准确判断目标的相对位置、视角关系和遮挡状态，在2D场景理解基础上拓展3D空间推理能力
• 长文本与视频理解：原生支持256K上下文窗口，可扩展至1M规模，能完整解析书籍内容和数小时视频素材
• 多模态推理：在STEM和数学领域展现出强大的因果分析和逻辑推理能力
• 全场景视觉识别：经过高质量训练，可精准识别名人面孔、动漫角色、商品品牌、地理地标、动植物种类等
• 多语言OCR：支持32种语言文字识别（原19种），在低光照、模糊抖动等恶劣条件下仍保持稳定表现
• 媲美纯文本模型的语义理解能力：实现视觉与语言信息的无缝融合，形成统一认知体系

资源获取渠道：

魔搭社区：Qwen3-VL

Hugging Face：Qwen3-VL

来源:https://www.ithome.com/0/887/463.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：贝索斯称AI兼具泡沫与实际价值，太空数据中心或成真下一篇：生成式AI安全应急指南：事件分类与响应全流程

相关攻略

阿里万相大模型开源六天登顶全球榜首

阿里云万相大模型开源六天即登顶HuggingFace双榜，下载量破百万。其14B版本性能强劲，1 3B版本便于本地部署，并在VBench评测中领先。团队扩大生态兼容性，通过通义千问与万相全面开源，构建全模态、全尺寸开源矩阵，降低开发门槛，推动技术普及。

热心网友

05.16

阿里云押注Coding AI的战略布局与未来规划解析

阿里云开源代码大模型Qwen3-Coder，其代码能力对标国际顶尖模型，成本与开放性优势显著。该举措旨在抢占编程AI赛道，通过“模型开源+云服务”模式降低使用门槛，构建从生态引流到云业务转化的商业闭环，强化工程化落地能力。

热心网友

05.16

专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

阿里云与中山大学团队开发了深度学习模型“LucaProt”，用于高效识别RNA病毒。该模型基于Transformer架构，结合蛋白质序列与结构特征，在外部验证中召回率达97 4%，假阳性率仅0 023%。通过云计算与AI技术，团队从海量数据中一次性发现超过16万种新RNA病毒，显著拓展了病毒多样性认知，为病毒学研究和流行病预警提供了新工具。

热心网友

05.16

业界动态

AgentRun新手教程 5分钟完成注册并运行首个智能体

如果开发一个智能体（Agent）只需要5分钟，那么今天的关键问题就不再是“技术能否实现”，而是“你想用它解决什么业务场景”。 Agent 上线，本不该如此复杂在传统的开发模式下，构建一个可用的智能体是一项繁重的系统工程：你需要挑选合适的模型、搭建开发框架、部署服务、管理会话状态、调试流式接口、接入

热心网友

05.14

业界动态

阿里云团队版Token Plan上线支持多坐席分配与管理

5月11日，阿里云正式推出“团队版Token Plan”服务。这项服务并非简单的模型调用接口，而是一套专为企业及开发团队设计的大模型订阅与集中管理解决方案，旨在优化AI资源的规模化使用体验。该计划的核心优势在于“团队协作”与“灵活配置”。它集成了Qwen3 6、Kimi-K2 6、GLM-5 1、

热心网友

05.12

热门推荐

业界动态

多平台推广的优势与核心价值解析

在流量日益分散的今天，把鸡蛋放在同一个篮子里，风险不言而喻。多平台推广，早已不是“要不要做”的选择题，而是“如何做好”的生存题。它的核心价值，可以概括为两点：实现“流量风险对冲”，以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵，企业不仅能有效缓冲单一

热心网友

05.19

业界动态

DeepSeek知识库搭建教程从零开始构建企业智能问答系统

DeepSeek知识库的核心，是运用RAG（检索增强生成）技术，将DeepSeek强大的大语言模型推理能力，与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程（SOP）等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答，让AI的回答不再是通用泛化，而是具备专业依据、内容详

热心网友

05.19