阿里云Qwen3-VL-30B开源模型性能对标GPT-5-Mini
10月4日最新动态,阿里云通义千问团队正式开源发布Qwen3-VL-30B-A3B-Instruct和Thinking两大模型,同时推出FP8精度的新版本,以及超大规模模型Qwen3-VL-235B-A22B的FP8优化版本。

据介绍,最新开源的Qwen3-VL-30B-A3B-Instruct与Thinking模型虽然参数规模更精简,但依然保持了卓越性能,完整继承了Qwen3-VL系列的核心能力。仅需30亿激活参数,就能在STEM学科、视觉问答(VQA)、文字识别(OCR)、视频理解和智能体(Agent)等多项任务中,与GPT-5-Mini和Claude4-Sonnet等业界标杆相抗衡,部分场景表现更胜一筹。



目前这些模型已在魔搭社区和Hugging Face平台开放免费下载,并同步上线Qwen Chat服务。
以Qwen3-VL-30B-A3B-Instruct为例,其主要特性包括:
通义千问3-VL系列——迄今为止最先进的视觉语言模型。
新一代产品在各项能力上实现全方位升级:更精准的文本理解与生成能力、更敏锐的视觉感知与推理能力、更长的上下文处理长度、更强的空间定位与视频动态理解能力,以及更出色的智能体交互性能。
提供从边缘计算到云端部署的密集型和MoE架构选择,同时包含标准Instruct版本和推理增强型Thinking版本,满足不同场景需求。
核心技术突破:
• 视觉智能体:支持操作PC/移动端图形界面,可识别UI元素、理解功能逻辑、调用系统工具完成复杂任务
• 视觉编码增强:直接从图像/视频生成Draw.io图表和HTML/CSS/JS代码
• 三维空间感知:准确判断目标的相对位置、视角关系和遮挡状态,在2D场景理解基础上拓展3D空间推理能力
• 长文本与视频理解:原生支持256K上下文窗口,可扩展至1M规模,能完整解析书籍内容和数小时视频素材
• 多模态推理:在STEM和数学领域展现出强大的因果分析和逻辑推理能力
• 全场景视觉识别:经过高质量训练,可精准识别名人面孔、动漫角色、商品品牌、地理地标、动植物种类等
• 多语言OCR:支持32种语言文字识别(原19种),在低光照、模糊抖动等恶劣条件下仍保持稳定表现
• 媲美纯文本模型的语义理解能力:实现视觉与语言信息的无缝融合,形成统一认知体系
资源获取渠道:
魔搭社区:Qwen3-VL
Hugging Face:Qwen3-VL
相关攻略
阿里云万相大模型开源六天即登顶HuggingFace双榜,下载量破百万。其14B版本性能强劲,1 3B版本便于本地部署,并在VBench评测中领先。团队扩大生态兼容性,通过通义千问与万相全面开源,构建全模态、全尺寸开源矩阵,降低开发门槛,推动技术普及。
阿里云开源代码大模型Qwen3-Coder,其代码能力对标国际顶尖模型,成本与开放性优势显著。该举措旨在抢占编程AI赛道,通过“模型开源+云服务”模式降低使用门槛,构建从生态引流到云业务转化的商业闭环,强化工程化落地能力。
阿里云与中山大学团队开发了深度学习模型“LucaProt”,用于高效识别RNA病毒。该模型基于Transformer架构,结合蛋白质序列与结构特征,在外部验证中召回率达97 4%,假阳性率仅0 023%。通过云计算与AI技术,团队从海量数据中一次性发现超过16万种新RNA病毒,显著拓展了病毒多样性认知,为病毒学研究和流行病预警提供了新工具。
如果开发一个智能体(Agent)只需要5分钟,那么今天的关键问题就不再是“技术能否实现”,而是“你想用它解决什么业务场景”。 Agent 上线,本不该如此复杂 在传统的开发模式下,构建一个可用的智能体是一项繁重的系统工程:你需要挑选合适的模型、搭建开发框架、部署服务、管理会话状态、调试流式接口、接入
5月11日,阿里云正式推出“团队版Token Plan”服务。这项服务并非简单的模型调用接口,而是一套专为企业及开发团队设计的大模型订阅与集中管理解决方案,旨在优化AI资源的规模化使用体验。 该计划的核心优势在于“团队协作”与“灵活配置”。它集成了Qwen3 6、Kimi-K2 6、GLM-5 1、
热门专题
热门推荐
在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一
DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详
三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。
HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。
随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限





