首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里云Qwen3-VL-30B开源模型性能对标GPT-5-Mini

阿里云Qwen3-VL-30B开源模型性能对标GPT-5-Mini

热心网友
72
转载
2025-10-05

10月4日最新动态,阿里云通义千问团队正式开源发布Qwen3-VL-30B-A3B-Instruct和Thinking两大模型,同时推出FP8精度的新版本,以及超大规模模型Qwen3-VL-235B-A22B的FP8优化版本。

阿里云通义千问开源

据介绍,最新开源的Qwen3-VL-30B-A3B-Instruct与Thinking模型虽然参数规模更精简,但依然保持了卓越性能,完整继承了Qwen3-VL系列的核心能力。仅需30亿激活参数,就能在STEM学科、视觉问答(VQA)、文字识别(OCR)、视频理解和智能体(Agent)等多项任务中,与GPT-5-Mini和Claude4-Sonnet等业界标杆相抗衡,部分场景表现更胜一筹。

阿里云通义千问开源

阿里云通义千问开源

阿里云通义千问开源

目前这些模型已在魔搭社区和Hugging Face平台开放免费下载,并同步上线Qwen Chat服务。

以Qwen3-VL-30B-A3B-Instruct为例,其主要特性包括:

通义千问3-VL系列——迄今为止最先进的视觉语言模型。

新一代产品在各项能力上实现全方位升级:更精准的文本理解与生成能力、更敏锐的视觉感知与推理能力、更长的上下文处理长度、更强的空间定位与视频动态理解能力,以及更出色的智能体交互性能。

提供从边缘计算到云端部署的密集型和MoE架构选择,同时包含标准Instruct版本和推理增强型Thinking版本,满足不同场景需求。

核心技术突破:

• 视觉智能体:支持操作PC/移动端图形界面,可识别UI元素、理解功能逻辑、调用系统工具完成复杂任务

• 视觉编码增强:直接从图像/视频生成Draw.io图表和HTML/CSS/JS代码

• 三维空间感知:准确判断目标的相对位置、视角关系和遮挡状态,在2D场景理解基础上拓展3D空间推理能力

• 长文本与视频理解:原生支持256K上下文窗口,可扩展至1M规模,能完整解析书籍内容和数小时视频素材

• 多模态推理:在STEM和数学领域展现出强大的因果分析和逻辑推理能力

• 全场景视觉识别:经过高质量训练,可精准识别名人面孔、动漫角色、商品品牌、地理地标、动植物种类等

• 多语言OCR:支持32种语言文字识别(原19种),在低光照、模糊抖动等恶劣条件下仍保持稳定表现

• 媲美纯文本模型的语义理解能力:实现视觉与语言信息的无缝融合,形成统一认知体系

资源获取渠道:

魔搭社区:Qwen3-VL

Hugging Face:Qwen3-VL

来源:https://www.ithome.com/0/887/463.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里万相大模型开源六天登顶全球榜首
AI
阿里万相大模型开源六天登顶全球榜首

阿里云万相大模型开源六天即登顶HuggingFace双榜,下载量破百万。其14B版本性能强劲,1 3B版本便于本地部署,并在VBench评测中领先。团队扩大生态兼容性,通过通义千问与万相全面开源,构建全模态、全尺寸开源矩阵,降低开发门槛,推动技术普及。

热心网友
05.16
阿里云押注Coding AI的战略布局与未来规划解析
AI
阿里云押注Coding AI的战略布局与未来规划解析

阿里云开源代码大模型Qwen3-Coder,其代码能力对标国际顶尖模型,成本与开放性优势显著。该举措旨在抢占编程AI赛道,通过“模型开源+云服务”模式降低使用门槛,构建从生态引流到云业务转化的商业闭环,强化工程化落地能力。

热心网友
05.16
专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell
AI
专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

阿里云与中山大学团队开发了深度学习模型“LucaProt”,用于高效识别RNA病毒。该模型基于Transformer架构,结合蛋白质序列与结构特征,在外部验证中召回率达97 4%,假阳性率仅0 023%。通过云计算与AI技术,团队从海量数据中一次性发现超过16万种新RNA病毒,显著拓展了病毒多样性认知,为病毒学研究和流行病预警提供了新工具。

热心网友
05.16
AgentRun新手教程 5分钟完成注册并运行首个智能体
业界动态
AgentRun新手教程 5分钟完成注册并运行首个智能体

如果开发一个智能体(Agent)只需要5分钟,那么今天的关键问题就不再是“技术能否实现”,而是“你想用它解决什么业务场景”。 Agent 上线,本不该如此复杂 在传统的开发模式下,构建一个可用的智能体是一项繁重的系统工程:你需要挑选合适的模型、搭建开发框架、部署服务、管理会话状态、调试流式接口、接入

热心网友
05.14
阿里云团队版Token Plan上线支持多坐席分配与管理
业界动态
阿里云团队版Token Plan上线支持多坐席分配与管理

5月11日,阿里云正式推出“团队版Token Plan”服务。这项服务并非简单的模型调用接口,而是一套专为企业及开发团队设计的大模型订阅与集中管理解决方案,旨在优化AI资源的规模化使用体验。 该计划的核心优势在于“团队协作”与“灵活配置”。它集成了Qwen3 6、Kimi-K2 6、GLM-5 1、

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

多平台推广的优势与核心价值解析
业界动态
多平台推广的优势与核心价值解析

在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一

热心网友
05.19
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统
业界动态
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统

DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详

热心网友
05.19
三大运营商入局AI付费服务 使用门槛低至99元
AI
三大运营商入局AI付费服务 使用门槛低至99元

三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。

热心网友
05.19
本地部署量化模型解决HermesAgent响应慢问题
AI
本地部署量化模型解决HermesAgent响应慢问题

HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。

热心网友
05.19
AI治理评估工程:破解智能体监管缺失的关键路径
AI
AI治理评估工程:破解智能体监管缺失的关键路径

随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限

热心网友
05.19