阿里千问登顶全球冠军，超越Gemini3与GPT5.1推理能力

时间：2025-11-26 16:53

11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名，超越Gemini 3、GPT-5 1、Cl

11月26日消息，今日空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL与Qwen2.5-VL强势占据冠亚军位置，超越了Gemini 3、GPT-5.1、Claude Sonnet 4.5等国际顶尖模型。

SpatialBench榜单显示，Qwen3-VL-235B与Qwen2.5-VL-72B分别取得了13.5和12.9分的优异成绩，显著领先于Gemini 3.0 Pro Preview（9.6分）、GPT-5.1（7.5分）及Claude Sonnet 4.5等海外头部模型。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

不过需要指出的是，AI大模型的整体表现与人类水平仍存在差距。人类基准线约为80分，能够专业处理电路分析、CAD工程和分子生物学等复杂空间推理任务，而目前大模型还无法完全自动化完成此类工作。

据了解，Qwen2.5-VL于2024年开源，Qwen3-VL则是阿里在2025年开源的新一代视觉理解模型。

Qwen3-VL在视觉感知和多模态推理方面实现了重大突破，在32项核心能力测评中超越Gemini 2.5 Pro和GPT-5。该模型不仅能调用截图、搜索等工具完成“带图推理”，还能通过一张设计草图或一段小游戏视频直接进行“视觉编程”。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

与此同时，Qwen3-VL专门增强了3D检测能力，能够更准确地感知空间关系。基于该模型，机器人可以更好地判断物体方位、视角变化和遮挡关系，实现远处物体的精准抓取。

目前，Qwen3-VL已开源不同版本，包括2B、4B、8B、32B等密集型模型以及30B-A3B、235B-A22B等MoE模型，每个模型都提供指令版和推理版两款，是当下最受企业和开发者欢迎的开源视觉理解模型。同时，Qwen3-VL模型也已上线千问APP，用户可免费体验。

据悉，SpatialBench是近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为衡量“具身智能”进展的新兴测试标准之一。

SpatialBench不仅测试模型已有的知识储备，还重点评估模型在二维和三维空间中感知和操控抽象概念的能力，这对具身智能的落地应用尤为关键。

来源：https://m.mydrivers.com/newsview/1088839.html

阿里AI 阿里Qwen3 通义千问

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

继续查看同栏目最近更新的文章。

2025年《麻省理工科技评论》“35岁以下科技创新35人”中国区名单在上海发布，罗福莉、姚顺宇等入选。罗福莉推动大模型从“能聊天”走向“能干活”，探索智能体演进；姚顺宇建立非厄米拓扑能带理论。本届AI+机器人领域入选者占四成。

美国科技巨头年内裁员近14万人，同时计划在AI基础设施上投入7250亿美元。裁员主要目的为AI投资腾出资金并纠正疫情期间过度招聘，市场对AI相关裁员反应负面，而AI初创公司正加速扩招，形成对比。

WAIC2026上，AIInfra行业关注点从算力规模转向推理效率与Token产出。Agent驱动Token消耗激增，AI工厂与Token工厂成为关键载体。效率竞争取代规模竞赛，玩家分层加速，具备全栈优化能力的头部厂商优势凸显。

显卡市场，恐怕又要迎来一波涨价潮了。过去两年，不少玩家咬咬牙买下的高价显卡，如今回头看，竟然成了抄底。但问题在于，硬件市场每一次涨价，最终买单的永远还是玩家。业内消息显示，GDDR7显存价格出现了明显上涨，单颗2GB显存价格上涨接近20美元。按8GB显存规格计算，一张显卡的显存成本或将增加约542

7月25日，微软、英伟达等25家美国公司联署公开信支持开放权重AI模型，随后签署方增至35家，新增包括OpenAI等。开放权重模型可下载、修改、运行，能扩大创新、强化竞争并降低风险，避免AI收益集中于少数巨头。