阿里千问登顶全球冠军，空间推理能力超越Gemini3与GPT5

时间：2025-11-27 10:05

11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名，超越Gemini 3、GPT-5 1、Cl

11月26日，业界领先的空间推理基准测试榜单SpatialBench发布了最新一期成绩，阿里千问的视觉理解模型Qwen3-VL与Qwen2.5-VL包揽冠亚军，综合表现超越了Gemini 3、GPT-5.1、Claude Sonnet 4.5等国际顶尖模型。

SpatialBench榜单数据显示，Qwen3-VL-235B与Qwen2.5-VL-72B分别取得13.5和12.9的高分，显著领先于Gemini 3.0 Pro Preview（9.6分）、GPT-5.1（7.5分）及Claude Sonnet 4.5等海外旗舰模型。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

不过需要指出的是，当前AI大模型的整体表现与人类水平仍存在差距，人类基准线约为80分左右。在电路分析、CAD工程设计和分子生物学等复杂空间推理任务中，专业人士依然保持着明显优势，现有大模型还无法完全自动化完成此类工作。

据了解，Qwen2.5-VL于2024年开源，而Qwen3-VL则是阿里在2025年推出的新一代视觉理解模型。

Qwen3-VL在视觉感知与多模态推理方面取得重要突破，在32项核心能力测评中超越了Gemini 2.5 Pro和GPT-5。它不仅能够调用截图、搜索等工具完成"带图推理"任务，还能凭借一张设计草图或一段游戏视频直接进行"视觉编程"。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

同时，Qwen3-VL专门增强了3D检测能力，能够更精准地感知空间环境。基于该模型，机器人可以更好地判断物体方位、视角变化和遮挡关系，实现如同远处采摘苹果般精准的动作控制。

目前Qwen3-VL已开源多个版本，包括2B、4B、8B、32B等密集模型，以及30B-A3B、235B-A22B等MoE架构模型。每个模型都提供指令版和推理版两种选择，成为目前最受企业和开发者欢迎的开源视觉理解模型。此外，Qwen3-VL模型也已上线千问APP，用户可免费体验其强大功能。

据悉，SpatialBench是近年来兴起的第三方空间推理基准测试榜单，主要关注多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为衡量"具身智能"发展水平的新兴测试标准之一。

SpatialBench不仅测试模型已有知识，更着重评估模型在二维和三维空间中感知和操控抽象概念的能力，这对具身智能的实际落地应用尤为关键。

来源：https://news.mydrivers.com/1/1088/1088839.htm

阿里AI 阿里Qwen3

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

继续查看同栏目最近更新的文章。

2025年《麻省理工科技评论》“35岁以下科技创新35人”中国区名单在上海发布，罗福莉、姚顺宇等入选。罗福莉推动大模型从“能聊天”走向“能干活”，探索智能体演进；姚顺宇建立非厄米拓扑能带理论。本届AI+机器人领域入选者占四成。

美国科技巨头年内裁员近14万人，同时计划在AI基础设施上投入7250亿美元。裁员主要目的为AI投资腾出资金并纠正疫情期间过度招聘，市场对AI相关裁员反应负面，而AI初创公司正加速扩招，形成对比。

WAIC2026上，AIInfra行业关注点从算力规模转向推理效率与Token产出。Agent驱动Token消耗激增，AI工厂与Token工厂成为关键载体。效率竞争取代规模竞赛，玩家分层加速，具备全栈优化能力的头部厂商优势凸显。

显卡市场，恐怕又要迎来一波涨价潮了。过去两年，不少玩家咬咬牙买下的高价显卡，如今回头看，竟然成了抄底。但问题在于，硬件市场每一次涨价，最终买单的永远还是玩家。业内消息显示，GDDR7显存价格出现了明显上涨，单颗2GB显存价格上涨接近20美元。按8GB显存规格计算，一张显卡的显存成本或将增加约542

7月25日，微软、英伟达等25家美国公司联署公开信支持开放权重AI模型，随后签署方增至35家，新增包括OpenAI等。开放权重模型可下载、修改、运行，能扩大创新、强化竞争并降低风险，避免AI收益集中于少数巨头。