游乐游手机版
首页/科技数码/文章详情

阿里千问登顶全球冠军,空间推理能力超越Gemini3与GPT5

时间:2025-11-27 10:05
11月26日消息,今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名,超越Gemini 3、GPT-5 1、Cl

11月26日,业界领先的空间推理基准测试榜单SpatialBench发布了最新一期成绩,阿里千问的视觉理解模型Qwen3-VL与Qwen2.5-VL包揽冠亚军,综合表现超越了Gemini 3、GPT-5.1、Claude Sonnet 4.5等国际顶尖模型。

SpatialBench榜单数据显示,Qwen3-VL-235B与Qwen2.5-VL-72B分别取得13.5和12.9的高分,显著领先于Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)及Claude Sonnet 4.5等海外旗舰模型。

超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军

不过需要指出的是,当前AI大模型的整体表现与人类水平仍存在差距,人类基准线约为80分左右。在电路分析、CAD工程设计和分子生物学等复杂空间推理任务中,专业人士依然保持着明显优势,现有大模型还无法完全自动化完成此类工作。

据了解,Qwen2.5-VL于2024年开源,而Qwen3-VL则是阿里在2025年推出的新一代视觉理解模型。

Qwen3-VL在视觉感知与多模态推理方面取得重要突破,在32项核心能力测评中超越了Gemini 2.5 Pro和GPT-5。它不仅能够调用截图、搜索等工具完成"带图推理"任务,还能凭借一张设计草图或一段游戏视频直接进行"视觉编程"。

超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军

同时,Qwen3-VL专门增强了3D检测能力,能够更精准地感知空间环境。基于该模型,机器人可以更好地判断物体方位、视角变化和遮挡关系,实现如同远处采摘苹果般精准的动作控制。

目前Qwen3-VL已开源多个版本,包括2B、4B、8B、32B等密集模型,以及30B-A3B、235B-A22B等MoE架构模型。每个模型都提供指令版和推理版两种选择,成为目前最受企业和开发者欢迎的开源视觉理解模型。此外,Qwen3-VL模型也已上线千问APP,用户可免费体验其强大功能。

据悉,SpatialBench是近年来兴起的第三方空间推理基准测试榜单,主要关注多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为衡量"具身智能"发展水平的新兴测试标准之一。

SpatialBench不仅测试模型已有知识,更着重评估模型在二维和三维空间中感知和操控抽象概念的能力,这对具身智能的实际落地应用尤为关键。

来源:https://news.mydrivers.com/1/1088/1088839.htm
上一篇原特斯拉Optimus核心成员加入小米,主攻机器人灵巧手技术 下一篇华为Mate80 Pro首发评测:5000元档国产旗舰性能新标杆
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5