首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别

阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别

热心网友
55
转载
2026-05-20

今天,阿里通义千问的Qwen3.7系列预览版模型正式上线,包括Max和Plus两个版本。大模型竞技场(Arena.ai)也同步公布了Qwen3.7-Max-Preview的评测成绩。在覆盖主流基座模型的总榜上,这款模型位列第13名,正好卡在GPT 5.5和Grok 4.2之间,是目前榜单上排名最高的国产模型。

具体到细分领域,它的表现同样可圈可点:在数学榜单上排名第7,在专家任务和软件与信息技术任务中均位列第9,编程任务则排在第10。

▲ Arena.ai公布的Qwen3.7-Max-Preview成绩

至于Qwen3.7-Plus-Preview,其总榜排名尚未公布。不过,在竞技场的视觉排行榜上,已经能看到它的身影——排名第16,得分介于GPT 5.4和Gemini-3 Flash之间。

目前,阿里方面尚未披露Qwen3.7系列的具体技术细节。有消息称,在明天的阿里云峰会上,这两款模型的更多信息可能会被揭晓。

现在,用户已经可以通过Qwen Studio抢先体验这两款模型。它们目前以闭源模式发布,其中Qwen3.7-Max-Preview仅支持推理模式,暂不支持图片上传功能。

我们第一时间对两款模型进行了实测。针对Qwen3.7-Max-Preview,测试涵盖了数学、编程、推理等多种任务类型;而对Qwen3.7-Plus-Preview的考察,则主要集中在视觉能力上。

从实际体验来看,这一代Qwen模型的响应速度更快、表达更直接,思考节奏也比前代模型显得更为果断。尤其在编程和视觉理解方面,能力的提升是能够被清晰感知到的。

一、4分钟解出IMO难题,还能写个能跑的EXE

在多个细分领域的排名中,Qwen3.7-Max-Preview的数学得分尤为突出。为了验证这一点,我们直接搬出了2025年国际数学奥林匹克(IMO)的一道难题来考它。

模型拿到题目后,进行了多轮分析和反复核验,最终给出了正确答案。整个过程耗时大约4分钟,思考速度相当不错。

目前Qwen只提供思维链总结,无法看到模型完整的思考过程。但从总结中可以发现,与之前的版本相比,Qwen3.7-Max-Preview似乎“自信”了不少,反复自我核查的环节有所减少。

它在编程任务上的表现也值得一看。不过,由于目前模型只能在网页端体验,我们暂时没有尝试过于复杂的开发任务。

第一个编程任务是让它生成一个番茄钟桌面应用,并直接打包成EXE文件。Qwen3.7-Max-Preview没有在思考环节过多停留,而是迅速投入开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒和任务统计功能的应用。

模型坦言无法直接输出EXE文件,但提供了详细的打包指引。按照指引操作后,应用虽然成功打包,但首次运行时却无法正常启动。

在阅读了报错信息后,Qwen3.7-Max-Preview判断问题出在Tkinter底层(Tcl/Tk)在打包后不支持带透明度的十六进制颜色代码上。

修复这个问题后,桌面应用终于可以正常运行了,核心功能一切正常,只是界面设计略显粗糙。

用HTML输出内容近来成了AI圈的热点。于是,我们让Qwen3.7-Max-Preview设计一份AI社交媒体应用的产品需求文档,并要求直接输出为HTML网页。

接到任务后,它没有先输出文字版再转换,而是直接用HTML输出了全部内容。从结果看,这份产品需求文档结构完整,甚至还配上了产品原型设计。不过,在产品功能定义上似乎有些“大而全”,导致焦点不够突出。

我们还测试了其他类型的任务。在SVG图绘制上,Qwen3.7-Max-Preview顺利生成了一张动态的“鹈鹕骑自行车”图片,画面内容基本准确。

在通用推理任务中,它一眼就看穿了这道“海龟汤”谜题的答案,判断出女孩是红绿色盲,并且很可能不是父亲的亲生女儿。

二、有惊无险攻克视觉版“洗车店难题”,凭一张图复刻微信界面

接下来的测试,重点考察Qwen3.7-Plus-Preview的视觉能力。

第一个任务是道进阶版的“洗车店难题”。我们使用AI生成了一张卫星地图风格的图片,图中仅标注了两个地点之间的距离。

我们告诉模型,左侧地点是“我家”,右侧是“洗车店”,然后提问:如果要去洗车,应该走路还是开车?

从它的思考过程可以看出,模型准确地识别了图片中的文字和视觉信息,并评估了各种选项。有趣的是,在某个思考阶段,它甚至得出了“走路才是最合理高效方式”的结论,险些“掉坑”。

不过,它最终给出了正确答案:开车去洗车,然后走路回家,这样就不用浪费时间在店里干等。

此前在实测其他多模态模型时我们发现,如今的模型在“看图猜地点”上表现不俗。这次也让Qwen3.7-Plus-Preview试了试同样的题目。

看到图片后,模型首先通过建筑风格判断此处位于中国北方某大型城市,然后依据山脉形态推断远处的山属于燕山余脉。最终,它认为远处的山是军都山,并由此推测观察点位于昌平南邵。

这个判断其实是错的,但离正确答案已经非常接近。图中的山脉实际上是北京的凤凰岭,而观察地位于马池口镇,模型的猜测与实际地点相距不到10公里。

视觉能力还能与编程结合。我们随手截了一张微信的界面图,要求模型复刻出一个类似的网页版聊天工具。

执行过程中,尽管图片里没有明显的“微信”字样,但Qwen3.7-Plus-Preview通过UI风格等视觉元素,准确判断出这是微信,并据此规划了设计风格。

从最终的复刻效果来看,模型很好地把握了微信的设计特点,外观还原度相当高。当然,图中的按钮目前还无法实际点击使用。

结语:Qwen系列进入加速迭代期

今年以来,阿里Qwen系列模型的迭代速度明显加快。从2026年2月至今,阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型。相比之下,整个2025年,Qwen主要只发布了Qwen3和Qwen-Next两个大版本。

这种变化意味着,Qwen正在从过去以“大版本发布”为核心的节奏,转向一种更敏捷的开发模式。通过高频的预览版发布和能力增量更新,模型得以更快地进入真实场景接受检验,技术路线的演进也显得更加清晰和持续。

来源:https://www.163.com/dy/article/KTAVSN90051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别
AI
阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别

阿里发布Qwen3 7系列预览版模型。Qwen3 7-Max-Preview在大模型竞技场总榜位列第13,为当前国产模型最高排名,在数学等细分榜单表现突出。实测显示,该模型响应更快,在数学推理、编程及视觉任务上能力提升明显,能解答奥赛难题并生成应用。Qwen3 7-Plus-Preview在视觉榜单排名第16,展现出较强的图像理解与界面复刻能力。系列模型正转

热心网友
05.20
AI投资大赛落幕:中国模型全盈利,美国队亏损超62%
科技数码
AI投资大赛落幕:中国模型全盈利,美国队亏损超62%

11月4日消息,据媒体报道,由第三方机构Nof1于10月18日发起的AI大模型实时投资比赛“Alpha Arena”,历时17天,在今日落下帷幕。据了解,该项投资比赛集合Qwen3-Max、Deep

热心网友
11.30
阿里千问登顶全球冠军,空间推理能力超越Gemini3与GPT5
科技数码
阿里千问登顶全球冠军,空间推理能力超越Gemini3与GPT5

11月26日消息,今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名,超越Gemini 3、GPT-5 1、Cl

热心网友
11.27
阿里千问登顶全球冠军,超越Gemini3与GPT5.1推理能力
科技数码
阿里千问登顶全球冠军,超越Gemini3与GPT5.1推理能力

11月26日消息,今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名,超越Gemini 3、GPT-5 1、Cl

热心网友
11.26
阿里“千问”首周下载破千万,刷新AI应用增长纪录
科技数码
阿里“千问”首周下载破千万,刷新AI应用增长纪录

11月24日消息,今日,阿里巴巴宣布千问APP公测第一周即突破1000万下载。而这一速度也成功超越ChatGPT、Sora、DeepSeek,成为史上增长最快的AI应用。目前,千问App已支持多模态

热心网友
11.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

异人之下手游陆瑾连招技巧 安卓版技能玩法教学
游戏攻略
异人之下手游陆瑾连招技巧 安卓版技能玩法教学

陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。

热心网友
05.20
欧易投资策略指南:新手如何制定稳健的Web3投资计划
web3.0
欧易投资策略指南:新手如何制定稳健的Web3投资计划

投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。

热心网友
05.20
异人之下手游巴伦技能强度解析与安卓实战教程
游戏攻略
异人之下手游巴伦技能强度解析与安卓实战教程

巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。

热心网友
05.20
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线
AI
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线

谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。

热心网友
05.20
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能
AI
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能

谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。

热心网友
05.20