阿里通义千问Qwen3.7实测评测国产大模型破解奥赛难题与图文识别_游乐网

文章

业界资讯单机攻略视频攻略新游看台八卦新闻手游资讯手游攻略游戏问答

游戏

全部角色扮演棋牌策略休闲益智赛车竞速飞行射击体育竞技模拟经营动作冒险卡牌桌游其他游戏应用辅助

首页游戏软件资讯排行榜专题

首页

AI

阿里通义千问Qwen3.7实测评测国产大模型破解奥赛难题与图文识别

阿里通义千问Qwen3.7实测评测国产大模型破解奥赛难题与图文识别

热心网友

55

转载

2026-05-20

今天，阿里通义千问的Qwen3.7系列预览版模型正式上线，包括Max和Plus两个版本。大模型竞技场（Arena.ai）也同步公布了Qwen3.7-Max-Preview的评测成绩。在覆盖主流基座模型的总榜上，这款模型位列第13名，正好卡在GPT 5.5和Grok 4.2之间，是目前榜单上排名最高的国产模型。

具体到细分领域，它的表现同样可圈可点：在数学榜单上排名第7，在专家任务和软件与信息技术任务中均位列第9，编程任务则排在第10。

▲ Arena.ai公布的Qwen3.7-Max-Preview成绩

至于Qwen3.7-Plus-Preview，其总榜排名尚未公布。不过，在竞技场的视觉排行榜上，已经能看到它的身影——排名第16，得分介于GPT 5.4和Gemini-3 Flash之间。

目前，阿里方面尚未披露Qwen3.7系列的具体技术细节。有消息称，在明天的阿里云峰会上，这两款模型的更多信息可能会被揭晓。

现在，用户已经可以通过Qwen Studio抢先体验这两款模型。它们目前以闭源模式发布，其中Qwen3.7-Max-Preview仅支持推理模式，暂不支持图片上传功能。

我们第一时间对两款模型进行了实测。针对Qwen3.7-Max-Preview，测试涵盖了数学、编程、推理等多种任务类型；而对Qwen3.7-Plus-Preview的考察，则主要集中在视觉能力上。

从实际体验来看，这一代Qwen模型的响应速度更快、表达更直接，思考节奏也比前代模型显得更为果断。尤其在编程和视觉理解方面，能力的提升是能够被清晰感知到的。

一、4分钟解出IMO难题，还能写个能跑的EXE

在多个细分领域的排名中，Qwen3.7-Max-Preview的数学得分尤为突出。为了验证这一点，我们直接搬出了2025年国际数学奥林匹克（IMO）的一道难题来考它。

模型拿到题目后，进行了多轮分析和反复核验，最终给出了正确答案。整个过程耗时大约4分钟，思考速度相当不错。

目前Qwen只提供思维链总结，无法看到模型完整的思考过程。但从总结中可以发现，与之前的版本相比，Qwen3.7-Max-Preview似乎“自信”了不少，反复自我核查的环节有所减少。

它在编程任务上的表现也值得一看。不过，由于目前模型只能在网页端体验，我们暂时没有尝试过于复杂的开发任务。

第一个编程任务是让它生成一个番茄钟桌面应用，并直接打包成EXE文件。Qwen3.7-Max-Preview没有在思考环节过多停留，而是迅速投入开发，设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒和任务统计功能的应用。

模型坦言无法直接输出EXE文件，但提供了详细的打包指引。按照指引操作后，应用虽然成功打包，但首次运行时却无法正常启动。

在阅读了报错信息后，Qwen3.7-Max-Preview判断问题出在Tkinter底层（Tcl/Tk）在打包后不支持带透明度的十六进制颜色代码上。

修复这个问题后，桌面应用终于可以正常运行了，核心功能一切正常，只是界面设计略显粗糙。

用HTML输出内容近来成了AI圈的热点。于是，我们让Qwen3.7-Max-Preview设计一份AI社交媒体应用的产品需求文档，并要求直接输出为HTML网页。

接到任务后，它没有先输出文字版再转换，而是直接用HTML输出了全部内容。从结果看，这份产品需求文档结构完整，甚至还配上了产品原型设计。不过，在产品功能定义上似乎有些“大而全”，导致焦点不够突出。

我们还测试了其他类型的任务。在SVG图绘制上，Qwen3.7-Max-Preview顺利生成了一张动态的“鹈鹕骑自行车”图片，画面内容基本准确。

在通用推理任务中，它一眼就看穿了这道“海龟汤”谜题的答案，判断出女孩是红绿色盲，并且很可能不是父亲的亲生女儿。

二、有惊无险攻克视觉版“洗车店难题”，凭一张图复刻微信界面

接下来的测试，重点考察Qwen3.7-Plus-Preview的视觉能力。

第一个任务是道进阶版的“洗车店难题”。我们使用AI生成了一张卫星地图风格的图片，图中仅标注了两个地点之间的距离。

我们告诉模型，左侧地点是“我家”，右侧是“洗车店”，然后提问：如果要去洗车，应该走路还是开车？

从它的思考过程可以看出，模型准确地识别了图片中的文字和视觉信息，并评估了各种选项。有趣的是，在某个思考阶段，它甚至得出了“走路才是最合理高效方式”的结论，险些“掉坑”。

不过，它最终给出了正确答案：开车去洗车，然后走路回家，这样就不用浪费时间在店里干等。

此前在实测其他多模态模型时我们发现，如今的模型在“看图猜地点”上表现不俗。这次也让Qwen3.7-Plus-Preview试了试同样的题目。

看到图片后，模型首先通过建筑风格判断此处位于中国北方某大型城市，然后依据山脉形态推断远处的山属于燕山余脉。最终，它认为远处的山是军都山，并由此推测观察点位于昌平南邵。

这个判断其实是错的，但离正确答案已经非常接近。图中的山脉实际上是北京的凤凰岭，而观察地位于马池口镇，模型的猜测与实际地点相距不到10公里。

视觉能力还能与编程结合。我们随手截了一张微信的界面图，要求模型复刻出一个类似的网页版聊天工具。

执行过程中，尽管图片里没有明显的“微信”字样，但Qwen3.7-Plus-Preview通过UI风格等视觉元素，准确判断出这是微信，并据此规划了设计风格。

从最终的复刻效果来看，模型很好地把握了微信的设计特点，外观还原度相当高。当然，图中的按钮目前还无法实际点击使用。

结语：Qwen系列进入加速迭代期

今年以来，阿里Qwen系列模型的迭代速度明显加快。从2026年2月至今，阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型。相比之下，整个2025年，Qwen主要只发布了Qwen3和Qwen-Next两个大版本。

这种变化意味着，Qwen正在从过去以“大版本发布”为核心的节奏，转向一种更敏捷的开发模式。通过高频的预览版发布和能力增量更新，模型得以更快地进入真实场景接受检验，技术路线的演进也显得更加清晰和持续。

来源:https://www.163.com/dy/article/KTAVSN90051180F7.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：魏牌V9X混动MPV上市 34.98万元起搭载智能驾驶大模型下一篇：基于真实对话的模型性能评估实践 ShareGPT数据集Benchmark方法详解

相关攻略

阿里通义千问Qwen3.7实测评测国产大模型破解奥赛难题与图文识别

AI

阿里通义千问Qwen3.7实测评测国产大模型破解奥赛难题与图文识别

阿里发布Qwen3 7系列预览版模型。Qwen3 7-Max-Preview在大模型竞技场总榜位列第13，为当前国产模型最高排名，在数学等细分榜单表现突出。实测显示，该模型响应更快，在数学推理、编程及视觉任务上能力提升明显，能解答奥赛难题并生成应用。Qwen3 7-Plus-Preview在视觉榜单排名第16，展现出较强的图像理解与界面复刻能力。系列模型正转

热心网友

05.20

AI投资大赛落幕：中国模型全盈利，美国队亏损超62%

科技数码

AI投资大赛落幕：中国模型全盈利，美国队亏损超62%

11月4日消息，据媒体报道，由第三方机构Nof1于10月18日发起的AI大模型实时投资比赛“Alpha Arena”，历时17天，在今日落下帷幕。据了解，该项投资比赛集合Qwen3-Max、Deep

热心网友

11.30

阿里千问登顶全球冠军，空间推理能力超越Gemini3与GPT5

科技数码

阿里千问登顶全球冠军，空间推理能力超越Gemini3与GPT5

11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名，超越Gemini 3、GPT-5 1、Cl

热心网友

11.27

阿里千问登顶全球冠军，超越Gemini3与GPT5.1推理能力

科技数码

阿里千问登顶全球冠军，超越Gemini3与GPT5.1推理能力

11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2 5-VL位列头两名，超越Gemini 3、GPT-5 1、Cl

热心网友

11.26

阿里“千问”首周下载破千万，刷新AI应用增长纪录

科技数码

阿里“千问”首周下载破千万，刷新AI应用增长纪录

11月24日消息，今日，阿里巴巴宣布千问APP公测第一周即突破1000万下载。而这一速度也成功超越ChatGPT、Sora、DeepSeek，成为史上增长最快的AI应用。目前，千问App已支持多模态

热心网友

11.24

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全 2025-08-05

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全 2025-08-05

最新APP

宝宝过生日

宝宝过生日

应用辅助 04-07

台球世界

台球世界

体育竞技 04-07

解绳子

解绳子

休闲益智 04-07

骑兵冲突

骑兵冲突

棋牌策略 04-07

三国真龙传

三国真龙传

角色扮演 04-07

热门推荐

异人之下手游陆瑾连招技巧安卓版技能玩法教学

游戏攻略

异人之下手游陆瑾连招技巧安卓版技能玩法教学

陆瑾是《异人之下》手游中操作门槛较高的角色，主打中近距离压制。其核心在于普攻攒炁，并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守，成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判，形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机，分别用于破防与针。

热心网友

05.20

欧易投资策略指南：新手如何制定稳健的Web3投资计划

web3.0

欧易投资策略指南：新手如何制定稳健的Web3投资计划

投资策略需要明确目标与风险偏好，合理分配资金。通过研究项目基本面、关注市场周期与情绪，建立多元化组合。执行中需设定清晰的买卖规则，利用工具辅助决策，并保持长期视角与纪律性，避免情绪化操作。定期复盘与调整是策略持续有效的关键。

热心网友

05.20

异人之下手游巴伦技能强度解析与安卓实战教程

游戏攻略

异人之下手游巴伦技能强度解析与安卓实战教程

巴伦是《异人之下》手游中的近战压制型角色，核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅，“极速连斩”可追击倒地目标，“飞身十字固”抓取伤害高，“逆势突围”用于防守反击。角色操作上限高，需练习掌握连招循环，但对战远程角色时较为吃力。

热心网友

05.20

谷歌Gemini 3.5 Pro模型正式发布性能大幅提升下月上线

AI

谷歌Gemini 3.5 Pro模型正式发布性能大幅提升下月上线

谷歌宣布Gemini3 5Pro模型下月发布，已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布，更多信息将于下月揭晓。

热心网友

05.20

谷歌AI Ultra订阅计划上线每月100美元起享高级功能

AI

谷歌AI Ultra订阅计划上线每月100美元起享高级功能

谷歌在2026年I O大会上推出月费100美元的新AI订阅计划，旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队，提供比基础版更强的性能，同时避免企业级的高昂成本，以竞争中高端市场。

热心网友

05.20