游乐游手机版
首页/AI教程/文章详情

阿里发布最强AI思考模型 实测体验详解

时间:2026-06-06 17:19
Qwen3-Max-Thinking 实测:阿里这波操作,确实有点东西 昨晚正准备收工,阿里突然丢出一枚重磅冲击波:Qwen3-Max-Thinking 正式上线。作为国产模型阵营里的常青树,千问每次更新都值得好好看看。连夜爬起来实测了一轮,今天就把核心发现和真实体验摊开来聊聊。 这次 Ma
### Qwen3-Max-Thinking 实测:阿里这波操作,确实有点东西 昨晚正准备收工,阿里突然丢出一枚重磅冲击波:Qwen3-Max-Thinking 正式上线。作为国产模型阵营里的常青树,千问每次更新都值得好好看看。连夜爬起来实测了一轮,今天就把核心发现和真实体验摊开来聊聊。 这次 Max 系列走的是旗舰闭源路线,性能自然更强劲。官方宣称 Qwen3-Max-Thinking 在数学、代码和长逻辑推理上有了质的飞跃,甚至叫板 GPT-5.2 和 Gemini 3 Pro。更关键的是,Agent 能力大幅增强——能像真人一样边用工具边思考,而且幻觉更少。这要接入最近爆火的个人 AI 助手,简直绝配。 先说说这次更新的核心技术亮点,非常实用。 **1. 测试时扩展(Test-Time Scaling):从"人海战术"转向深度反思** 传统推理增强往往采用并行采样策略,即 Best-of-N,通过生成多条推理路径再投票或打分。这种方式虽然有效,但计算冗余极高,边际效应递减明显。Qwen3-Max-Thinking 采用了"经验累积式迭代"策略:通过"经验提取"机制,将上一轮推理中的关键洞见提炼出来,注入下一轮的上下文。这使得模型能在不增加 Token 消耗量级的情况下,通过自我反思修正错误,收敛至更优解。 简单来说,就好比有些模型解难题,是让 100 个普通学生同时做同一道题,然后看谁的答案对——人海战术,浪费资源且容易集体翻车。而 Qwen3-Max-Thinking 更像一个资深学霸:做题时会先打草稿,发现第一步思路不对,立刻总结教训,换个思路继续推导,直到解出答案。不是一直试错,而是在迭代。 **2. 自适应工具调用:原生 Agent 的肌肉记忆** 大多数模型的工具调用依赖提示词工程——告诉模型你有某某工具,能干什么,请使用它。Qwen3-Max-Thinking 则通过大规模的强化学习后训练,将工具调用内化为模型的原生能力。它不再需要显式的触发指令,而是基于对任务复杂度的感知,自主决策何时挂起推理、调用搜索获取实时信息、或调用 Python 解释器进行精确计算。这种边想边做的能力,大幅降低了幻觉,也进一步提升了解决真实世界复杂任务的能力。 **3. 极致的生态兼容:可丝滑接入 Claude Code** 这一点对开发者至关重要:Qwen3-Max-Thinking 不仅兼容 OpenAI 协议,更原生兼容了 Anthropic API 协议。这意味着它可以丝滑接入 Claude Code,只需修改 API 地址和 API Key。现在 Qwen3-Max-Thinking 可以在网页使用,也可以通过 API 使用。 接下来,老规矩,直接上实测。名字有点长,下文就用 Qwen 或 Qwen3 代替。 ### 1. 网文圈:《校花的贴身高手》 由于联网搜索已经自动整合进深度思考(由 Agent 自行判断是否需要联网),所以只需要打开深度思考即可。这是一部连载了十多年的网络小说,从初中到大学毕业,从乔布斯 iPhone 时代到 LLM 时代,无数人还在追更。书中剧情有一个关键节点:登上天阶岛。问 Qwen 是否能正确找到。 有意思的是,查看思维链,可以发现 Qwen3-Max-Thinking 会有意识地交叉对比不同结果,防止被干扰,并给出章节不同的原因和结论,让人感觉非常可靠。去 QQ 阅读 APP 核实了一下,答案是正确的。 接下来尝试让 Qwen3-Max-Thinking 用代码画个图,看看在超过 2000 万字的小说中找到主角实力晋升的曲线。在思维链中,它意识到两千万字还是太多了,这个任务无法完成,但基于意图,还是找到了具有代表性的章节和晋升节点,画了出来,完成了任务。 ### 2. (斩杀线热梗)逻辑陷阱 斩杀线最近非常火。给 Qwen3 造了一个逻辑陷阱,和豆包进行对比。问题很简单:"牢a是大a股买进去之后在坐牢吗"。Qwen3 完全正确,一下子就意识到这是一个人的网名,并告诉这是常见的误解。仔细看思维链,能发现 Qwen 搜索了 X 和 Facebook,而豆包似乎都没触发网络搜索。这局 Agent 能力又赢了。 ### 3. 和 Gemini 3 Pro 比较电影测评 考验在海量信息中搜索真相的能力。前两天《重返寂静岭》上映,第一时间去看了,没想到是烂片。剧情莫名其妙,前面两个女生一个在刷小红书,一个在玩微信小游戏。试试 AI 搜索到的结果是否符合真实体验。 先试了 Gemini 3:根本没提到最新上映的《重返寂静岭》,而且搜索结果似乎自相矛盾了,《阿凡达》同时出现在"值得一看"和"建议避雷"里。 再试 Qwen 3:交给 Agent 自动判断是否需要网络查询,所以只要打开深度思考就好。Qwen3-Max 的表现非常到位,和实际观影体验完全吻合——每一场都在电影院看过了,AI 的评价居然和自己一样。这些影评非常真实。 点开思维链仔细看,可以见到在 Qwen 3 内置 Agent 的调度下,一边搜索、整理,又搜索、又整理,经过几轮整理才有了最后的准确答案。并且思维链中可以逐一查看被搜索过的每一个影评网站,能点击进去浏览。把海量信息汇总并找到正确信息,确实不错。 ### 4. 记忆(功能上新,类似 ChatGPT 和 Gemini) 这次千问也终于有了记忆。点击头像,就能在设置里面打开或关闭记忆。做了一个场景预设测试:假如我是一个高考生,平时爱和 AI 聊自己喜欢的事情。那么到了高考报志愿的时候,Qwen 就能根据以往所有的聊天偏好,进行分析,找到最适合的专业。(新开一个聊天窗口进行测试)。不给任何上下文信息,直接问适合什么专业,Qwen 3 的回答是正确的。因为就是本人的真实经历,非常认同 AI 的判断。 ### 5. 视频总结(支持上传十分钟以内的视频) 大概十秒钟,总结很顺利,比以前快多了。查看思维链,可以见到一步步梳理脉络。 ### 6. 预测 26 年春晚,具身智能机器人表演到什么程度 时光匆匆又一年,年味渐浓。2026 年春晚,宇树科技将第三次登上春晚舞台。去年具身智能机器人表演的是《秧BOT》,今年又会进展如何?让 Qwen3 预测一下。到时候看预测得准不准,春晚就揭晓。 ### 7. 公务员真题图形推理题 纯图形题目对于只有文字输入的大模型来说是无解的。但这次 Qwen 3 Max 可以上传视频,来看看实力如何。这是一道公务员考试真题:如何判断一道好题——每个人看了答案都会觉得很简单,但让你自己在考场做,就是做不出来。这样的题目考验的正是公务员在为人民服务过程中办理实事、处置突变事项、临场判断的综合素质,而不是悠哉坐在办公室里的马后炮。正强如 Gemini 3 Pro 也做不出来,但 Qwen 3 Max 却做出来了。 点开思维链,看 Qwen 3 Max 如何思考:结构化思考完全就是一位真实的公务员考生——先是分析图形变化规律,再尝试推导逻辑关系,发现找不到规律后,返回上一层重新思考图形规律,最后找到正确思路。最后一句(注:)实为画龙点睛之笔。一年几百万公务员考生不断刷题、报班、看课,就是为了找到题型规律。而 Qwen 3 轻轻说出这一句,于无声处听惊雷,意味着已经完全把公务员考试的出题逻辑尽在掌握。 Gemini 3 Pro 思考了接近 4 分钟后,不仅被这道题目逼出母语英文,还给出了错误答案。一度接近正确思路,但不知为何突然开始混乱了,也许还没有懂得公务员考试的出题套路。 ### 代码类:会喷火的旋转六边形小球 代码能力似乎并没有那么完美。试了一下 GLM4.7 能顺利跑出来的 case,Qwen 3 还是有瑕疵。优点是,Qwen 3 自动帮我考虑到了可调节参数,能调节旋转速度、重置位置、暂停旋转等,下面还有参数显示。缺点是,明显还有缺陷——小球会喷火。 ### 写在最后 虽然 Qwen3-Max-Thinking 在代码场景下还有瑕疵,但整体表现还是非常不错的。特别是在逻辑推理、信息检索和中文语境的理解上,它给人的感觉非常扎实。不知道 Qwen 在春节还有没有什么压箱底的大招再放出来,可以一起期待一下。毕竟阿里的技术实力还是相当强劲的。
来源:https://juejin.cn/post/7602146335216549928
上一篇Cursor AI编辑器与SDD开发工作流实战指南 下一篇标题硬性要求:只输出一个标题,限60字符30汉字无多余内容
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南
AI教程 · 2026-06-06

阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南

先聊聊OpenClaw到底是什么,以及它为什么值得关注。作为阿里云推出的智能助理平台,OpenClaw基于通义千问大模型深度定制,目标很明确:为开发者、创作者、运营者提供一站式的AI赋能解决方案。下面直接切入正题,看看它的六大核心场景。 OpenClaw 智能助理:六大核心场景赋能开发者高效成长 O

Moltbot Clawdbot与飞书机器人接入实践
AI教程 · 2026-06-06

Moltbot Clawdbot与飞书机器人接入实践

简单认识一下 Clawdbot 最近 AI 圈被一款名为 Clawdbot 的产品刷屏了。不管是在国内技术社区,还是刷 TG、X 的时候,几乎都能看到有人在讨论它。 看了一下官方文档,Clawdbot 本质上就是一个偏“个人智能助手”的东西。不过它并不是单独开一个网页给我们用,而是可以直接接入我们平

SpringAI与ONNX打造免费离线向量引擎
AI教程 · 2026-06-06

SpringAI与ONNX打造免费离线向量引擎

前段时间尝试了一个很有意思的项目——原本只是想在 Spring AI 项目中顺手集成 ONNX 模型,结果一上手就停不下来,直接调试到凌晨两点,边调边感慨:整个过程也太丝滑流畅了。 今天就来深入聊聊这件事:如何在 Spring AI 中使用 ONNX 向量模型,实现本地化的文本嵌入能力。 如果你之前

AI智能体技能完全指南:让你的AI助手拥有超能力
AI教程 · 2026-06-06

AI智能体技能完全指南:让你的AI助手拥有超能力

引言:AI Agent 的能力边界在哪里?你的AI编程助手可以编写代码,但它是否真正理解你公司的独特工作流程?能否自动处理你的CI CD流水线?又是否熟悉你日常使用的那些特定工具与API接口?AI Agent Skills正是为解决这一痛点而诞生的——它们作为可复用的能力模块,能够将通用型AI助手转

AI编程神器狂揽34k星与Claude Code和Codex绝配
AI教程 · 2026-06-06

AI编程神器狂揽34k星与Claude Code和Codex绝配

CC Switch:一站式AI编程工具管理神器 今天要介绍的这款实用小工具,名字叫作CC Switch。它是一款跨平台的桌面“All-in-One”助手,专门用于管理主流的AI编程开发工具。目前该项目在GitHub上已经获得了34k+ star,关注度非常高。它的核心卖点很直接:提供一个可视化操作界