Gemini 3模型深度评测：全方位解答你的核心疑问

时间：2026-01-28 13:01

作者｜ Yoky邮箱｜ yokyliu@pingwest com第一个国产版Gemini3，来了。1月26日，阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。据介绍，Qwe

作者｜ Yoky
邮箱｜ yokyliu@pingwest.com

第一个国产版Gemini3，来了。

1月26日，阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。

据介绍，Qwen3-Max-Thinking总参数超万亿、预训练数据量高达36T Tokens，在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项权威评测中刷新了全球纪录。它在数学推理AIME 25和HMMT 25上拿到了国内首个双满分，甚至在“人类最后的测试”HLE中得分58.3，大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。

更关键的是时间点。如果你最近关注AI圈，会发现各家大模型厂商都在憋大招，阿里抢在这个节骨眼上发布Qwen3-Max-Thinking，摆明了就是要抢“国产第一个Gemini 3”的名号。

榜单数据再好看，到底能不能媲美Gemini3？

试了几次Qwen生成代码，前几次任务失败率还挺高的，但只要碰到阿里擅长的场景，表现就完全不一样。比如让它做一个卖水果的电商，商品分类、加购物车、一起结算这些功能，基本一次就写出来了，而且逻辑很完整，体验也流畅。很明显，电商这种场景它见得太多了，淘宝天猫的数据喂得够饱，所以做起来特别顺手。

但换成其他类型的任务，成功率就不太稳定了。如果你的需求正好在它的舒适区里，那体验确实要相对好；如果偏离了，可能得多试几次调整提示词。

我还专门测试了一个更复杂的交互案例：用摄像头做体感控制的打气球游戏，这也是Gemini 3展示过的经典demo。具体需求是：用手势控制屏幕上的准星，做捏合动作(拇指和食指并拢)来射击从下往上飘的气球，还要有天空背景、云层漂移、击中特效、连击反馈这些细节。

千问的表现让我有点意外。整个游戏的框架它一次就搭出来了：天空渐变背景、气球从底部生成往上飘、大小不同速度不同、UI显示分数和连击数，这些基础逻辑都没问题。

交互效果做得挺有意思。伸出食指，屏幕上的准星就会跟着手移动，拇指和食指捏合就能开火。击中气球的瞬间，屏幕会轻微震动，气球爆开时有粒子特效散开，还有“啵”的一声音效，反馈感做得很足。连续击中会显示combo数字，这种即时反馈确实有代入感。

但实际玩起来有个明显的问题：瞄不准。手指明明对着一个气球，但准星位置总是偏的，打了好几发才能碰巧打中。这应该是手部追踪和屏幕坐标映射之间有偏差，或者校准算法不够精确。虽然Qwen做出了体感控制的完整流程：摄像头调用、手势识别、射击反馈这些环节都跑通了，但核心的“指哪打哪”这个精度没做好，导致游戏性打了折扣。

不过，千问这次最厉害的地方，不是参数有多大，而是它“想问题”的方式变了。在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展（Test-time Scaling）机制，推理性能提升的同时还更经济。

打个比方，以前的AI做数学题是这样的：同时写10份答案，然后投票看哪个对的人多，就选哪个。这种方法很笨，浪费算力，而且10份答案里可能犯的都是同一个错误。

Qwen3改成了人类的做法：先做一遍，做完看看哪里不对，总结一下经验，再重新做。就像你做错题本一样，第二遍肯定比第一遍做得好。结果就是，在那个需要用工具解决问题的测试里，Qwen拿了58.3分，Gemini只有45.8分，差了一大截。

在调用工具层面，千问的做法是把工具使用能力“训练进”模型里，在完成初步的工具使用微调后，通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练，使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

它用三步训练法：先教会用工具，再在各种任务里强化练习，最后形成条件反射。好处很明显：用起来又快又顺，不用每次都去读工具说明书，而且模型自己知道该在什么时候用什么工具。这就是为什么Qwen在HLE测试里比Gemini高出12分，特别是需要连续用好几个工具解决复杂问题的时候，这种“肌肉记忆”优势就体现出来了。

对比之下，Gemini走的是传统软件工程的路子：模型只负责理解你要干什么，具体调工具靠外部API框架。这样做最大的好处是灵活：Google想接入沃尔玛的购物功能，不用重新训练模型，插个API就行。但代价是每次用工具都要走“理解意图—翻译成API调用—执行—解析结果”这一整套流程，慢而且容易出错。

千问的代码生成能力，已超越单纯的“语法翻译器”，更像一位理解你意图的技术伙伴。它不仅能将需求转化为可运行的代码，更具备工程直觉：知道何时优化性能、何时简化实现、何时添加容错机制。

这种“度”的把握，恰恰是AI从“工具”走向“协作者”的关键跃迁。

点个“爱心”，再走吧

来源：https://www.163.com/dy/article/KKBTSFSF0511N33R.html

调用气球算法代码编程千问正式版模型 gemini

上一篇腾讯如何将AI融入群聊，重构社交体验 下一篇研究发现：天然分子或可延缓认知衰老，保持大脑年轻

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争，正步入一个全新的发展阶段。近日，宇树科技正式发布了其WVLA2 0具身大模型，并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号：当前这场竞赛的核心壁垒，或许已不再是谁拥有更大的模型参数，而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间，将精灵G2机器人直接部署到真实的平板量产质检产线，并全程公开直播后，交出的最具说服力的答案。让我们关注这场直播的硬核数据：连续64小时不间断作业，产线累计完成17625件产品检测，机器人累计执行64828次操作，任务成功率精确达到

科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后，仅过了一周时间，这款全新纯电SUV便驶入中国专业赛道场景——这一次，地点换成了永久性专业赛道。回顾2026年北京车展，保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后，志愿填报这场“第二次大考”随即全面开启。对众多家庭而言，这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多，每一步都如履薄冰。教育部近日发布预警，严厉批评那些漫天要价的“志愿规划师”，直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜，网上信息真假混杂，不同机构给出的

科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来，伴随新能源汽车产业的爆发式增长，早期投入使用的动力电池正迎来集中退役高峰，锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂，正从地下矿藏逐渐转向我们身边的“城市矿山”，从“一次性使用”的线性消耗模式，迈向“循环再生”的可持