阿里Qwen3-Max思考版预览:数学满分背后竟是token消耗大户
在2025年AIME数学竞赛中,该模型以满分成绩通过测试,其解题过程展现出独特的验证机制。面对压轴题时,系统不仅反复核对答案准确性,还主动调用代码解释器从多角度论证结果。整个推理过程持续了4-5分钟,消耗1.2万至1.5万个token,这种深度思考模式与传统模型形成显著差异。
编程任务测试环节,模型在开发开源项目分享功能的HTML原型时,虽然生成了1417行代码,但页面设计完全符合功能需求。对比测试显示,DeepSeek-V3.2完成相同任务仅需787行代码,这种差异反映出Qwen3-Max-Thinking在代码优化方面仍有提升空间。不过其输出的网页结构清晰,基础功能完整,仅在样式细节上略显不足。
该模型在常识推理测试中同样表现优异,能够准确识别逻辑陷阱。测试人员发现,其回复风格简洁直接,完全聚焦问题核心,这种"去人性化"的交互方式在商务场景中颇具优势。有用户评价称,模型的回复风格更接近专业顾问,避免了情感化表达可能带来的干扰。
目前用户可通过Qwen Chat和阿里云API体验该模型,但需注意其仅支持文本到文本的单一模态。API服务采用限时免费策略,用户可在1024至81920个token的思考预算范围内自主调节,这种设计既控制了计算成本,又保证了推理深度。测试显示,复杂任务消耗的token数量明显高于常规模型,这可能成为大规模应用的主要限制因素。
行业观察者指出,Qwen3-Max-Thinking的定位可能更偏向专业领域,其强大的推理能力在科研、金融分析等场景具有应用潜力。虽然尚未公布完整基准测试结果,但现有表现已引发广泛期待。社交媒体上,用户纷纷询问模型开源时间,特别是能否登陆Hugging Face平台,反映出开发者社区的高度关注。
这款模型作为Qwen3系列的新成员,延续了阿里在大模型领域的技术积累。此前发布的Qwen3系列最大模型参数量已突破万亿规模,此次推理专项模型的推出,标志着阿里在AI技术布局上更加精细化。随着训练进程推进,后续版本有望在效率优化和场景适配方面带来更多突破。
热门专题
热门推荐
在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。
2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了
充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A
获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。
小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不





