美团开源可体验的“重思考”模型,经8次反复实测
新京报贝壳财经讯(记者陈维城)1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。团队介绍,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,达到开源模型SOTA(最先进的水平)水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
团队介绍,该模型在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。
新京报贝壳财经记者进入美团LongCat实测,选定“深度思考”模式,输入:“2010年冬季是冷冬还是暖冬?”页面显示,“接下来,我将以多种思考方式同时进行深度思考,每个 Thinker 将会独立给出一个回复,最终我会将这些回复整合成一个更全面的结论。”



页面显示了8个思考结果分析:2010年冬季应该是指2010年12月至2011年2月,Thinker #7提到“2009年12月至2010年2月”作为2010年冬季,这是错误的。根据国家气候中心的标准,冬季平均气温较常年偏低0.5℃以上才达到冷冬标准。Thinker #3和#8提出了不同观点,认为整体未达冷冬标准。

最后系统结论为,2010年冬季是一个“前冬暖、隆冬冷”的复合型冬季,在强拉尼娜事件影响下,冷空气活动频繁且强度强,尽管全国平均气温偏低幅度未 strictly 达到0.5℃标准,但综合极端天气事件和区域严寒特征,仍被权威机构判定为冷冬。这一现象体现了全球变暖背景下极端天气事件的复杂性。
记者输入“100字概括罗永浩的锤子科技倒闭原因?”系统分析显示,除了字数要求外,Thinker #1提到“内部动荡和战略摇摆”,Thinker #2提到“管理经验缺乏”,Thinker #3提到“融资困难”,Thinker #4强调“供应链”,Thinker #5提到“跨界创业”和“过度投入营销研发”,Thinker #6提到“营销成本失控”,Thinker #7提到“未能规模化盈利”,Thinker #8提到“缺乏商业运营敬畏心”和“依赖情怀”。

系统对比完8个思考后得出结论,“锤子科技倒闭核心是资金链断裂,深层原因为:产品定价过高致销量惨淡,过度重视设计与营销而忽视供应链管理与成本控制;市场竞争激烈,战略摇摆不定;创始人罗永浩的理想主义与商业现实脱节,跨界管理经验不足,最终难以为继。”


记者注意到,2025年春节前后,各大AI大模型逐步上线“深度思考”功能。目前,各大AI大模型的“深度思考”结果并非完全准确,以至于可能出现答非所问,产生虚幻结果。美团此次新模型支持“重思考”模式,相当于系统8次独立思考,再对结果进行复核。
对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。
此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞。
该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。
编辑 岳彩周
校对 穆祥桐
相关攻略
快科技3月30日消息,微软Windows Shell产品负责人Tali Roth在社交平台确认,Windows 11搜索功能将迎来大改进,重点解决搜索结果排序混乱、网页内容干扰本地结果、界面信息过载
3 月 30 日,一则来自 GitHub 社区的消息,瞬间引爆整个开发者圈子。蚂蚁集团旗下的 AI 安全实验室,近期对开源智能体框架 OpenClaw 进行了一次专项安全审计。在为期三天的检测中,团
3月24日,人民日报发文《“Token”中文名定了:词元》。文章指出,AI热潮中,一个概念的地位正在渐渐凸显——Token,它是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。在3
OpenClaw(又称 "龙虾 ")在技术社区快速走红后,随之而来的安全焦虑正在全面蔓延。作为一款开源AI智能体(AI Agent)框架,OpenClaw的核心目标是让用户拥有一个可以执行任务的私人AI
快科技3月30日消息,今日,腾讯公关总监张军宣布,企业微信CLI开源项目正式上架GitHub社区。该项目支持Claude Code、Codex、Work Buddy、QClaw等主流AI Agent
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





