美团首个开源“重思考”模型:工具调用能力登顶开源SOTA
1月16日消息,美团旗下的LongCat团队今天正式发布了开源的LongCat-Flash-Thinking-2601模型。
根据美团团队的介绍,作为LongCat-Flash-Thinking模型的升级版本,LongCat-Flash-Thinking-2601在智能体搜索、工具调用以及工具交互推理等核心评测基准上,均达到了当前开源模型的领先水平。

美团方面表示,该模型尤其在工具调用方面展现出卓越的泛化能力,在依赖于工具调用的随机复杂任务中,其性能超越了Claude,能够显著降低真实场景下适配新工具的专项训练成本。同时,它也是首个完整开源并支持在线免费体验“深度思考模式”的模型,能够启动多个推理线程并行运转,确保思考周全、决策可靠。
得益于全面升级的“深度思考”模式,当遇到高难度问题时,模型会把思考过程拆分为并行思考和总结归纳两步来完成:
在并行思考阶段,模型会同时独立梳理出多条推理路径,就像人面对难题时会琢磨不同解法一样,还会特意保证思路的多样性,以免遗漏最优方案。而在总结归纳阶段,它会对多条路径进行梳理、优化与整合,并将优化结果重新输入,形成闭环迭代推理,持续推动思考深化。
除此之外,美团还专门设计了额外的强化学习环节,有针对性地打磨模型的总结归纳能力,让LongCat-Flash-Thinking-2601真正实现“想清楚再行动”。

美团表示,经过全面严谨的评估显示,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用以及智能体搜索等维度的表现全面领先:
编程能力方面:LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN评测获得47.7分,成绩处于同类模型第一梯队,展现出扎实的代码基础能力。数学推理能力:在开启深度思考模式后表现突出,LongCat-Flash-Thinking-2601在AIME-25评测中获得满分,IMO-AnswerBench中则以86.8分达到当前先进水平。智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源领域的领先水准,在多领域工具调用场景下表现优异,适配实际应用需求。智能体搜索能力:在BrowseComp任务中取得73.1分,RW Search评测获79.5分,LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。
同时,为了更好地测试智能体模型的泛化能力,美团还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境。
由于这类环境中的工具配置具有高度随机性,美团通过评估模型在该类环境中的性能表现,来衡量其泛化能力。实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。
最新开源地址为:
GitHub,Hugging Face,ModelScope,API开放平台以及正式站点。
相关攻略
当AI能力成为通用基础设施,企业真正的核心竞争力是什么? “我不知道AI这艘船上有多少船票,但我知道,上船最重要。”特赞科技创始人兼CEO范凌的这句话,精准击中了当下企业决策者的核心焦虑。这并非源于短期的市场压力,而是一种关乎未来生存的深层紧迫感——在一个马太效应被AI技术急剧放大的商业时代,错失先
近期,AI智能体领域的一个开源项目openJiuwen引发了广泛关注。该项目接连获得Tech in Asia与MarkTechPost等权威海外科技媒体的深度报道,前者重点解析了其架构设计,后者则深入探讨了基于它构建的JiuwenClaw智能体的自演进能力。这波来自国际技术社区的关注,标志着其创新的
最近,一款名为updream的AI视频创作产品,在专业创作者的小圈子里引发了不小的讨论。它在前不久的B站首届AI创作大赛颁奖活动上首次亮相,随即在各大创作者社群中掀起了一股“求内测码”的热潮。一款尚未正式发布的产品,能让这群早已阅“AI神器”无数的老手们主动排队,这本身就值得玩味。 当然,updre
在人工智能领域,我们正见证着一个激动人心的范式转变。过去,构建一个强大的AI系统往往意味着需要“从头开始”训练一个庞大的模型,这个过程不仅耗费巨量的计算资源和数据,而且周期漫长。但现在,一种更高效、更灵活的策略正在成为主流:基于现有的、能力强大的基础模型,通过“微调”来快速适配特定任务或领域。 这就
以「自进化」重构 Agent 体验。 最近几周,开源社区的目光被一个名为 Hermes Agent 的项目牢牢吸引。它在 X 和 GitHub 上迅速走红,热度堪称现象级。 从2月底开源首月斩获2 2万星,到4月8日发布v0 8 0版本后单日新增超过6400星,Hermes Agent在不到两个月的
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





