美团开源LongCat：优化长文本思维链推理

时间：2026-01-16 18:49

美团 LongCat 团队正式对外发布并开源全新模型 LongCat-Flash-Thinking-2601，同步公开模型权重、推理代码及在线交互体验服务。据最新介绍，该模型是此前

美团 LongCat 团队正式对外发布并开源全新模型 LongCat-Flash-Thinking-2601，同步公开模型权重、推理代码及在线交互体验服务。

据最新介绍，该模型是此前发布的 LongCat-Flash-Thinking 的全面升级版本，在 Agentic Search（智能体驱动搜索）、Agentic Tool Use（智能体化工具调用）以及 TIR（Tool Interaction Reasoning，工具交互推理）等关键评测任务上，均刷新开源模型的 SOTA（State-of-the-Art）记录。

尤为值得关注的是，LongCat-Flash-Thinking-2601 在工具调用任务中展现出极强的泛化性能，面对高度随机且结构复杂的工具依赖型任务时，其表现已超越 Claude；这显著降低了在真实业务场景中接入新工具所需的定制化训练成本。同时，它也是业内首个完整开源、并支持在线免费体验“重思考模式（Heavy Thinking Mode）”的模型——可同时激活 8 个独立推理单元并行运转，保障思考深度与决策稳健性。

其核心推理机制分为两个协同阶段：

并行思考阶段：模型同步生成多条逻辑独立、视角各异的推理路径，模拟人类面对复杂问题时“多角度试错”的思维习惯，并主动增强路径多样性，避免陷入局部最优；
总结归纳阶段：对前述多路结果进行交叉验证、逻辑精炼与结构整合，并将优化后的中间结论重新注入推理流程，形成闭环式迭代深化，持续逼近最优解。

项目团队还额外引入了面向“归纳总结能力”的强化学习训练策略，精准强化模型在信息整合、抽象提炼与策略生成方面的表现，真正实现“深思熟虑后再执行”。

综合评测数据显示，LongCat-Flash-Thinking-2601 在编程理解、数学推演、智能体工具调用与智能体搜索四大维度全面领跑：

美团开源 LongCat-Flash-Thinking-2601

编程能力：在 LCB 基准测试中斩获 82.8 分，OIBench EN 测试达 47.7 分，稳居当前开源模型第一梯队，代码生成质量与逻辑严谨性俱佳；
数学推理能力：启用重思考模式后优势凸显，在 AIME-25 测评中满分通关（100.0 分），IMO-AnswerBench 中以 86.8 分刷新现有开源模型最高分，达成 SOTA；
智能体工具调用能力：τ²-Bench 得分 88.2，VitaBench 达 29.3，两项指标均为当前开源模型最佳成绩，覆盖金融、医疗、运维等多领域工具链，实用性强；
智能体搜索能力：BrowseComp 任务得分 73.1（全模型最高），RW Search 评测获 79.5 分，展现出卓越的信息定位精度与跨场景泛化能力，达到开源领域领先水平。

源码地址：点击下载

来源：https://www.php.cn/faq/1990424.html?uid=1246273

上一篇雷蛇发布逃离塔科夫联名键鼠，套装售价2299元 下一篇内存选购避坑指南：看清颗粒关键参数

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。