美团开源LongCat:优化长文本思维链推理
美团 LongCat 团队正式对外发布并开源全新模型 LongCat-Flash-Thinking-2601,同步公开模型权重、推理代码及在线交互体验服务。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据最新介绍,该模型是此前发布的 LongCat-Flash-Thinking 的全面升级版本,在 Agentic Search(智能体驱动搜索)、Agentic Tool Use(智能体化工具调用)以及 TIR(Tool Interaction Reasoning,工具交互推理)等关键评测任务上,均刷新开源模型的 SOTA(State-of-the-Art)记录。
尤为值得关注的是,LongCat-Flash-Thinking-2601 在工具调用任务中展现出极强的泛化性能,面对高度随机且结构复杂的工具依赖型任务时,其表现已超越 Claude;这显著降低了在真实业务场景中接入新工具所需的定制化训练成本。同时,它也是业内首个完整开源、并支持在线免费体验“重思考模式(Heavy Thinking Mode)”的模型——可同时激活 8 个独立推理单元并行运转,保障思考深度与决策稳健性。
其核心推理机制分为两个协同阶段:
- 并行思考阶段:模型同步生成多条逻辑独立、视角各异的推理路径,模拟人类面对复杂问题时“多角度试错”的思维习惯,并主动增强路径多样性,避免陷入局部最优;
- 总结归纳阶段:对前述多路结果进行交叉验证、逻辑精炼与结构整合,并将优化后的中间结论重新注入推理流程,形成闭环式迭代深化,持续逼近最优解。
项目团队还额外引入了面向“归纳总结能力”的强化学习训练策略,精准强化模型在信息整合、抽象提炼与策略生成方面的表现,真正实现“深思熟虑后再执行”。
综合评测数据显示,LongCat-Flash-Thinking-2601 在编程理解、数学推演、智能体工具调用与智能体搜索四大维度全面领跑:

- 编程能力:在 LCB 基准测试中斩获 82.8 分,OIBench EN 测试达 47.7 分,稳居当前开源模型第一梯队,代码生成质量与逻辑严谨性俱佳;
- 数学推理能力:启用重思考模式后优势凸显,在 AIME-25 测评中满分通关(100.0 分),IMO-AnswerBench 中以 86.8 分刷新现有开源模型最高分,达成 SOTA;
- 智能体工具调用能力:τ²-Bench 得分 88.2,VitaBench 达 29.3,两项指标均为当前开源模型最佳成绩,覆盖金融、医疗、运维等多领域工具链,实用性强;
- 智能体搜索能力:BrowseComp 任务得分 73.1(全模型最高),RW Search 评测获 79.5 分,展现出卓越的信息定位精度与跨场景泛化能力,达到开源领域领先水平。
源码地址:点击下载
热门专题
热门推荐
在明日方舟终末地中,小陈剧情的开启需要满足一定条件并完成特定任务。首先,要确保玩家已经达到一定的游戏进度。这包括推进主线剧情到一定阶段,解锁了相应的区域和功能。随着主线剧情的推进,
前言《逐玉》大结局落幕那晚,我盯着屏幕良久,胸口像压了块浸水的棉絮,沉闷得喘不过气。从首播时满怀热望地守在更新页面,到中期边看边叹气、反复暂停找逻辑漏洞,再到最后几集干脆调成倍速、只为“完成任务”式
3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动
蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线
在网络信息爆炸的时代,一款好用的浏览器能为我们带来便捷与丰富的体验。悟空浏览器网页版正式版入口,成为众多用户探索网络精彩的关键通道。悟空浏览器以其简洁界面和强大功能吸引着广大用户。





