美团开源LongCat:优化长文本思维链推理
美团 LongCat 团队正式对外发布并开源全新模型 LongCat-Flash-Thinking-2601,同步公开模型权重、推理代码及在线交互体验服务。
据最新介绍,该模型是此前发布的 LongCat-Flash-Thinking 的全面升级版本,在 Agentic Search(智能体驱动搜索)、Agentic Tool Use(智能体化工具调用)以及 TIR(Tool Interaction Reasoning,工具交互推理)等关键评测任务上,均刷新开源模型的 SOTA(State-of-the-Art)记录。
尤为值得关注的是,LongCat-Flash-Thinking-2601 在工具调用任务中展现出极强的泛化性能,面对高度随机且结构复杂的工具依赖型任务时,其表现已超越 Claude;这显著降低了在真实业务场景中接入新工具所需的定制化训练成本。同时,它也是业内首个完整开源、并支持在线免费体验“重思考模式(Heavy Thinking Mode)”的模型——可同时激活 8 个独立推理单元并行运转,保障思考深度与决策稳健性。
其核心推理机制分为两个协同阶段:
- 并行思考阶段:模型同步生成多条逻辑独立、视角各异的推理路径,模拟人类面对复杂问题时“多角度试错”的思维习惯,并主动增强路径多样性,避免陷入局部最优;
- 总结归纳阶段:对前述多路结果进行交叉验证、逻辑精炼与结构整合,并将优化后的中间结论重新注入推理流程,形成闭环式迭代深化,持续逼近最优解。
项目团队还额外引入了面向“归纳总结能力”的强化学习训练策略,精准强化模型在信息整合、抽象提炼与策略生成方面的表现,真正实现“深思熟虑后再执行”。
综合评测数据显示,LongCat-Flash-Thinking-2601 在编程理解、数学推演、智能体工具调用与智能体搜索四大维度全面领跑:

- 编程能力:在 LCB 基准测试中斩获 82.8 分,OIBench EN 测试达 47.7 分,稳居当前开源模型第一梯队,代码生成质量与逻辑严谨性俱佳;
- 数学推理能力:启用重思考模式后优势凸显,在 AIME-25 测评中满分通关(100.0 分),IMO-AnswerBench 中以 86.8 分刷新现有开源模型最高分,达成 SOTA;
- 智能体工具调用能力:τ²-Bench 得分 88.2,VitaBench 达 29.3,两项指标均为当前开源模型最佳成绩,覆盖金融、医疗、运维等多领域工具链,实用性强;
- 智能体搜索能力:BrowseComp 任务得分 73.1(全模型最高),RW Search 评测获 79.5 分,展现出卓越的信息定位精度与跨场景泛化能力,达到开源领域领先水平。
源码地址:点击下载
热门专题
热门推荐
上海启动全球首颗光计算卫星研制,其天基光计算具备抗辐照、低功耗特性,适应太空环境,可支撑在轨大算力任务。目前芯片太空验证已完成,全链条研制能力基本形成。产业面临成本与规模化挑战,需重构航天制造体系。长三角已成立创新联合体聚焦七大技术攻坚,上海将天基计算列为未来。
苹果与OpenAI合作因商业回报未达预期出现裂痕。腾讯地图推出AI骑手模式优化配送。百度成立模型委员会强化AI布局。荣耀将发布搭载云台系统的RobotPhone。Anthropic拟以9000亿美元估值融资。阿里发布智能体开发工作台Qoder1 0。千问APP接入药监局数据。发那科与英伟达深化合作,利用AI加速机器人开发。
面对海量书籍资源,数字化管理工具至关重要。小满图书管理侧重会员与库存管理,适合书店。库存管理通轻量化,支持多货品进销存。藏书馆兼具藏书管理与数字阅读功能。移动图书馆对接高校资源,提供学术服务。个人图书馆专注个人知识收集与创作。各类软件功能各异,需根据核心需求选择。
英文朗读软件能有效辅助学习。推荐几款特色应用:全能型《朗读器》操作简便;《朗读者》结合翻译与朗读;《英文翻译》支持长文朗读;《朗读大师》擅长图像识别与发音反馈;《中英文翻译》提供系统化学习路径。根据需求选择工具并坚持练习,可提升理解与发音能力。
飞机是远距离出行的高效选择,提前购票可锁定行程并享受优惠。主流购票平台包括飞猪旅行、携程旅行、航班管家、美团、飞行卡和去哪儿旅行。这些应用不仅提供机票预订,还整合酒店、景点门票、本地生活等服务,满足用户对价格、一站式规划或特定优惠的不同需求。





