首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
美团开源首个“重思考”模型,可体验的工具调用能力登顶SOTA

美团开源首个“重思考”模型,可体验的工具调用能力登顶SOTA

热心网友
33
转载
2026-01-16

1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。

目前,该功能可在 https://longcat.ai 免费体验。

“重思考”功能全新上线 智能体工具调用能力登顶开源 SOTA

据介绍,全新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。

经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTALongCat-Flash-Thinking-2601的平均性能比较(资料图)

·编程能力:LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN 评测获47.7分,成绩处于同类模型第一梯队,代码基础能力扎实。

·数学推理能力:在开启“重思考”模式后表现突出,LongCat-Flash-Thinking-2601在 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。

·智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平,在多领域工具调用场景下表现优异,适配实际应用需求。

·智能体搜索能力:在BrowseComp任务中取得73.1分(全模型最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。

为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。

实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。

技术解密:从“靶场”到“实战”的训练哲学

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。

此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTA带噪声/无噪声评测集下的模型表现对比(资料图)

经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。

来源:https://www.leiphone.com/category/industrynews/UGppgq5WAxSJLrl7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团商家批量上架商品操作指南
业界动态
美团商家批量上架商品操作指南

对于在美团开店、需要管理海量商品的商家而言,手动逐一上架商品不仅效率低下、耗时费力,还极易出现信息错漏。那么,是否存在一种更高效、更精准的解决方案呢?答案是肯定的。借助RPA(机器人流程自动化)技术实现商品批量导入,能够将运营人员从重复性劳动中彻底解放,实现运营效率的指数级提升。本文将为您详细拆解美

热心网友
05.14
哈啰员工疑踩踏青桔美团单车 官方回应已启动内部调查
业界动态
哈啰员工疑踩踏青桔美团单车 官方回应已启动内部调查

近日,一张在社交网络广泛传播的照片,将共享单车行业再次推上舆论的风口浪尖。画面显示,多名人员聚集,身旁停放着哈啰共享单车,而更引发争议的是,有人用脚踩踏倒在地上的青桔单车和美团单车,一行人还集体比出“点赞”手势。这一系列不当行为迅速引发了广大网友的热议与批评。 事件发酵后,哈啰出行官方迅速作出回应。

热心网友
05.14
转转二手平台突围策略:如何在闲鱼与爱回收夹击中生存发展
业界动态
转转二手平台突围策略:如何在闲鱼与爱回收夹击中生存发展

在闲鱼主打“社区感”、爱回收押注“标准化”的夹击下,转转如何找到自己的生存空间?这不仅是一场平台间的流量争夺,更是一次关于用户认知、交易信任与服务效率的系统博弈。本文将拆解转转的突围路径,探讨其如何在“非标”与“标准”之间走出第三条路。 上月底,转转以一纸公告,为自己长达九年的C2C探索画上了句号。

热心网友
05.13
哈啰员工踩踏共享单车引争议 公司回应已处理涉事人员
业界动态
哈啰员工踩踏共享单车引争议 公司回应已处理涉事人员

近日,一张据称为哈啰员工聚会现场的照片在社交平台引发热议。照片显示,多名人员骑行哈啰共享单车,其中有人用脚踩踏倒在地上的青桔与美团单车,随后众人集体竖起大拇指。该行为经网络传播后,迅速引发公众讨论与批评。 随着事件发酵,哈啰官方迅速作出回应。公司声明指出,网传照片中的行为严重违背哈啰一贯倡导的价值观

热心网友
05.12
美团科技新公司落户青海拓展西北市场布局
科技数码
美团科技新公司落户青海拓展西北市场布局

近日,企查查平台更新的一则企业注册信息引发了行业关注。一家名为青海三快科技有限公司的新公司在青海正式成立。根据公开的工商资料,该公司的经营范围广泛,主要包括信息系统集成服务、各类软件开发与销售,以及技术开发、技术咨询、技术转让等综合性技术服务。 更值得关注的是其背后的资本关系。通过企查查的股权穿透图

热心网友
05.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14