首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
美团开源可体验的“重思考”模型,经8次反复实测

美团开源可体验的“重思考”模型,经8次反复实测

热心网友
89
转载
2026-01-17

新京报贝壳财经讯(记者陈维城)1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。团队介绍,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,达到开源模型SOTA(最先进的水平)水平。

团队介绍,该模型在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。

新京报贝壳财经记者进入美团LongCat实测,选定“深度思考”模式,输入:“2010年冬季是冷冬还是暖冬?”页面显示,“接下来,我将以多种思考方式同时进行深度思考,每个 Thinker 将会独立给出一个回复,最终我会将这些回复整合成一个更全面的结论。”




页面显示了8个思考结果分析:2010年冬季应该是指2010年12月至2011年2月,Thinker #7提到“2009年12月至2010年2月”作为2010年冬季,这是错误的。根据国家气候中心的标准,冬季平均气温较常年偏低0.5℃以上才达到冷冬标准。Thinker #3和#8提出了不同观点,认为整体未达冷冬标准。


最后系统结论为,2010年冬季是一个“前冬暖、隆冬冷”的复合型冬季,在强拉尼娜事件影响下,冷空气活动频繁且强度强,尽管全国平均气温偏低幅度未 strictly 达到0.5℃标准,但综合极端天气事件和区域严寒特征,仍被权威机构判定为冷冬。这一现象体现了全球变暖背景下极端天气事件的复杂性。

记者输入“100字概括罗永浩的锤子科技倒闭原因?”系统分析显示,除了字数要求外,Thinker #1提到“内部动荡和战略摇摆”,Thinker #2提到“管理经验缺乏”,Thinker #3提到“融资困难”,Thinker #4强调“供应链”,Thinker #5提到“跨界创业”和“过度投入营销研发”,Thinker #6提到“营销成本失控”,Thinker #7提到“未能规模化盈利”,Thinker #8提到“缺乏商业运营敬畏心”和“依赖情怀”。


系统对比完8个思考后得出结论,“锤子科技倒闭核心是资金链断裂,深层原因为:产品定价过高致销量惨淡,过度重视设计与营销而忽视供应链管理与成本控制;市场竞争激烈,战略摇摆不定;创始人罗永浩的理想主义与商业现实脱节,跨界管理经验不足,最终难以为继。”



记者注意到,2025年春节前后,各大AI大模型逐步上线“深度思考”功能。目前,各大AI大模型的“深度思考”结果并非完全准确,以至于可能出现答非所问,产生虚幻结果。美团此次新模型支持“重思考”模式,相当于系统8次独立思考,再对结果进行复核。

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

编辑 岳彩周

校对 穆祥桐

来源:https://www.163.com/dy/article/KJE46ATP055284JB.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

对话特赞范凌AI时代如何告别过去拥抱变革
AI资讯
对话特赞范凌AI时代如何告别过去拥抱变革

当AI能力成为通用基础设施,企业真正的核心竞争力是什么? “我不知道AI这艘船上有多少船票,但我知道,上船最重要。”特赞科技创始人兼CEO范凌的这句话,精准击中了当下企业决策者的核心焦虑。这并非源于短期的市场压力,而是一种关乎未来生存的深层紧迫感——在一个马太效应被AI技术急剧放大的商业时代,错失先

热心网友
05.20
开源Jiuwen打造自演进多智能体原生操作系统
AI资讯
开源Jiuwen打造自演进多智能体原生操作系统

近期,AI智能体领域的一个开源项目openJiuwen引发了广泛关注。该项目接连获得Tech in Asia与MarkTechPost等权威海外科技媒体的深度报道,前者重点解析了其架构设计,后者则深入探讨了基于它构建的JiuwenClaw智能体的自演进能力。这波来自国际技术社区的关注,标志着其创新的

热心网友
05.20
内测码为何成为UP主圈内热门资源
AI资讯
内测码为何成为UP主圈内热门资源

最近,一款名为updream的AI视频创作产品,在专业创作者的小圈子里引发了不小的讨论。它在前不久的B站首届AI创作大赛颁奖活动上首次亮相,随即在各大创作者社群中掀起了一股“求内测码”的热潮。一款尚未正式发布的产品,能让这群早已阅“AI神器”无数的老手们主动排队,这本身就值得玩味。 当然,updre

热心网友
05.20
Coding Agent 底层运行逻辑深度解析与工作原理
AI资讯
Coding Agent 底层运行逻辑深度解析与工作原理

在人工智能领域,我们正见证着一个激动人心的范式转变。过去,构建一个强大的AI系统往往意味着需要“从头开始”训练一个庞大的模型,这个过程不仅耗费巨量的计算资源和数据,而且周期漫长。但现在,一种更高效、更灵活的策略正在成为主流:基于现有的、能力强大的基础模型,通过“微调”来快速适配特定任务或领域。 这就

热心网友
05.20
爆火AI框架Hermes Agent两月斩获4.7万星是下一个风口吗
AI资讯
爆火AI框架Hermes Agent两月斩获4.7万星是下一个风口吗

以「自进化」重构 Agent 体验。 最近几周,开源社区的目光被一个名为 Hermes Agent 的项目牢牢吸引。它在 X 和 GitHub 上迅速走红,热度堪称现象级。 从2月底开源首月斩获2 2万星,到4月8日发布v0 8 0版本后单日新增超过6400星,Hermes Agent在不到两个月的

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Cursor AI代码编辑器:智能编程工具的功能与使用指南
AI教程
Cursor AI代码编辑器:智能编程工具的功能与使用指南

在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器

热心网友
05.23
美图WHEE-WHEE AI视觉创作工具使用指南与功能详解
AI教程
美图WHEE-WHEE AI视觉创作工具使用指南与功能详解

在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入

热心网友
05.23
NightCafe Creator AI艺术生成器:手机创作数字绘画
AI教程
NightCafe Creator AI艺术生成器:手机创作数字绘画

在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C

热心网友
05.23
加密市场恐慌蔓延 比特币以太坊为何领跌山寨币
web3.0
加密市场恐慌蔓延 比特币以太坊为何领跌山寨币

近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论

热心网友
05.23
蔡司6月2日发布新品镜头技术迎来重大突破
科技数码
蔡司6月2日发布新品镜头技术迎来重大突破

蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。

热心网友
05.23