首页 游戏 软件 资讯 排行榜 专题
首页
AI
美团推出LongCat推理模型,性能突破SOTA标准

美团推出LongCat推理模型,性能突破SOTA标准

热心网友
42
转载
2025-09-23

9月22日,美团LongCat团队正式推出革命性的推理模型LongCat-Flash-Thinking。这款全新模型在延续LongCat-Flash-Chat极速性能的基础上,实现了专业能力的全面升级。测试结果表明,在逻辑推理、数学解题、编程开发、智能体协作等核心领域,其表现均已突破开源模型的天花板,跃居全球顶尖水准。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

突破性技术创新带来质的飞跃

领域并行强化学习训练体系:团队开发的这套创新训练框架巧妙解决了混合领域训练的稳定性难题。通过将STEM学科、编程开发、智能体任务等专项能力解耦训练,再采用多领域能力融合策略,最终实现模型整体性能的帕累托最优平衡。

\

▲ 图 1:LongCat-Flash-Thinking 的训练流程

DORA异步训练系统:这套革命性的异步弹性共卡系统采用创新的弹性调度机制与多版本流水线设计,不仅训练速度较传统同步框架提升3倍,还确保了策略执行的严格一致。系统支持万级显卡集群稳定运行,其卓越的KV缓存复用技术大幅提升了算力利用率。值得注意的是,在模型强化学习阶段,其计算资源投入仅为预训练阶段的20%,真正实现了"小投入、大产出"。

多项性能测试领跑行业

在最新发布的各项基准测试中,LongCat-Flash-Thinking表现惊艳:

  • 通用推理能力:ARC-AGI测试得分50.3分,力压OpenAI o3和Gemini2.5 Pro等商业闭源产品
  • 数学推理:HMMT和AIME测试中与Qwen3-235B等顶尖模型比肩
  • 编程能力:LiveCodeBench测试79.4分,达到与GPT-5同级别水准

▲ 图 2:在推理基准测试上的平均性能比较

资源获取方式

模型已全面开源:

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
  • Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking
来源:https://www.ithome.com/0/884/801.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2025年美国财报分析:AI与国际化成3649亿营收两大引擎
科技数码
2025年美国财报分析:AI与国际化成3649亿营收两大引擎

3月26日,美团发布2025年第四季度及全年业绩报告,公司全年实现收入3649亿元,同比增长8%。受即时零售行业“内卷式”竞争影响,美团全年业绩由盈转亏,净亏损234亿元、经营亏损170亿元,其中核

热心网友
04.01
2026美团放心外卖行动:AI智能巡检,线下多方共治新升级
科技数码
2026美团放心外卖行动:AI智能巡检,线下多方共治新升级

3月31日,美团升级2026年“放心外卖”行动,在既有食安治理体系上进一步加码:线上以AI强化资质核验和后厨巡检,构建更透明的食安信息展示体系;线下引入骑手、消费者参与监督,探索更主动的社会共治机制

热心网友
03.31
宇树IPO启示:美团硬科技与本地生活如何借力“朋友圈”
AI
宇树IPO启示:美团硬科技与本地生活如何借力“朋友圈”

如今,芯片半导体、AI大模型、具身智能等硬科技赛道热度高涨,相关初创企业从不缺曝光和资金。如果多个细分赛道的头部玩家都选择了同一个投资方,那大概率不是钱的问题。宇树申请IPO的热度,把背后持股接近1

热心网友
03.31
美团探索AI物理世界:新科技赛点的深层赋能
科技数码
美团探索AI物理世界:新科技赛点的深层赋能

文 | 窄播,作者 | 李威美团AI战略开始暴露出更明确的进攻意图,要成为生活服务领域的「AI全案服务商」。去年3月的财报会上,美团CEO王兴就在强调,当AI这样革命性的事物到来时,唯一合理的策略,

热心网友
03.31
美团外卖市场占六成,最小亏损守住份额一周年
科技数码
美团外卖市场占六成,最小亏损守住份额一周年

封面新闻记者 孟梅 易弋力中国互联网的发展史,几乎就是一部持续不断的补贴大战史。从电商到打车,再到外卖,每一轮补贴大战,都是玩家们砸下重金,争夺新时代消费行为的主导权与分配权。而2025年的外卖大战

热心网友
03.30

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

告别网页套壳 微软宣布Win11应用全面原生重构
游戏资讯
告别网页套壳 微软宣布Win11应用全面原生重构

微软战略转向:Win11内置应用将全面重构,告别网页套壳以提升性能 你是否感觉Windows 11某些应用响应迟缓,或是内存占用异常偏高?最新消息或许值得关注。据官方透露,微软正调整其应用开发战略,将逐步减少对网页技术的依赖,转而启动大规模原生应用重构计划。这一重大决策,标志着此前推广的“网页化”开

热心网友
04.01
《红色沙漠》全支线任务攻略分享
游戏攻略
《红色沙漠》全支线任务攻略分享

《红色沙漠》全支线任务图文攻略与深度解析 在开放世界大作《红色沙漠》中,丰富多样的支线任务是游戏体验不可或缺的一环。许多玩家初次接触时,可能会对任务系统感到困惑。实际上,每个支线都有其独特的设计思路与完成技巧。例如任务“图尔纳里的请求”,其核心玩法侧重于资源收集与体力劳动,你需要按照指示完成特定的伐

热心网友
04.01
四重防护也白搭!《EA Sports FC 26》D加密被破解
游戏资讯
四重防护也白搭!《EA Sports FC 26》D加密被破解

知名破解组织宣布成功突破《EA Sports FC 26》四重防护系统 近日,游戏安全领域传来重磅消息:因屡次攻破高级加密而声名鹊起的破译团队DenuvOwO,正式对外宣告已成功放出针对《EA Sports FC 26》的最新破解方案。该方案直接破解了游戏核心的Denuvo虚拟机加密技术,一石激起千

热心网友
04.01
WSL2通过镜像还原方式快速部署Openclaw
AI
WSL2通过镜像还原方式快速部署Openclaw

快速部署指南:基于DeepSeek与飞书的Ubuntu虚拟机镜像,30分钟完成私有AI助手搭建 你是否希望在本地快速搭建一个集成DeepSeek大模型能力、并能通过飞书机器人便捷调用的AI开发环境?我们提供的基于WSL2的Ubuntu预配置虚拟机镜像,正是为你量身打造的“一站式AI应用解决方案”。本

热心网友
04.01
《绝地求生》躲猫猫靠是气势!千万不要慌!
游戏攻略
《绝地求生》躲猫猫靠是气势!千万不要慌!

《绝地求生》全新“物品狩猎”躲猫猫模式正式上线:玩法宣传片深度解析 《绝地求生》重磅更新,备受期待的趣味玩法“物品狩猎”模式现已正式推出。这一全新的躲猫猫玩法究竟有何独特之处?官方已发布完整版宣传视频,为玩家们详细揭秘核心规则与对战策略。想要抢先了解新模式的玩家,可以通过本文的介绍一探究竟。 最新发

热心网友
04.01