9月23日科技快讯,美团LongCat团队正式推出全新升级的推理引擎LongCat-Flash-Thinking。这款新品不仅继承了前代LongCat-Flash-Chat的极速响应特性,更在专业性方面实现显著突破。

评测数据显示,LongCat-Flash-Thining在逻辑推理、数学运算、编程开发和智能体应用等多个专业领域均达到国际开源模型前沿水平,部分指标甚至媲美GPT5-Thinking类闭源产品。
值得注意的是,新模型不仅强化了智能体工具调用功能,更创新性地整合了形式化定理证明能力,成为国内首个兼具"深度认知+工具交互"与"非形式化+形式化"双重推理能力的大模型。

研发团队特别强调,在处理高复杂度任务(如数学证明、代码编写、智能体协作)时,新模型展现出明显竞争优势。
核心能力亮点:

通用推理能力:在结构化逻辑任务中表现优异,ARC-AGI测试中以50.3分超越OpenAI等主流闭源模型。
数学能力:在HMMT和AIME等高难度数学测评中超越OpenAI o3,与Qwen3-235B等顶尖模型齐平。
编程能力:LiveCodeBench测试79.4分创开源模型新高,接近GPT-5水平;OJBench测试40.7分媲美Gemini2.5-Pro。
智能体能力:τ2-Bench测试74分刷新开源记录,SWE-Bench等专业测评中展现超强竞争力。
形式推理能力:MiniF2F-test基准中pass@1得分67.6,pass@8/32同样保持领先,在形式化证明领域独具优势。
目前该模型已在HuggingFace、GitHub等平台开源,用户可立即下载体验。
