美团LongCat发布General 365推理评测 Gemini 3 Pro准确率仅62.8%_AI热点日报

美团LongCat发布General 365推理评测 Gemini 3 Pro准确率仅62.8%

类型：热点整理2026-07-05

美团LongCat团队发布General365推理评测基准，涵盖365道复杂推理题。对26款主流大模型实测显示，表现最强的Gemini3Pro准确率仅62 8%，绝大多数模型得分低于60分，揭示当前AI在复杂推理任务中仍面临严峻挑战。

在人工智能大模型高速迭代的当下，如何精准评估模型的“真实推理水平”已成为业界核心难题。美团LongCat团队正式推出General 365推理评测基准，旨在为大模型推理能力树立全新标尺。在对全球26款主流模型的实测中，当前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型得分均低于60分。这一结果揭示了当今顶尖AI模型在复杂推理任务中仍面临严峻挑战，同时也凸显了General 365作为高难度评测工具的行业价值。

核心要点

发布新标尺：美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
覆盖范围广：该评测对全球范围内26款主流大模型进行了深度实测。
顶尖模型受挫：被视为目前最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
行业普遍困境：测试结果显示，绝大多数主流模型未能达到60分的及格线，推理能力仍有巨大提升空间。

详细分析

General 365：重新定义推理评测难度

美团LongCat团队发布的General 365并非普通的性能测试，而是一个专注于“推理能力”的深度评测基准。在当前大模型技术飞速革新的背景下，传统评测集常因题目被纳入训练语料（数据污染）或难度不足，导致模型得分虚高。General 365的出现，旨在通过更高难度的任务设计，真实还原模型在处理复杂逻辑、多步推理及泛化场景下的表现。通过对26款主流模型的实测，该基准成功拉开了模型间的差距，为行业提供了一个更具参考价值的性能坐标系。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-28-longcatgeneral-365gemini-3-pro628

LongCat

延伸阅读

补充最近整理过的热点入口。