在人工智能大模型高速迭代的当下,如何精准评估模型的“真实推理水平”已成为业界核心难题。美团LongCat团队正式推出General 365推理评测基准,旨在为大模型推理能力树立全新标尺。在对全球26款主流模型的实测中,当前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分。这一结果揭示了当今顶尖AI模型在复杂推理任务中仍面临严峻挑战,同时也凸显了General 365作为高难度评测工具的行业价值。
核心要点
- 发布新标尺:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
- 覆盖范围广:该评测对全球范围内26款主流大模型进行了深度实测。
- 顶尖模型受挫:被视为目前最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业普遍困境:测试结果显示,绝大多数主流模型未能达到60分的及格线,推理能力仍有巨大提升空间。
详细分析
General 365:重新定义推理评测难度
美团LongCat团队发布的General 365并非普通的性能测试,而是一个专注于“推理能力”的深度评测基准。在当前大模型技术飞速革新的背景下,传统评测集常因题目被纳入训练语料(数据污染)或难度不足,导致模型得分虚高。General 365的出现,旨在通过更高难度的任务设计,真实还原模型在处理复杂逻辑、多步推理及泛化场景下的表现。通过对26款主流模型的实测,该基准成功拉开了模型间的差距,为行业提供了一个更具参考价值的性能坐标系。
