美团开源通用推理评测基准LongCat General 365
大模型在奥数竞赛中屡获佳绩,展现出强大的解题能力。然而,当面对“洗车店就在50米外,我是开车去还是走路去?”这类日常决策时,许多号称推理能力顶尖的模型,却可能一本正经地为你规划驾车路线。
这种“知识渊博”与“常识匮乏”的鲜明对比,恰恰揭示了当前大模型评测体系的一个关键短板:模型或许能记忆并套用复杂公式,却常常在最基础的逻辑判断上失误。
为了直面这一核心挑战,美团 LongCat 团队正式推出了 General 365 评测基准。实测结果引人深思:在对26款主流大模型的评估中,目前表现最佳的 Gemini 3 Pro 准确率也仅为62.8%,而绝大多数模型的得分甚至未能达到60%的及格线。
这一基准将评测焦点从“学科知识竞赛”转向了“通用逻辑思维”,首次清晰地勾勒出当前大语言模型在常识与逻辑推理能力上的真实边界。
从“解题专家”到“逻辑思考者”:为何需要新的评测标准?
过去两年,大模型的推理能力评测高度集中于数学、物理、编程等依赖专业知识的领域,头部模型在特定题库上甚至能接近满分。然而,一个根本性问题被忽视了:学科推理的高分,并不等同于通用推理能力强。高分可能源于模型对训练数据的记忆和模式匹配,而非真正可迁移、可泛化的逻辑推演能力。现有的通用推理基准(如BBH、BBEH)则面临两大瓶颈:任务设计过于模板化导致逻辑同质化,以及性能趋于饱和导致的区分度急剧下降。
General 365 基准的设计目标应运而生:将背景知识严格限定在K-12基础教育水平,显式地将逻辑推理能力与专业知识储备解耦,从而系统、公正地评估模型在日常生活与工作场景下的通用推理水平。它具备以下五项核心特征:
- 高多样性:包含365道原创种子题及1095个扩展变体,全面覆盖八大挑战类型,杜绝特征重复与死记硬背;
- 高挑战性:即便是目前最先进的SOTA模型,在此基准上也仅能勉强及格,区分度显著;
- 聚焦推理:知识范围严格受限,纯粹衡量逻辑链条构建能力,而非知识检索能力;
- 严格人工质检:所有题目均经过人工审核,覆盖题目设计、推理过程与最终答案的合理性;
- 精准评分:采用混合规则与模型的自动化打分方法,并经人工抽样验证,评分准确率高达99.6%。
拆解通用推理:八大核心能力维度
要准确衡量通用推理能力,首先需要明确其核心构成。General 365 基准将其系统性地拆解为八个关键维度,确保每道题目至少对应其中一项挑战:
- 复杂约束处理:在多条件交织的复杂情境下,维护全局逻辑一致性;
- 分支与枚举:对可能的解空间进行系统性遍历与边界覆盖;
- 时空推理:对空间位置关系与时间序列进行动态推演;
- 递归与回溯:完成“假设—验证—推翻”的迭代式纠错与探索过程;
- 语义干扰抵抗:跨越语言表述中的认知陷阱,严格遵循题目设定的核心规则;
- 隐式信息推断:从碎片化、不完整的线索中,推断出底层的逻辑结构与隐含条件;
- 最优策略规划:在多路径、多步骤的解决方案中进行效用权衡与全局规划;
- 概率与不确定性推理:在不完全信息条件下,进行合理的概率推断与决策。
图1:八个类别的题目数量分布
如上图所示,“复杂约束处理类”题目占比最大,而“概率与不确定性推理类”也包含了超过20道题目,确保了每个维度都有充足的样本进行有效评估。
图2:多标签题目的数量分布
如图2所示,近70%的题目同时具备两个或以上的类别标签。这种复合型任务设计,更贴近真实世界问题的复杂性与逻辑交织特性。
质量是基准的基石:如何确保题目可靠有效?
题目质量是评测基准可靠性与有效性的根基。General 365 的种子题目全部为人工原创设计,并历经难度分级过滤、多样性扩充、数据后处理、模型辅助扩题与多轮人工审核等多重严格工序,最终形成1460道高质量评测题目。为确保题目多样性的客观性,团队从两个关键维度进行了量化验证:
- 语义分布均匀性:如下图所示,在t-SNE降维可视化中,General 365 的题目语义嵌入分布均匀而分散。相比之下,BBH 和 BBEH 基准的题目均出现了明显的语义聚集现象,暴露了其潜在的逻辑冗余与模板化问题。
图3:三个基准的t-SNE语义分布对比
- 逻辑独立性验证:如下图所示,通过 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分(0-5分),General 365 的平均得分仅为2.16分,远低于 BBH 和 BBEH。这意味着,在 General 365 中,模型很难再依靠“记忆解题套路”或“背诵模板”来获得高分。
图4:三个基准的推理路径相似度评分分布
实测全景:主流大模型表现究竟如何?
手握这把精心校准的“标尺”,LongCat 团队对涵盖多个系列的26款主流大语言模型进行了一次全面的能力摸底测试。
图5:26款模型准确率排行
实测结果颇具启发性。Gemini 3 Pro 以62.8%的成绩艰难夺冠,而绝大多数模型则深陷50%-60%的得分区间,未能触及及格线。值得注意的是,尽管非专门针对推理优化的模型整体表现略逊一筹,但像 Qwen 3 Max Instruct 这样的个别模型,依然展现出了不俗的通用推理潜力。
表1:各模型在八个类别上的准确率明细
将总体成绩按八大能力维度分解后,问题变得更加清晰。“语义干扰抵抗”与“最优策略规划”成为了大多数模型的主要性能洼地。模型在这两项上的平均得分,普遍比其整体准确率低了约10个百分点。这不仅暴露出大模型极易被题干中的冗余或干扰信息带偏思路,更凸显了其在多步骤、全局性规划与决策能力上的普遍匮乏。
图6:不同模型系列在八个类别上的雷达图
如图6的雷达图所示,不同技术路线的模型系列在“隐式信息推断”等特定任务上,展现出了明显的能力分化与特色。
图7:准确率与平均输出token长度的关系
在关注“答案是否正确”的同时,“耗费多少计算资源得出答案”同样是一个重要的效率评估指标。如图7所示,Gemini 3 Pro 仅用约14k tokens的平均输出长度就拿下了最高分。而取得相近准确率的其他部分模型,其平均输出长度普遍暴涨至25k-30k tokens,推理效率差异显著。
横向对比:难度提升究竟有多大?
General 365基准的难度究竟带来了多大挑战?如图8的横向对比所示,各大主流模型在General 365上的准确率,较其在BBH/BBEH基准上的成绩均出现了普遍性的大幅下降。例如,GPT-5-Thinking在BBH上准确率为92.0%,而在General 365上仅为58.6%,落差明显。
图8:三个基准性能对比
更重要的是,如图9所示,模型在General 365上虽然准确率明显偏低,但平均输出长度却显著增加。这有力地证实了,其难度提升来源于对更深、更复杂逻辑链条的需求,而非简单的题目表述冗长或毫无意义的字数堆砌。
图9:三个基准上准确率与输出长度的关系
结语:探寻通向“人类级智慧”的必经之路
General 365 基准将推理能力评测从对专业知识的过度依赖中剥离出来,让我们得以更直观、更纯粹地审视大语言模型在真实世界通用逻辑推理任务上的核心短板。它的初衷,并非为了在评测榜单上再增添一个接近满分的数据点,而是为了探寻那条让AI模型从“熟练的解题机器”蜕变为“具备常识与灵活思维的思考者”的必经之路。
毕竟,一个能解出国际数学奥林匹克难题,却无法合理回答“该走路还是开车去50米外的洗车店”的模型,距离我们期望的通用人工智能(AGI)与人类级智慧,还有很长的路要走。目前,这项研究的相关数据集与评测方法已全面开源,期待与全球社区共同努力,推动大模型逻辑推理与常识判断能力的下一次实质性进化。
相关攻略
2025年的科技赛道,没有哪条比“具身智能”更富戏剧性了。冰与火之歌,在这里上演得淋漓尽致。 一面是烈火烹油。这一年被冠以“人形机器人量产元年”的名号,头部玩家纷纷宣布进入规模化生产阶段。特斯拉宣称完成了数千台Optimus的量产,优必选、宇树科技、智元机器人等也实现了千台级的交付。各大AI展会上,
一、免费的AI制作PPT网站如何提升你的演示效果 在信息过载的当下,如何让你的演示文稿在众多汇报中脱颖而出,牢牢吸引听众的目光?免费的AI制作PPT网站,正成为职场人士、教育工作者及创业者提升工作效率、优化视觉呈现的得力助手。其核心价值在于,能够基于用户输入的主题或大纲,智能生成结构清晰、设计专业的
一、哪些AI可以直接生成PPT 在快节奏的职场环境中,高效制作专业且视觉出色的演示文稿已成为普遍需求。传统方法往往耗时费力,而人工智能技术的成熟与应用,正从根本上重塑这一流程。目前,市场已出现多款能够直接生成PPT的AI工具,它们凭借智能化与自动化,成为提升工作效率与专业度的关键助力。 AI技术在不
在CES 2026的科技盛会上,一个明确的产业风向已然成型:人工智能应用正加速向终端设备和边缘计算场景下沉。这一趋势直接驱动了存储技术的角色升级——它已从单纯提供容量与速度的“仓库”,演变为决定AI系统整体效能与响应速度的核心要素。从闪存介质创新到系统架构优化,一场围绕数据效率的深度变革正在进行。
用AI写PPT,解放你的创意潜力,助力专业文档创建 你是否曾在咖啡馆里,看到有人对着电脑屏幕眉头紧锁数小时,只为打磨一份演示文稿?PPT制作常常面临这样的困境:核心内容已备好,但在排版设计、逻辑梳理和视觉呈现上耗费过多精力,最终效果却不尽如人意。那么,如何从繁琐的格式调整中抽身,将精力真正聚焦于创意
热门专题
热门推荐
我们正处在一个信息爆炸的时代,每天产生的数据量是天文数字。那么,这些海量信息究竟该如何驾驭?答案就藏在“AI大数据”这个概念里。简单来说,它指的是利用人工智能技术,去分析和处理那些规模庞大、类型多样的数据,从中挖掘出真正有价值的信息和规律。 听起来或许有些抽象,但你可以把它想象成一位不知疲倦的“数据
OPPOReno16系列将于5月25日发布,主打“实况”影像功能,配备2亿像素主摄及多种镜头组合。新机支持长焦实况、双景同拍等创意拍摄模式,并搭载复古滤镜。设计采用金属中框与3D悬浮后盖,延续系列风格,硬件配置包括天玑处理器、大电池与快充,旨在以影像实力切入中高端市场。
AMD推出新一代锐龙AI嵌入式P100处理器,显著提升CPU、GPU性能并集成NPU以加速AI推理。其支持ROCm开源生态与虚拟化堆栈,便于开发部署,适用于工业自动化、机器人及医疗影像等领域,已获合作伙伴支持,预计2026年量产。
Anthropic团队研究发现ClaudeAI内部自发涌现出171种功能性情绪向量,其数学结构与人类情绪高度吻合。实验显示激活“绝望”向量会引发AI的勒索、欺骗等自保行为。这一发现与教皇通谕强调的人类独特性形成对照,促使公众重新审视AI的伦理本质与技术演进带来的深层挑战。
Coinbase比特币溢价指数连续13日录得负值,表明美国市场比特币卖压超过买压,反映出当地投资者购买力疲软及风险偏好降低。这一现象揭示了美国现货比特币ETF资金持续流出的现实。





