输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
GPQA是一个由Google DeepMind创建的问答数据集,包含448道研究生级别的科学问题,涵盖物理、化学、生物等学科,专门用于评估大型语言模型在复杂推理和跨学科知识整合上的能力。它比MMLU等基准更难,旨在发现模型的真正推理短板。
近期常被查询的 AI 概念。