MBPP：代码生成模型最常用的入门级 Python 编程测试集_AI热词解释_游乐网

MBPP：代码生成模型最常用的入门级 Python 编程测试集

类型：基准测试数据集2026-06-02

MBPP 是评估 AI 代码生成能力的经典数据集之一，包含约 974 道 Python 编程任务，覆盖字符串操作、数学计算、列表处理等基础场景。它和 HumanEval 并称为大模型编程能力的「标尺」。

本次查询：MBPP

中文解释：大部分基础 Python 编程数据集

常见场景：AI 代码生成模型的性能评估

MBPP（Mostly Basic Python Programming）是 Google 于 2021 年发布的一个代码生成基准数据集，包含 974 道 Python 编程题，每道题给出任务描述和测试用例，用来检测 AI 模型是否能根据自然语言描述写出正确的函数代码。

随着 GPT-3、Codex 等大模型能生成代码，业界需要统一、可复现的评测方法。MBPP 提供了大量人工验证过的、难度适中的题目，既能快速检验模型的基础编程能力，又避免被复杂算法题干扰，因此成为各大模型论文中必列的数据集之一。

MBPP 的每一题都包含三部分：任务描述（自然语言）、函数签名和 3-5 个输入输出示例。评测时，模型根据描述生成函数，然后用给定的测试用例验证输出是否匹配。最终用「通过率」（pass@k）作为指标，K 代表允许多少次尝试。

AI 研究者用它对比不同模型（如 CodeLlama、StarCoder）的编程能力；企业选型时也参考 MBPP 得分来判断代码助手是否靠谱；自主开发者可用 MBPP 题目手工测试 ChatGPT 或其他工具的正确率，快速了解其编码水平。

容易把 MBPP 与 HumanEval 混淆：HumanEval 题目更偏算法和逻辑，且题量只有 164 题；而 MBPP 侧重基础语法、库函数调用，题量更大。另一个常见误区是认为 MBPP 能完全代表代码生成能力，实际上它不包含多文件、架构设计或真实项目场景。

来源：AI 热词解释频道整理

MBPP HumanEval 代码生成基准测试 Python编程