本次查询:MBPP
中文解释:大部分基础 Python 编程数据集
常见场景:AI 代码生成模型的性能评估
一句话解释
MBPP(Mostly Basic Python Programming)是 Google 于 2021 年发布的一个代码生成基准数据集,包含 974 道 Python 编程题,每道题给出任务描述和测试用例,用来检测 AI 模型是否能根据自然语言描述写出正确的函数代码。
为什么会被关注
随着 GPT-3、Codex 等大模型能生成代码,业界需要统一、可复现的评测方法。MBPP 提供了大量人工验证过的、难度适中的题目,既能快速检验模型的基础编程能力,又避免被复杂算法题干扰,因此成为各大模型论文中必列的数据集之一。
核心逻辑
MBPP 的每一题都包含三部分:任务描述(自然语言)、函数签名和 3-5 个输入输出示例。评测时,模型根据描述生成函数,然后用给定的测试用例验证输出是否匹配。最终用「通过率」(pass@k)作为指标,K 代表允许多少次尝试。
常见场景
AI 研究者用它对比不同模型(如 CodeLlama、StarCoder)的编程能力;企业选型时也参考 MBPP 得分来判断代码助手是否靠谱;自主开发者可用 MBPP 题目手工测试 ChatGPT 或其他工具的正确率,快速了解其编码水平。
容易混淆的点
容易把 MBPP 与 HumanEval 混淆:HumanEval 题目更偏算法和逻辑,且题量只有 164 题;而 MBPP 侧重基础语法、库函数调用,题量更大。另一个常见误区是认为 MBPP 能完全代表代码生成能力,实际上它不包含多文件、架构设计或真实项目场景。
