游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

MBPP:代码生成模型最常用的入门级 Python 编程测试集

类型:基准测试数据集2026-06-02
MBPP 是评估 AI 代码生成能力的经典数据集之一,包含约 974 道 Python 编程任务,覆盖字符串操作、数学计算、列表处理等基础场景。它和 HumanEval 并称为大模型编程能力的「标尺」。

本次查询:MBPP

中文解释:大部分基础 Python 编程数据集

常见场景:AI 代码生成模型的性能评估

一句话解释

MBPP(Mostly Basic Python Programming)是 Google 于 2021 年发布的一个代码生成基准数据集,包含 974 道 Python 编程题,每道题给出任务描述和测试用例,用来检测 AI 模型是否能根据自然语言描述写出正确的函数代码。

为什么会被关注

随着 GPT-3、Codex 等大模型能生成代码,业界需要统一、可复现的评测方法。MBPP 提供了大量人工验证过的、难度适中的题目,既能快速检验模型的基础编程能力,又避免被复杂算法题干扰,因此成为各大模型论文中必列的数据集之一。

核心逻辑

MBPP 的每一题都包含三部分:任务描述(自然语言)、函数签名和 3-5 个输入输出示例。评测时,模型根据描述生成函数,然后用给定的测试用例验证输出是否匹配。最终用「通过率」(pass@k)作为指标,K 代表允许多少次尝试。

常见场景

AI 研究者用它对比不同模型(如 CodeLlama、StarCoder)的编程能力;企业选型时也参考 MBPP 得分来判断代码助手是否靠谱;自主开发者可用 MBPP 题目手工测试 ChatGPT 或其他工具的正确率,快速了解其编码水平。

容易混淆的点

容易把 MBPP 与 HumanEval 混淆:HumanEval 题目更偏算法和逻辑,且题量只有 164 题;而 MBPP 侧重基础语法、库函数调用,题量更大。另一个常见误区是认为 MBPP 能完全代表代码生成能力,实际上它不包含多文件、架构设计或真实项目场景。

来源:AI 热词解释频道整理
上一篇HumanEval:代码生成模型评估基准 下一篇SWE-bench:用真实GitHub Issue考验大模型写代码的能力

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。