大模型评测实战：数据集与自动化评测指南

时间：2026-05-31 17:50

前言：大模型评测从理论走向实战先回顾一下上一篇的内容——我们将大模型评测的完整体系系统地梳理了一遍，涵盖“为什么需要评测”到三种主流方法（人工评测、数据集评测和大模型自动化评测），再延伸到通用知识、数学推理、代码生成等各类典型评测数据集。理论讲解得再透彻，如果无法落地应用也毫无意义。那么在实际生

前言：大模型评测从理论走向实战

先回顾一下上一篇的内容——我们将大模型评测的完整体系系统地梳理了一遍，涵盖“为什么需要评测”到三种主流方法（人工评测、数据集评测和大模型自动化评测），再延伸到通用知识、数学推理、代码生成等各类典型评测数据集。理论讲解得再透彻，如果无法落地应用也毫无意义。

那么在实际生产环境中，究竟该如何动手把模型拉出来检验一番？本文就聚焦这一核心问题，重点讲解数据集评测和大模型自动化评测两种方式的具体操作流程与实战技巧，帮助您快速上手。

一、EvalScope：数据集评测的实战工具箱

了解了评测方法和数据集后，自然会产生一个疑问：有没有一个工具能把它们整合起来，让评测工作变得简单高效？

答案是肯定的。市面上评测工具并不少，但业界应用较为广泛的是由阿里魔搭社区（ModelScope）推出的EvalScope平台。它不仅仅是一个评测工具，更是一个贯穿模型从训练到部署全链路的评估平台。从实际使用体验来看，它有几个突出的亮点：

全面覆盖：内置了MMLU、CMMLU、C-Eval、GSM8K、HumanEval等主流评测基准，不仅支持大语言模型，还能覆盖多模态模型、Embedding模型、Reranker模型、CLIP模型甚至AIGC模型。
简单易用：提供命令行和Python代码两种调用方式，一条命令即可启动标准数据集评测（日常使用更推荐Python代码方式）。
功能丰富：除模型精度评测外，还支持推理性能压测（吞吐量、延迟等指标）以及评测结果可视化等高级能力。

下面就来详细拆解EvalScope工具在不同场景下的具体用法。

1.1 EvalScope核心架构

了解一个工具，从架构入手最清晰。EvalScope的整体架构分为输入端、组件端和输出端三个核心部分。

1.1.1 输入端

用户在输入端可以配置要评测的模型和使用的评测数据集。模型的载入方式有两种：通过API调用，或通过transformers加载本地模型。数据集方面，既可以使用EvalScope自带的数据集，也可以完全自定义。

1.1.2 组件端

组件端是EvalScope的核心能力所在，包含以下几个关键模块：

Model Adapter（模型适配器）：该模块负责将不同模型（本地模型或API服务）的输出统一转换成框架所需的标准格式，屏蔽底层模型的差异。
Data Adapter（数据适配器）：负责转换和处理输入数据，适配不同的评测数据集和格式需求。
Evaluation Backend（评测后端）：这是EvalScope的核心引擎，支持多种评测模式：
- Native：EvalScope自带的默认评测框架，支持单模型评测、竞技场模式、Baseline对比模式等。
- OpenCompass：集成OpenCompass作为评测后端，简化任务提交流程。
- VLMEvalKit：支持多模态模型评测，可轻松发起图文理解等任务。
- ThirdParty：支持ToolBench、RAGEval等第三方评测任务。

这种分层架构的好处在于，EvalScope既有强大的内置能力，又能灵活集成外部评测框架，能够应对各种复杂场景。

1.1.3 输出端

输出端主要生成可评测报告，包含准确率等评价指标，同时具备数据可视化功能，将评价指标以图表形式清晰展示。

1.2 EvalScope环境搭建

讲到这里，大家肯定迫不及待想亲自上手了。别急，按照以下几个步骤操作即可，这里以Lab4AI大模型实验室的环境为例进行演示。

新建一个VS Code运行实例。
实例预置了conda环境，安装EvalScope非常简单，执行以下命令即可：
# 创建conda环境 conda create -n evalscope python=3.12 conda activate evalscope # 安装全部功能（含压测、可视化等，推荐） pip install evalscope[all]
安装完成后，通过以下命令验证安装是否成功：
evalscope --help
开启大模型服务。为了快速测试演示，这里用vllm部署本地下载的Qwen2.5-0.5B-Instruct模型，按照之前文章里的方法，使用如下命令开启大模型服务：
vllm serve ./Qwen2_5_0_5/ --served-model-name Qwen2.5-0.5B --max-model-len 8048 --gpu-memory-utilization 0.9 --port 6666

1.3 EvalScope项目实战

为了更清楚地展示EvalScope的实际用法，我们可以根据日常工作场景将其分为三种典型情况：

使用单一数据集评测大模型的单项能力
使用多个数据集综合评测大模型的各种通用能力
使用自定义数据集评测模型在专业领域的效果

下面逐一展开介绍。

1.3.1 单一数据集单项能力的评测

如果想评测Qwen2.5-0.5B-Instruct模型的数学性能，可以使用gsm8k这类数据集。这些数据集基本上是计算题，有明确的答案，评测指标通常就是准确率（答对题目数 ÷ 总测试数）。EvalScope集成了大量公开数据集，只需编写如下脚本就能快速测试：


from evalscope.run import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='Qwen2.5-0.5B', # 模型ID或本地路径
    api_url='https://127.0.0.1:6666/v1',
    api_key='EMPTY',
    datasets=['gsm8k'],
    limit=50 # 为了快速演示，随机选取50条测试
)
run_task(task_cfg=task_cfg)

可以看到评测脚本非常直观，这就是EvalScope的魅力——通过配置化的方式，仅需几行代码就能获得评测结果。执行这个文件后，EvalScope会自动把gsm8k数据集下载到缓存目录中，评测完成后在命令行输出结果。本次测试的准确率为50%。

同时，EvalScope还会把预测结果和评测报告保存到脚本目录下的outputs文件夹中。其中predictions文件夹存放模型的输出结果，reports文件夹存放评测报告，report.html是可视化的HTML文件。

关于评测数据集的子类别：有时大家遇到的数据集（比如ceval）包含很多子类别，但只想评测其中的某几个类别，该怎么做呢？其实也很简单，EvalScope提供了dataset_args参数，可以对数据集进行精细化配置。例如，如果只想评测ceval中的computer_network和operating_system两个子类别，可以这样写：


from evalscope.config import TaskConfig
from evalscope.run import run_task

task_cfg = TaskConfig(
    model='Qwen2.5-0.5B',
    api_url='https://127.0.0.1:6666/v1',
    api_key='EMPTY',
    datasets=['ceval'],
    limit=10,
    eval_batch_size=4,
    dataset_args={
        'ceval': {
            'subset_list': ['computer_network', 'operating_system']
        }
    },
    generation_config={
        'max_tokens': 2048,
        'temperature': 0.0,
        'top_p': 1.0,
        'do_sample': False,
    }
)
run_task(task_cfg=task_cfg)

评测结果会完整列出数据集及其子数据集的准确率，Qwen2.5-0.5B在计算机网络上的表现似乎不太理想。

1.3.2 多数据集综合评测

很多时候我们并不是只评测模型的单项能力。一个典型的场景是：训练了一个专业模型，效果确实不错，但心里总有点打鼓——它会不会在其他领域“一败涂地”？说白了，就是怕模型被“训傻了”，只会专业领域知识，出现明显的过拟合。这时就需要使用多个数据集对模型进行综合评测。在EvalScope中，多数据集组合非常简单：


from evalscope.config import TaskConfig
from evalscope.run import run_task

task_cfg = TaskConfig(
    model='Qwen2.5-0.5B',
    api_url='https://127.0.0.1:6666/v1',
    api_key='EMPTY',
    datasets=['ceval', 'gsm8k'],
    limit=10,
    eval_batch_size=4,
    dataset_args={
        'ceval': {
            'subset_list': ['computer_network', 'operating_system']
        },
        'gsm8k': {
            "few_shot_num": 0
        }
    },
    generation_config={
        'max_tokens': 2048,
        'temperature': 0.0,
        'top_p': 1.0,
        'do_sample': False,
    }
)
run_task(task_cfg=task_cfg)

评测结果会同时展示多个数据集的成绩。同时，生成的report.html文件用饼图、柱状图合理展示了评估形式，还详细记录了评估的列表和细节，非常适合对比不同数据集的结果。

1.3.3 自定义数据集评测

除了使用现成的选择题等带有标准答案的数据集，很多时候我们需要评估的是文本生成大模型。评测标准通常是回答与标准答案的相似度，或者是否包含了标准答案的核心思想。举个例子，如果要构建并微调一个中医药大模型，就需要用中医药的问答对来评测模型，看模型的回答是否与医生诊断的标准答案一致、是否包含了核心思想。EvalScope对这类需求的支持也很到位。

自定义选择题数据集（有明确答案）

先来看有明确答案的选择题数据集，可以按照以下格式编写一个jsonl文件：


{"id": "1", "question": "通常来说，组成动物蛋白质的氨基酸有____", "A": "4种", "B": "22种", "C": "20种", "D": "19种", "answer": "C"}
{"id": "2", "question": "血液内存在的下列物质中，不属于代谢终产物的是____。", "A": "尿素", "B": "尿酸", "C": "丙酮酸", "D": "二氧化碳", "answer": "C"}

将数据集命名为“数据集名称_val.jsonl”的格式，放在mcq/example_val.jsonl文件中，然后创建脚本eval_custom_mcq.py：


from evalscope import TaskConfig, run_task

task_cfg = TaskConfig(
    model='Qwen2.5-0.5B',
    api_url='https://127.0.0.1:6666/v1',
    datasets=['general_mcq'],
    dataset_args={
        'general_mcq': {
            "local_path": "./mcq",
            "subset_list": ["example"]
        }
    }
)
run_task(task_cfg=task_cfg)

评测结果会准确展示模型在自定义数据集上的表现。

自定义问答数据集（无标准选项）

除了选择题，大模型在日常问答任务中的表现也需要评估。EvalScope同样支持问答数据集的自定义。可以按照以下格式组织成jsonl文件：


{"query": "世界上最高的山是哪座山？", "response": "是珠穆朗玛峰"}
{"query": "中国的首都是哪里？", "response": "中国的首都是北京"}

将数据集命名为“数据集名称.jsonl”的格式，放在qa/example.jsonl文件中，然后创建脚本eval_custom_qa.py：


from evalscope import TaskConfig, run_task

task_cfg = TaskConfig(
    model='Qwen2.5-0.5B',
    api_url='https://127.0.0.1:6666/v1',
    datasets=['general_qa'],
    dataset_args={
        'general_qa': {
            "local_path": "./qa",
            "subset_list": ["example"]
        }
    }
)
run_task(task_cfg=task_cfg)

评测结果会展示模型在自定义问答数据集上的表现。

来源：https://juejin.cn/post/7644628777113665588

模型训练