1. 概述
在启动模型训练之前,有一个环节常常被忽略——那就是数据采集与预处理。可以说,数据是模型的“燃料”,燃料的品质直接决定了引擎的续航能力与稳定性。本文将系统梳理从数据集构建、标注工具选择到内存数据类型等完整链路,帮助您清晰理解模型训练过程中数据的流转逻辑。
2. 目标

3. 大模型数据集与小模型数据集的区别
传统模型与大型语言模型在数据需求方面,几乎遵循完全不同的设计思路。传统模型的数据集通常仅划分训练集与测试集,内容单一且紧密围绕具体任务;而大模型的数据集则复杂得多——按训练阶段分为预训练、监督微调、奖励模型和强化学习四个环节,每个阶段的数据形式和质量要求截然不同。
| 传统模型所需数据集 | 大模型所需数据集 |
| 数据集主要分为训练集和测试集 | 数据集按照训练阶段分为预训练、监督微调、奖励模型和强化学习四个阶段数据集,每个阶段所需数据不同。预训练需要的是混合数据,监督微调需要的是高质量领域相关数据,奖励模型需要的是人类反馈数据,强化学习需要的是标注良好的数据集 |
| 针对专业场景使用专业数据集,内容相对单一,与模型任务强相关 | 预训练所需数据的种类广泛 |
| 数据量相对较小,所占存储空间较小 | 所需数据量大,需要占用较大的存储空间 |
4. 常用的数据集
4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集
先来看几个经典的预训练数据集——它们是大模型知识储备的根基。
①GPT预训练数据集

②LLaMA预训练数据集

③PaLM

5. 数据集标注工具
数据标注,本质上是通过工具为原始数据添加标签,使机器能够理解这些内容的含义。无论是图像、语音还是文本,标注质量往往直接决定模型性能的上限。
5.1 传统标注工具
传统标注工具各有专注领域,这里列出几个代表性产品:
①NLP领域数据标注工具——NLTK
②CV领域标注工具——labellmg
③语音学标注工具——Praat
④ModelArts数据管理:该平台集成了数据采集、筛选、标注、版本管理全流程,并支持自动化与半自动化数据筛选,以及预标注和辅助标注功能。具体来看,其标注方式分为三种:
⑴人工标注

⑵智能标注:系统根据已有标签和当前训练状态,自动完成标注。
⑶团队标注
⑤百度EasyData数据标注
5.2 大模型数据集标注
进入大模型时代,标注工具生态也随之演变。最具代表性的工具是Huggingface,它不仅提供海量数据集,还封装了Transformer库,使预训练模型的调用与微调更加便捷。此外,国内的启智OpenI也是一个重要的数据集与模型协作平台。
6. 深度学习中的数据类型
6.1 按数据结构化形式
从数据本身的组织形式来看,可以划分为三类:
①结构化数据:具有预定义格式,例如数据库中的表格数据。
②非结构化数据:以原始形态存在,没有固定结构。
③半结构化数据:介于两者之间,不遵循传统关系型数据库格式,但带有一定的标记或标签。
6.2 数据在内存中的保存形式
训练大模型时,数据在内存中的存储方式以及精度选择,直接影响训练效率与模型效果。
①FP32



②FP16

③BF16

④Tensor Float 32:这是NVIDIA A100开始支持的新型数据类型,由Tensor Core驱动。A100的FP32峰值算力为19.5 TOPS,而TF32直接提升至156 TOPS——差距一目了然。
⑤混合精度:简单来说,是在训练的不同阶段灵活切换FP32、FP16、BF16等精度,从而在保证模型性能的前提下,显著提升训练速度并降低显存占用。
⑥数据量化:这是一种更激进的压缩手段——用低精度(如4-bit)替代高精度(如16-bit)来存储模型参数,大幅降低存储与传输成本。
7. 总结
本章的核心在于理解传统小模型与大模型在数据需求上的根本差异,以及训练过程中涉及的关键数据类型。从数据集划分、标注工具选型到精度选择,每个环节都会影响最终训练效率与模型表现。这部分知识在面试中约占3%的权重,但却是掌握大模型训练流程不可或缺的基础。
