从文本到多模态的大模型非结构化数据加工与质量控制实践_AI热点日报

从文本到多模态的大模型非结构化数据加工与质量控制实践

类型：热点整理2026-07-01

大模型训练，其本质是一场关于数据的精密组织与加工工程。原始数据从最初的采集形态，到最终成为可供模型直接使用的训练语料，中间所经历的清洗、转化与提纯流程，其复杂程度远超人们的普遍认知。今天，我们将沿着三条核心主线来系统拆解这一过程：文本数据如何从粗糙的网页信息演变为高质量的训练语料、多模态数据的具体处

大模型训练，其本质是一场关于数据的精密组织与加工工程。原始数据从最初的采集形态，到最终成为可供模型直接使用的训练语料，中间所经历的清洗、转化与提纯流程，其复杂程度远超人们的普遍认知。今天，我们将沿着三条核心主线来系统拆解这一过程：文本数据如何从粗糙的网页信息演变为高质量的训练语料、多模态数据的具体处理方法，以及支撑这一切高效运转的数据工程基础设施如何构建。

一、文本数据：从原始网页到训练语料

先来梳理一下大语言模型的典型训练流程。它通常被划分为四个关键阶段：预训练、中期训练、监督微调以及强化学习。在预训练阶段，模型主要依赖真实物理世界产生的海量数据，例如网页内容、PDF文档和各类书籍；进入中期训练后，则开始有目的地引入合成数据，专门用于激发和增强模型的逻辑推理能力；而到了监督微调和强化学习阶段，工作的重心便转移到了指令跟随能力和价值观对齐上。

多年来积累的可用于训练的数据量已经达到了相当庞大的规模。涵盖网页、代码、视频、音频等多种模态，数据总量已从最初的百亿、千亿级别，一路攀升至如今的万亿量级。

1.1 文本预训练：以原始网页到训练语料为例

以网页数据为例，一份原始的HTML信息要转变为可用的训练语料，通常需要经历以下六个核心步骤：

第一步，原始HTML获取。在合规授权的前提下，获取网页、文档等原始数据资源。一条原始网页中包含的信息极其繁杂，例如正文内容、用户评论、导航栏、广告模块、脚本代码、标签信息等，可谓五花八门。

第二步，网页内容解析。需要从原始结构中精准提取出关键信息，将无用的网页标签和格式代码清洗干净，最终将其转化为结构化的清晰格式。其中，问题和评论等关键信息都需要被完整提取出来。

第三步，网页特征标签。对清洗后的数据进行多维度标记。例如，标注内容所属的领域，是数学、物理还是金融，同时识别其语言类型是中文、英文还是小语种。此外，URL链接、发布时间等元信息也需要被记录归档。

第四步，标准化流程。执行去重、去污、去毒等一系列标准化操作。去重的逻辑很好理解——真实世界中大量信息是重复出现的，没有必要让模型反复学习相同的内容。去污是指将与评测榜单相关的数据从训练语料中剔除，否则会导致训练集与测试集混同，造成模型评测结果失真。去毒则是清除那些不符合主流价值观和伦理规范的内容。

第五步，数据上架与质量评级。对整理好的数据集进行质量评估，并划分为A、B、C、D四个等级。被评为A级的数据质量最高，而D级数据则意味着需要返回流程进行返工处理。

第六步，消融实验验证。这一步至关重要，必须验证数据对模型训练的实际有效性。即便你生成了一份新数据，但如果模型已经掌握了这部分知识，再训练也是徒劳的。具体做法是，在小规模模型上运行现有数据，观察其在各个基准榜单上的表现变化——是上升、下降还是保持稳定。如果榜单得分下跌，说明这批数据质量有问题；如果提升效率不足，也需要排除；最理想的情况是，数据能在知识理解力、推理能力等多个维度上带来显著提升。我们将这一环节称为“数据实验”，只有通过实验验证的数据，才能被用于训练基础模型。

在整个数据处理生产流程中，漏斗效应非常显著。万亿量级的原始网页数据，其存储容量大约为20PB，但真正能够进入模型训练阶段的语料，规模已大幅缩减至几十亿条、TB级别，中间整整减少了一个数量级。对于PDF文档、书籍等其他类型的数据，其处理流程大致相似，只是在过滤策略和处理算子的具体实现细节上会有所差异。

1.2 后训练数据现状

后训练阶段与预训练阶段存在一个显著的区别：数据规模更小，但对质量的要求却更高。预训练追求的是数据的海量、多样和广泛覆盖，数据量动辄达到十亿、百亿甚至更高的token量级；而后训练则更侧重于任务构造的合理性、答案的精准度以及推理轨迹的可靠性，其常见规模可能是百万级的样本量，但每一条数据都必须经过更为严格的质量校验。

后训练阶段的数据生产方式主要以合成为主。简单来说，就是构造一个具体问题——这个问题可能来源于真实世界中已有的物理问题，也可能是从原始语料库中提取并生成的——然后拿着这个问题去询问一个效果更强大的模型，并利用该模型提供的答案和思考过程作为训练样本，以此来提升自身模型的能力。这一过程被称为“蒸馏”或“合成”。

种子数据构建

在训练过程中，模型不仅学习最终的答案，其解决问题的思考过程也会作为训练样本的一部分被纳入学习范围。这里的关键就在于如何有效地合成问题，也就是生成“种子”。

以SWE（软件工程）任务为例。假设我们有一个代码问题需要解决，比如修复一个程序错误或是增加一项新功能。你需要生成一个Pull Request，其中包含代码差异（code diff）。这就像日常的软件开发流程：根据需求修改代码、编写测试用例、最后合并上线。SWE的目标就是构建一个自动化Pipeline，能够生成Issue、PR和测试用例，从而让模型学会解决这一系列软件工程问题。

生成种子数据主要有两种方法。第一种是从GitHub爬取数据。GitHub上拥有海量的真实代码仓库、源代码、注释以及测试用例。我们可以将这些信息提取出来，并转化为可直接用于训练的样本。

转化过程涉及几个关键步骤：首先需要搭建一个能够安全运行测试用例的隔离环境，即Docker镜像；然后验证测试用例的有效性——在没有应用相应的PR时，测试用例应该执行失败，而应用了PR之后，测试用例则应该顺利通过。这就是从真实世界环境中提取训练数据的基本流程。

合成轨迹生成

第二种方法是合成。通过修改现有的代码仓库，通常采用“注入Bug”的方式来生成数据。例如，修改某个函数中的条件判断逻辑，或者直接删除部分核心代码。通过这种方式构造出有明确缺陷的Bug，然后让模型去尝试修复，从而完成SWE场景下种子数据的合成。

当然，这只是一个引子。不同领域的种子数据构建方法差异极大。例如，要实现PPT的自动生成，就必须基于特定的应用场景来构建数据——“投资研究报告”和“软件架构汇报”这两种场景，其构建逻辑完全不同。因此，必须先锁定具体场景，再根据该场景合成种子数据及相应的解决轨迹，才能达到理想的效果。

在拿到种子数据后，可以通过以下四个步骤来合成完整的解决轨迹：首先，集成开源的领域Agent（例如在金融场景下，可以集成一个finance Agent库）；然后，编写合成脚本和评估脚本——合成脚本负责规划处理策略，评估脚本用于判断最终效果；第三步，开始执行任务；最后，对轨迹结果进行深入分析，这包括Agent解决问题的完整过程记录。

二、多模态数据处理

多模态数据处理主要分为图像和音频两大模块。视频数据可以被归入图像理解的范畴，因为视频可以通过抽帧的方式转化为连续的图片来进行分析。在图像处理方面，主要可以拆解为三个核心任务：VQA、图像分类和图像检索。

2.1 VQA

VQA（视觉问答）任务是指，给定一张图片，针对这张图片的内容提出一个具体问题，并期望模型给出准确的答案。

VQA数据的生成主要有两种主流方式。一种方法是直接构建一个查询，然后用这个查询去请求搜索引擎，让搜索引擎返回相关的图片，这样我们就得到了查询语句与图片的配对样本。另一种方法是从原始语料中提取已有的图片，然后直接进行合成——在已有图片的情况下，将图片输入到能力更强的模型中，让它基于图片内容生成对应的问题和答案。

2.2 Caption

图像描述（Caption）任务与VQA不同。Caption要求模型对一张图片进行自由描述。我们也可以基于同一张图片提出多个不同的问题，例如“这张图片里有什么？”或“这张图片属于什么场景？”。通过这种方式，一张图就能衍生出多个不同的问题。但Caption的问题设置通常比较固定，核心要求就是清晰简洁地描述图片内容，只不过问题在措辞上可能有些细微变化，例如要求模型特别关注某些视觉细节。

下面这张图是我们针对原始图片合成的Caption示例。它不仅描述了主体内容（密集的鱼群），还包含了环境信息（水质、倒影），并且涵盖了视觉细节（岸边植被、光影分布）。在Caption数据中，对同一张图像提供的细节越丰富、越准确，模型在处理类似图片时就能输出更精确的理解。

Q：以清晰简洁的方式描述图像。

2.3 Interleave

交错式数据（Interleave）是指文本和图片按照上下文的逻辑顺序交替出现的数据格式。其目标是让模型在面对图文交错的信息情境时，能够更好地理解整个事件或概念的演进过程。

实际上，互联网上的网页、PDF文档以及公众号文章，其排版本身就是图文交错的。人类在排版时，文字和图片的相对位置包含了大量“隐式的语义信息”。例如，在解释一个知识点时附上一张相关图片，能够显著加深理解。我们希望模型也能以这种方式学习——不只是阅读文字，还要同步理解文字之外的图片等多种信息。

2.4 音频数据处理

音频数据的处理与图片数据既有相似之处，也有不同点。图片有VQA任务，音频领域也有AQA（音频问答）任务，其本质就是将图片换成一段音频，然后针对音频内容提出问题。音频数据中也存在类似于Interleave和Caption的处理方式。

音频数据的生产方式与图像数据差异不大，但数据来源以及质量评判标准却截然不同。图片处理更关注画质、清晰度以及信息丰富度；而音频则复杂得多——方言种类、语言类型、音乐流派、曲风特点、演唱者的情感变化等特征，都需要被精确提取出来，用于后续的数据筛选与分类。

三、数据工程处理基建

面对万亿级别的数据处理挑战，我们在存储层面采用了OSS（对象存储服务）与ODPS（大数据计算服务）相结合的混合策略。非结构化数据（如音频、视频、图片等）直接存放在对象存储OSS中，而与之对应的元数据（如OSS链接和各类特征标签）则存储在ODPS中。当前，我们正在向Paimon湖存储架构演进，计划将现有的非结构化和结构化数据统一迁移过去，以实现存储体系的全面升级。

同时，我们可以利用统一的宽表体系来对非结构化数据进行身份标识和特征管理。其核心逻辑是：为每一个采集或采购来的非结构化数据分配一个全局唯一的UID，然后围绕这个UID进行特征提取、关联和整合。

在上述介绍的数据加工体系中，最关键的组件是代码大库。目前，这个库中存储了四百多个数据处理算子，这些算子是在过去一两年间积累下来的，覆盖了多种数据类型，可以被各个执行引擎直接调用和复用。其中，CPU算子已经能够支持ODPS、AntSpark等多种执行引擎，而GPU算子也能够在多个引擎上高效运行数据处理任务。

3.1 Agentic Data Pipeline

基于智能体的数据处理流水线（Agentic Data Pipeline），其目标是改变过去依赖人工进行数据处理的模式。通过开发“数据处理算子”并引入AI Agent，用户仅需要指定数据处理的目标，Agent就会自动调用AI模型对数据进行加工和处理。

举个例子。有一个传统方式很难处理的金融逻辑题，它涉及复杂的金融公式来计算违约概率。原始样本给出的答案是0.001，但在引入Agent之后，Agent直接为这道题编写了一段Python代码，运行后得到的目标正确答案是7.63×10⁻⁸。这个案例充分说明，借助当前AI的能力，许多过去无法有效处理的低质量或存在计算错误的数据样本，现在可以被自动识别并剔除，从而极大地提升了数据集的整体可靠性和准确性。

3.2 后训练数据生产平台

关于Data SQL项目，如前所述，数据生产涉及种子数据生成、轨迹合成等多个环节。今年我们在该平台上进行了几项重点升级：

第一，建立统一的种子库，将所有查询请求进行统一管理，为各个业务线提供标准化的数据服务。第二，进行框架集成，使整个数据处理框架能够直接消费种子数据服务。第三，构建统一资源网关，整合现有的合成相关通道以及其他API接口，实现对合成资源的高效管理和调度。

通过这些升级，我们的目标是打造一个更易用、更高效的“后训练数据生产平台”。

四、总结

回顾来看，大模型时代的数据生产工作，已经不再仅仅是“收集更多数据”那么简单。其核心要义在于，必须围绕明确的训练目标，建立起一套可验证、可反馈回流、可不断迭代的数据质量体系。

对于预训练数据而言，关键在于从海量的非结构化数据中，精准筛选出高质量、高覆盖度且低风险的语料。对于后训练数据来说，重点是构建高价值的任务样本、可靠的参考答案以及可验证的推理轨迹。而对于多模态数据，核心目标是帮助模型建立文本、图像、音频与其上下文之间深层次的关联。

随着Agent技术、自动评估机制以及湖式存储等能力的逐步成熟，非结构化数据的生产流程，正在从过去劳动密集型的手工操作模式，演进为一个更自动化、平台化、智能化的一体化数据工程体系。

来源：https://www.53ai.com/news/LargeLanguageModel/2026063012793.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。