ICML26清华UDS智能筛选训练样本，大模型微调算力减半

时间：2026-07-05 12:21

长期以来，大模型监督微调（SFT）被视为“数据越多效果越好”的常规操作。然而，一线训练实践表明这一直觉存在严重偏差。2026年产业数据显示，国内大模型训练的算力有效利用率不足50%。大量GPU算力被重复、低信息量甚至带有偏见的冗余样本所消耗。从根源来看，全量样本训练不仅直接推高GPU采购与云算力租

长期以来，大模型监督微调（SFT）被视为“数据越多效果越好”的常规操作。然而，一线训练实践表明这一直觉存在严重偏差。2026年产业数据显示，国内大模型训练的算力有效利用率不足50%。大量GPU算力被重复、低信息量甚至带有偏见的冗余样本所消耗。

从根源来看，全量样本训练不仅直接推高GPU采购与云算力租赁费用，更易导致模型过拟合，甚至放大认知偏差。在金融、医疗、工业等垂直领域，企业进行定制化微调往往需要数十万条标注数据，时间与资金成本极为高昂。算力浪费已成为制约中小AI企业模型迭代的核心瓶颈。

业内早已认识到智能筛选样本的价值，并涌现了MaxLoss、MaxGrad、GREATS等在线批次选择方案。但这些方法各有缺陷。大多数方案仅关注样本的“训练难度”，单纯选取损失值高的样本，完全忽略样本之间及样本内部的信息多样性。这导致筛选出的批量样本高度同质化，训练过程中偏差不断叠加。另有方案需要额外引入验证集、外部参考模型，甚至多次反向传播计算梯度，额外开销超过全量训练，难以在工业场景中落地。行业亟需一个兼顾效率、精度与轻量化的一体化筛选框架。

此次清华团队在ICML 2026上提出的UDS框架，思路突破了传统范式。核心创新在于直接复用前向传播时生成的logits矩阵，无需额外计算即可同步完成两个维度的评分。一方面，利用logits矩阵的核范数评估单条样本的内部重要性，量化其信息丰富度与训练增益；另一方面，通过低维投影压缩样本特征，结合缓存缓冲区，计算当前样本与历史训练数据的距离，确保批次内样本具备充分多样性。两个分数加权融合，选出最优样本。整套流程无需外部数据集或第三方模型，可无缝适配LoRA微调、全参数微调及长上下文推理。

工程实现面临的一大挑战是海量logits矩阵的存储。若直接完整保存原始logits向量，千级样本即可消耗数十GB显存，严重限制训练集群并发能力。UDS采用随机投影算法压缩特征维度，在几乎不损失样本距离判断精度的前提下，将内存开销降至极低，并配合FIFO内存缓存，设计十分精巧。

消融实验进一步证实，两大核心模块缺一不可。单独使用样本效用分数或多样性距离仅能小幅提升精度，而两者结合则带来模型综合能力的跨越式增长。团队选取Llama-3.1-8B和通义千问Qwen-2.5-7B两个主流开源基座，在MMLU通用知识、ScienceQA科学问答、GSM8K数学推理、HumanEval代码生成四个权威基准上进行了多轮对照实验。结果直观：以国产Qwen-2.5-7B为例，经UDS筛选样本训练后，MMLU准确率达到63.34%，较此前最优方案GREATS提升5.15个百分点，ScienceQA、数学、代码评测全面领先。训练吞吐量显著高于全量SFT模式，在相同硬件条件下单位时间内可处理更多有效样本，实现精度与速度的双向提升。

泛化能力与产业落地

该技术的泛化能力同样出色，不受训练参数规模、上下文长度或微调模式的限制。实验涵盖不同批次大小（8/16）、LoRA低秩微调、全参数微调、2048超长文本推理以及分布外（OOD）泛化测试等多种工况，UDS在所有条件下均稳定优于全量训练、随机采样、传统损失筛选等基线方案。与离线样本筛选算法FisherSFT相比，在同等样本选取比例下，四大基准指标全面领先，表明在线动态筛选比事前离线过滤更契合实时训练的实际需求。

从产业发展视角看，UDS的落地恰逢其时。2026年AI产业竞争逻辑已从比拼硬件算力规模转向单位算力产出的模型效能。IDC预测，未来推理与微调的算力需求将持续暴涨，HBM高端存储、GPU硬件成本长期维持高位，中小企业难以持续承受全量数据集训练带来的巨额开销。清华这套原生轻量化筛选框架无需改造底层算力硬件，仅靠算法优化即可削减半数算力消耗，切实降低了垂直行业定制模型的落地门槛。

对于国内开源产业，通义千问、Llama系列已成为企业微调的主流基座，UDS可直接无缝接入现有训练流水线，无需重构数据处理架构。政务、制造、金融等垂直领域的服务商，无需再囤积大规模高端算力集群，仅凭少量GPU即可完成高质量模型微调，大幅缩短产品迭代周期。算力资源有限的科研团队和初创AI公司，也能以更低的试错成本推动细分场景的专用小模型快速落地，进一步激活国内AI的长尾创新活力。

总体而言，清华团队在ICML 2026上提出的UDS方案，标志着大模型监督微调正式告别“数据堆砌”的粗放阶段。这套依托原生logits、兼顾样本效用与多样性、且额外开销极低的在线筛选框架，既解决了全量训练算力浪费、模型过拟合等行业共性痛点，又适配了国内外主流开源基座及各类工业微调场景。随着技术逐步开源落地，大模型训练将迈入“精准选样本、高效练模型”的精细化时代，全行业算力成本压力有望持续缓解，人工智能技术在千行百业的规模化落地更值得期待。

来源：https://www.163.com/dy/article/L0JJOG4405118HA4.html

大模型