英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

首页

热心网友

转载

2026-05-15

2026年4月，一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究，在arXiv平台上发布了一份预印本论文，编号为arXiv:2508.10180v3。这项名为“For-Value”的研究，提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架，其思路堪称碘伏。

不读原论文也能看懂：英属哥伦比亚大学与Meta联合研发的AI数据

如今，全球数亿用户每天都在与ChatGPT、文心一言这类AI助手互动。它们之所以能对答如流，根本在于其“学习”了海量的数据。然而，一个常被忽视的核心挑战是：训练数据的质量良莠不齐。一旦混入错误标注、无关信息或带有偏见的内容，AI的回答就可能出现事实错误，甚至产生系统性偏差。

这好比一位厨师学艺——如果师傅传授的食谱里有一半是错的，任凭厨师天赋再高、练习再勤，最终菜品的质量也难以保证。为此，研究人员长期致力于开发“数据价值评估”技术，简单说，就是给每一条训练数据打分，筛选出真正有益的“好食谱”，剔除那些会带偏模型的“烂数据”。

但传统的数据打分方法有个致命弱点：计算成本高得惊人。主流方法需要模型进行“反向思考”，即执行梯度反向传播计算。这相当于让厨师不仅要把菜做出来，还得把整个烹饪过程倒着重演一遍，分析每个步骤对最终味道的影响。对于参数动辄数十亿、数百亿的现代大模型而言，这个过程耗时数小时乃至数天，算力消耗巨大。

正是在这个背景下，研究团队提出了一个碘伏性的问题：能否不做复杂的“反向演算”，仅凭一次“正向推理”就完成数据打分？他们的答案是肯定的，这套方法就是For-Value。

一、为什么给训练数据打分这么难

要理解For-Value的突破性，得先看清传统方法的瓶颈究竟在哪。

现代AI模型的核心运作模式是“预测下一个词”。给定一段文字，模型计算出所有可能的后续词汇，并选择概率最高的那个。这个过程从头到尾是单向的，即“前向传播”，就像厨师按食谱一步步操作。

数据价值评估要回答的问题是：某一条特定的训练数据，究竟让模型在处理某个验证任务时变得更好还是更差？这听起来直观，但实现起来需要知道“如果去掉这条数据，模型的表现会怎么变”。传统方法要回答这个问题，必须追溯模型参数的变化轨迹，这就离不开梯度反向传播。

更棘手的是，现代大模型的参数量极其庞大。像Llama-3或Qwen-2.5这类模型，参数规模在几十亿到几百亿之间。计算每条数据对所有参数的影响，再将其传递到最终预测结果，相当于要在一个拥有数十亿变量的方程组里逐一求解。因此，即便是最先进的Hessian矩阵方法，对大模型也基本不可行；而像DataInf和HyperINF这类近似计算方法，完成一次数据评分也需要数小时。

此外，传统方法还存在批量处理的瓶颈：由于每条数据的梯度必须单独计算，无法同时处理大量数据，这使得并行加速几乎不可能，进一步拖慢了整体效率。

二、For-Value的核心思路：看“最后一层”就够了

For-Value的核心洞察源于一个理论推导：在充分预训练的大模型中，数据价值的信号其实已经被压缩进了模型最后一层的隐藏表示里，无需逐层反向追溯。

用之前的比喻来理解：当一道菜端上桌，经验丰富的美食评论家只需品尝最终成品，就能大致判断哪些原材料贡献最大——他不需要亲自进厨房把每个步骤倒着重演。For-Value的思路与此类似：利用预训练大模型已积累的丰富“经验”，只看最终输出层的表现，就能高效评估每条训练数据的贡献。

具体来说，该方法基于一个可严格证明的数学结论：对于表达能力充分的大模型，某条训练数据对验证样本的影响，可以用一个简洁的闭合公式来表达。这个公式只依赖两类信息：一是训练数据和验证数据在模型最后一层的“隐藏嵌入”（可理解为模型对数据的深层语义理解）；二是两者在每个最小文本单位（词元）上的“预测误差”，即模型预测概率与真实结果之间的差距。

这个公式本质上衡量两件事的相似程度：一是语义相似度（通过隐藏嵌入的内积衡量），二是在哪些位置上模型感到“困难”、预测不够自信（通过预测误差衡量）。如果一条训练数据与验证数据语义相近，且在相同位置让模型感到困惑，那么它对帮助模型处理该验证任务就极具价值——好比两道菜用了相似食材，且在相同烹饪步骤上容易出错，那么解决一道菜的经验对另一道就很有帮助。

这里的关键理论前提是“无约束特征假设”：充分预训练的大模型具有足够强的表达能力，可以产生不受特定架构约束的自由嵌入表示。该假设在大模型分析领域已被广泛采纳，是For-Value理论推导的基石。

三、从理论到实践：For-Value算法是如何运作的

理解了核心思路，再看For-Value的实际操作流程，其优雅之处在于极度的简洁。

整个打分过程只需一次前向传播。具体步骤是：首先，将待评估的验证样本输入模型，记录其在每个位置的最后一层隐藏嵌入和预测概率分布；然后，批量输入所有训练数据，同样记录它们的最后一层隐藏嵌入和预测概率分布；最后，用前述公式计算每条训练数据与验证样本之间的得分，并排序输出。

当然，这里还有一个工程挑战需要克服：预测误差向量的维度等于词汇表大小（通常超过十万），直接计算会产生天文数字级别的内存消耗。研究团队的应对策略是利用“稀疏性”——实际上，模型的预测概率质量高度集中在少数词元上，真正需要关注的只是出现在当前批次样本中的词汇（称为“批内词汇”），其数量远小于完整词汇表，从而将计算量大幅压缩至可行范围。

由于整个过程不涉及任何反向传播，每条数据的得分计算可以完全并行化处理。这意味着可以用大批次同时处理海量训练数据，而不像传统方法那样必须逐条串行计算。这种批量并行能力是For-Value效率优势的另一重要来源。

四、实验验证：在多种任务上的表现

研究团队在一系列任务上对For-Value进行了系统验证，覆盖了文本语言模型和视觉语言模型两大类别，以及多种规模的模型。

在“影响力数据识别”任务上，目标是找出对某个测试样本影响最大的训练数据。团队使用了三类文本任务：句子变换（如词序倒排、元音字母替换等十种规则）以及有无推理过程的数学应用题。在这些任务上，For-Value不论是在衡量整体排序质量的AUC指标，还是找出真正有影响力样本的召回率上，都达到了接近满分的水平，明显优于传统的Hessian-free方法，并与计算成本更高的DataInf和HyperINF方法相当甚至更优。

以Qwen-2.5-1.5B模型为例，在句子变换任务上，For-Value的召回率达到0.989，而最强的传统基线HyperINF为0.934；在数学题任务上，For-Value召回率为0.998，HyperINF为0.950。这个差距在实际应用中意义重大，多找出6%的有价值数据，往往意味着模型性能的实质性提升。

在视觉语言模型上，团队使用了Qwen2.5-VL-3B和Llama-3.2-11B-Vision两款模型，测试了“主体生成”（为特定物体或动物的图片生成描述）和“风格生成”（为卡通、像素艺术等风格图片生成描述）两类任务。

在主体生成任务上，For-Value表现出色，在11B模型上的召回率为0.985，高于HyperINF的0.919。更值得关注的是风格生成这个更困难的任务——传统方法在这里集体“哑火”，AUC仅在0.49到0.52之间徘徊（接近随机猜测的0.5），而For-Value的AUC高达0.895至0.974，展现出压倒性优势。这说明在数据分布复杂、类别差异微妙的场景下，For-Value的理论设计更贴近大模型的实际学习机制。

在“错误标注数据检测”任务上，团队使用了经典的猫狗分类数据集，人为地将50%的标签调换，然后测试各方法能否从混乱数据中找出错误样本。在Qwen-VL-3B模型上，For-Value的AUC为0.885，比最强基线HyperINF的0.770高出11.5%；召回率达到0.999，也比HyperINF的0.916高出8.3%。For-Value在不同噪声比例下的鲁棒性测试也显示，其表现始终保持稳定。

五、实用价值：帮助模型从噪声数据中学到真正有用的东西

除了识别重要数据和错误数据，研究团队还测试了For-Value在实际微调场景中的价值——即用它筛选高质量训练子集，仅用这些精选数据微调模型，并观察最终性能。

第一个场景是数学推理，使用GSM8K数据集。以Llama-3.1-8B模型为基础，用For-Value筛选出最有价值的5%数据进行微调，最终在测试集上的准确率达到48.3%，不仅比使用全量数据训练的47.8%更高，也比最强基线HyperINF高出5.5%。即便只选取1%的数据，For-Value仍比所有基线方法高出最多3.3%。与此同时，For-Value完成数据评分仅需0.3小时，而HyperINF需要2.4小时，效率提升超过5倍。

第二个场景更接近现实的“脏数据”挑战。团队构建了一个名为“Noise-Huatuo-Complex-CoT”的医疗问答数据集，从原始的5000条数据中，随机对40%的样本注入噪声——要么随机删除词汇，要么插入无意义的噪声词。

在如此嘈杂的数据环境下，For-Value仅用5%的高质量数据微调，就在五个医疗QA测试集上取得了平均60.31%的准确率，比次优方法DataInf高出3%。使用10%数据时，平均准确率进一步提升至62.35%，全面领先所有基线。团队还统计了各方法找出真正干净数据的准确率：For-Value以84.4%遥遥领先，而Hessian-free为48.2%，DataInf为33.2%，HyperINF仅有15.1%。这解释了为何在噪声数据场景下，For-Value的优势特别明显，因为它真正具备区分高质量数据与噪声数据的能力。

第三个场景是医学视觉问答。使用PMC-Reasoning数据集评估Qwen2.5-VL-3B模型，For-Value在10%和20%数据筛选场景下均取得最高平均准确率，且评分耗时仅0.4小时，而基线方法需要1.3至1.7小时。

六、效率优势：从几小时压缩到几分钟

效率方面的提升幅度，足以改变这类技术的实用价值。

在大型模型上，这种差距尤为显著。以Qwen-32B模型为例，HyperINF完成一次数据评分需要约6小时，而For-Value只需几百秒——两者相差超过30倍。更重要的是，For-Value不需要对模型进行任何微调训练就可以直接使用，而DataInf和Hessian-free都需要先把模型微调到收敛，这本身就是一笔额外的开销。

研究团队在论文中提供了详细的计算复杂度对比。传统方法的计算复杂度通常与模型层数、参数量成正比甚至更高次方增长，而For-Value的复杂度主要取决于模型维度和批内词汇表大小的乘积。由于批内词汇表通常远小于完整词汇表，实际计算量非常有限，内存占用也大幅降低。

For-Value还有一个独特优势：它与具体的训练算法无关，也不需要访问模型的梯度信息，因此可以在推理API接口上直接使用，理论上甚至适用于只提供推理服务而不开放权重的商业模型。

七、消融实验：预测误差权重的作用

研究团队通过消融实验，验证了For-Value设计中的一个关键组件。

在评估公式中，有一个名为α的权重项，它代表“预测误差的相似性”——即训练数据和验证数据在每个词元位置上的预测困难程度有多相近。如果把这个权重设为1（相当于忽略预测误差，只看语义相似度），For-Value就退化成了一个简单的文本嵌入相似度方法。

实验结果清晰地显示：去掉α权重后，性能大幅下降，在视觉语言任务中尤为明显。这验证了预测误差权重的不可或缺性。背后的直觉是：纯粹的语义相似度只能告诉你两条数据“说的是同一类事情”，但无法区分哪些部分对模型来说真正困难、真正需要学习。α权重通过聚焦于模型预测不自信的位置，有效过滤掉了模型已经轻松掌握的内容，让数据价值评估更精准地指向真正有学习价值的信号。

此外，团队还验证了For-Value在不同模型规模下的稳定性：从1.5B参数一直扩展到72B参数，其AUC和召回率始终保持在接近1.0的高水平，没有出现性能随规模下降的现象。这说明For-Value的理论基础与模型规模具有良好的兼容性。

八、这套方法的局限与未来方向

任何技术都有其边界，研究团队在论文中也坦诚讨论了For-Value的局限性。

For-Value目前专门针对微调阶段的数据评估，不直接适用于预训练阶段的数据筛选。原因在于预训练阶段的模型尚未充分收敛，“无约束特征假设”可能不成立，此时最后一层的隐藏表示可能无法充分捕捉数据价值的全部信号。

此外，数据价值在训练过程中会随模型状态的变化而演变。For-Value目前使用的是预训练初始化时刻的模型进行评估，对于长期训练中数据价值的动态变化没有直接的处理机制。将For-Value扩展为支持训练感知的动态数据筛选，或者整合进主动学习框架，是研究团队指出的未来方向。

归根结底，For-Value的贡献可以用一句话概括：用最少的计算资源，最准确地回答“这条数据值不值得用来训练AI”这个问题。

过去，回答这个问题需要让AI模型反复“回忆”每一个训练步骤，消耗数小时的计算时间，且难以大规模并行。For-Value证明，只要站在预训练大模型已经积累的丰富“常识”之上，仅需一次正向扫描，就能从数据的语义深度和预测困难程度两个维度，快速而准确地完成评估。

对于AI开发者而言，这意味着数据清洗和筛选的成本可以大幅降低，在资源有限的条件下，能更高效地找到真正有价值的训练数据，而非依赖“以量补质”的粗放策略。对于普通用户来说，这项技术的长远影响将体现在AI产品的回答更准确、偏见更少、对各类知识的掌握更均衡——因为它从源头上改善了AI学习的“食谱质量”。

Q&A

Q1：For-Value和传统数据价值评估方法（如DataInf）最核心的区别是什么？

A：传统方法依赖梯度反向传播计算，需要模型“倒着思考”每个训练步骤的影响，计算成本极高，且无法大批量并行处理。For-Value则完全不做反向计算，只需一次正向推理，利用模型最后一层的隐藏表示和预测误差就能完成评分。在实际测试中，For-Value比HyperINF快5倍以上，在32B参数模型上节省超过30倍时间，同时准确率持平甚至更优。

Q2：For-Value在噪声数据场景下为什么比其他方法表现好那么多？

A：传统影响函数方法依赖模型收敛到最优解的假设，而在有40%噪声的数据集里，这个假设很难成立，导致方法失效。For-Value识别干净数据的准确率达84.4%，而HyperINF只有15.1%，DataInf为33.2%。本质原因在于For-Value通过预测误差权重α聚焦于模型真正感到困难的位置，能有效区分“让模型学到真知识的数据”和“让模型学到错误模式的噪声数据”。

Q3：For-Value能用于预训练阶段的数据筛选吗？

A：目前不能直接用于预训练阶段。For-Value的理论基础依赖“无约束特征假设”，即模型已经充分预训练、具备足够的表达能力。预训练初期的模型尚未充分收敛，最后一层的表示可能无法捕捉数据价值的完整信号。研究团队明确指出，将For-Value扩展到预训练场景是未来的研究方向之一。

来源:https://www.techwalker.com/2026/0505/3185793.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：雷克里森理工学院推出科学论文配图智能检索系统