首页 游戏 软件 资讯 排行榜 专题
首页
AI
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

热心网友
13
转载
2026-05-15

2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508.10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。

不读原论文也能看懂:英属哥伦比亚大学与Meta联合研发的AI数据

如今,全球数亿用户每天都在与ChatGPT、文心一言这类AI助手互动。它们之所以能对答如流,根本在于其“学习”了海量的数据。然而,一个常被忽视的核心挑战是:训练数据的质量良莠不齐。一旦混入错误标注、无关信息或带有偏见的内容,AI的回答就可能出现事实错误,甚至产生系统性偏差。

这好比一位厨师学艺——如果师傅传授的食谱里有一半是错的,任凭厨师天赋再高、练习再勤,最终菜品的质量也难以保证。为此,研究人员长期致力于开发“数据价值评估”技术,简单说,就是给每一条训练数据打分,筛选出真正有益的“好食谱”,剔除那些会带偏模型的“烂数据”。

但传统的数据打分方法有个致命弱点:计算成本高得惊人。主流方法需要模型进行“反向思考”,即执行梯度反向传播计算。这相当于让厨师不仅要把菜做出来,还得把整个烹饪过程倒着重演一遍,分析每个步骤对最终味道的影响。对于参数动辄数十亿、数百亿的现代大模型而言,这个过程耗时数小时乃至数天,算力消耗巨大。

正是在这个背景下,研究团队提出了一个碘伏性的问题:能否不做复杂的“反向演算”,仅凭一次“正向推理”就完成数据打分?他们的答案是肯定的,这套方法就是For-Value。

一、为什么给训练数据打分这么难

要理解For-Value的突破性,得先看清传统方法的瓶颈究竟在哪。

现代AI模型的核心运作模式是“预测下一个词”。给定一段文字,模型计算出所有可能的后续词汇,并选择概率最高的那个。这个过程从头到尾是单向的,即“前向传播”,就像厨师按食谱一步步操作。

数据价值评估要回答的问题是:某一条特定的训练数据,究竟让模型在处理某个验证任务时变得更好还是更差?这听起来直观,但实现起来需要知道“如果去掉这条数据,模型的表现会怎么变”。传统方法要回答这个问题,必须追溯模型参数的变化轨迹,这就离不开梯度反向传播。

更棘手的是,现代大模型的参数量极其庞大。像Llama-3或Qwen-2.5这类模型,参数规模在几十亿到几百亿之间。计算每条数据对所有参数的影响,再将其传递到最终预测结果,相当于要在一个拥有数十亿变量的方程组里逐一求解。因此,即便是最先进的Hessian矩阵方法,对大模型也基本不可行;而像DataInf和HyperINF这类近似计算方法,完成一次数据评分也需要数小时。

此外,传统方法还存在批量处理的瓶颈:由于每条数据的梯度必须单独计算,无法同时处理大量数据,这使得并行加速几乎不可能,进一步拖慢了整体效率。

二、For-Value的核心思路:看“最后一层”就够了

For-Value的核心洞察源于一个理论推导:在充分预训练的大模型中,数据价值的信号其实已经被压缩进了模型最后一层的隐藏表示里,无需逐层反向追溯。

用之前的比喻来理解:当一道菜端上桌,经验丰富的美食评论家只需品尝最终成品,就能大致判断哪些原材料贡献最大——他不需要亲自进厨房把每个步骤倒着重演。For-Value的思路与此类似:利用预训练大模型已积累的丰富“经验”,只看最终输出层的表现,就能高效评估每条训练数据的贡献。

具体来说,该方法基于一个可严格证明的数学结论:对于表达能力充分的大模型,某条训练数据对验证样本的影响,可以用一个简洁的闭合公式来表达。这个公式只依赖两类信息:一是训练数据和验证数据在模型最后一层的“隐藏嵌入”(可理解为模型对数据的深层语义理解);二是两者在每个最小文本单位(词元)上的“预测误差”,即模型预测概率与真实结果之间的差距。

这个公式本质上衡量两件事的相似程度:一是语义相似度(通过隐藏嵌入的内积衡量),二是在哪些位置上模型感到“困难”、预测不够自信(通过预测误差衡量)。如果一条训练数据与验证数据语义相近,且在相同位置让模型感到困惑,那么它对帮助模型处理该验证任务就极具价值——好比两道菜用了相似食材,且在相同烹饪步骤上容易出错,那么解决一道菜的经验对另一道就很有帮助。

这里的关键理论前提是“无约束特征假设”:充分预训练的大模型具有足够强的表达能力,可以产生不受特定架构约束的自由嵌入表示。该假设在大模型分析领域已被广泛采纳,是For-Value理论推导的基石。

三、从理论到实践:For-Value算法是如何运作的

理解了核心思路,再看For-Value的实际操作流程,其优雅之处在于极度的简洁。

整个打分过程只需一次前向传播。具体步骤是:首先,将待评估的验证样本输入模型,记录其在每个位置的最后一层隐藏嵌入和预测概率分布;然后,批量输入所有训练数据,同样记录它们的最后一层隐藏嵌入和预测概率分布;最后,用前述公式计算每条训练数据与验证样本之间的得分,并排序输出。

当然,这里还有一个工程挑战需要克服:预测误差向量的维度等于词汇表大小(通常超过十万),直接计算会产生天文数字级别的内存消耗。研究团队的应对策略是利用“稀疏性”——实际上,模型的预测概率质量高度集中在少数词元上,真正需要关注的只是出现在当前批次样本中的词汇(称为“批内词汇”),其数量远小于完整词汇表,从而将计算量大幅压缩至可行范围。

由于整个过程不涉及任何反向传播,每条数据的得分计算可以完全并行化处理。这意味着可以用大批次同时处理海量训练数据,而不像传统方法那样必须逐条串行计算。这种批量并行能力是For-Value效率优势的另一重要来源。

四、实验验证:在多种任务上的表现

研究团队在一系列任务上对For-Value进行了系统验证,覆盖了文本语言模型和视觉语言模型两大类别,以及多种规模的模型。

在“影响力数据识别”任务上,目标是找出对某个测试样本影响最大的训练数据。团队使用了三类文本任务:句子变换(如词序倒排、元音字母替换等十种规则)以及有无推理过程的数学应用题。在这些任务上,For-Value不论是在衡量整体排序质量的AUC指标,还是找出真正有影响力样本的召回率上,都达到了接近满分的水平,明显优于传统的Hessian-free方法,并与计算成本更高的DataInf和HyperINF方法相当甚至更优。

以Qwen-2.5-1.5B模型为例,在句子变换任务上,For-Value的召回率达到0.989,而最强的传统基线HyperINF为0.934;在数学题任务上,For-Value召回率为0.998,HyperINF为0.950。这个差距在实际应用中意义重大,多找出6%的有价值数据,往往意味着模型性能的实质性提升。

在视觉语言模型上,团队使用了Qwen2.5-VL-3B和Llama-3.2-11B-Vision两款模型,测试了“主体生成”(为特定物体或动物的图片生成描述)和“风格生成”(为卡通、像素艺术等风格图片生成描述)两类任务。

在主体生成任务上,For-Value表现出色,在11B模型上的召回率为0.985,高于HyperINF的0.919。更值得关注的是风格生成这个更困难的任务——传统方法在这里集体“哑火”,AUC仅在0.49到0.52之间徘徊(接近随机猜测的0.5),而For-Value的AUC高达0.895至0.974,展现出压倒性优势。这说明在数据分布复杂、类别差异微妙的场景下,For-Value的理论设计更贴近大模型的实际学习机制。

在“错误标注数据检测”任务上,团队使用了经典的猫狗分类数据集,人为地将50%的标签调换,然后测试各方法能否从混乱数据中找出错误样本。在Qwen-VL-3B模型上,For-Value的AUC为0.885,比最强基线HyperINF的0.770高出11.5%;召回率达到0.999,也比HyperINF的0.916高出8.3%。For-Value在不同噪声比例下的鲁棒性测试也显示,其表现始终保持稳定。

五、实用价值:帮助模型从噪声数据中学到真正有用的东西

除了识别重要数据和错误数据,研究团队还测试了For-Value在实际微调场景中的价值——即用它筛选高质量训练子集,仅用这些精选数据微调模型,并观察最终性能。

第一个场景是数学推理,使用GSM8K数据集。以Llama-3.1-8B模型为基础,用For-Value筛选出最有价值的5%数据进行微调,最终在测试集上的准确率达到48.3%,不仅比使用全量数据训练的47.8%更高,也比最强基线HyperINF高出5.5%。即便只选取1%的数据,For-Value仍比所有基线方法高出最多3.3%。与此同时,For-Value完成数据评分仅需0.3小时,而HyperINF需要2.4小时,效率提升超过5倍。

第二个场景更接近现实的“脏数据”挑战。团队构建了一个名为“Noise-Huatuo-Complex-CoT”的医疗问答数据集,从原始的5000条数据中,随机对40%的样本注入噪声——要么随机删除词汇,要么插入无意义的噪声词。

在如此嘈杂的数据环境下,For-Value仅用5%的高质量数据微调,就在五个医疗QA测试集上取得了平均60.31%的准确率,比次优方法DataInf高出3%。使用10%数据时,平均准确率进一步提升至62.35%,全面领先所有基线。团队还统计了各方法找出真正干净数据的准确率:For-Value以84.4%遥遥领先,而Hessian-free为48.2%,DataInf为33.2%,HyperINF仅有15.1%。这解释了为何在噪声数据场景下,For-Value的优势特别明显,因为它真正具备区分高质量数据与噪声数据的能力。

第三个场景是医学视觉问答。使用PMC-Reasoning数据集评估Qwen2.5-VL-3B模型,For-Value在10%和20%数据筛选场景下均取得最高平均准确率,且评分耗时仅0.4小时,而基线方法需要1.3至1.7小时。

六、效率优势:从几小时压缩到几分钟

效率方面的提升幅度,足以改变这类技术的实用价值。

在大型模型上,这种差距尤为显著。以Qwen-32B模型为例,HyperINF完成一次数据评分需要约6小时,而For-Value只需几百秒——两者相差超过30倍。更重要的是,For-Value不需要对模型进行任何微调训练就可以直接使用,而DataInf和Hessian-free都需要先把模型微调到收敛,这本身就是一笔额外的开销。

研究团队在论文中提供了详细的计算复杂度对比。传统方法的计算复杂度通常与模型层数、参数量成正比甚至更高次方增长,而For-Value的复杂度主要取决于模型维度和批内词汇表大小的乘积。由于批内词汇表通常远小于完整词汇表,实际计算量非常有限,内存占用也大幅降低。

For-Value还有一个独特优势:它与具体的训练算法无关,也不需要访问模型的梯度信息,因此可以在推理API接口上直接使用,理论上甚至适用于只提供推理服务而不开放权重的商业模型。

七、消融实验:预测误差权重的作用

研究团队通过消融实验,验证了For-Value设计中的一个关键组件。

在评估公式中,有一个名为α的权重项,它代表“预测误差的相似性”——即训练数据和验证数据在每个词元位置上的预测困难程度有多相近。如果把这个权重设为1(相当于忽略预测误差,只看语义相似度),For-Value就退化成了一个简单的文本嵌入相似度方法。

实验结果清晰地显示:去掉α权重后,性能大幅下降,在视觉语言任务中尤为明显。这验证了预测误差权重的不可或缺性。背后的直觉是:纯粹的语义相似度只能告诉你两条数据“说的是同一类事情”,但无法区分哪些部分对模型来说真正困难、真正需要学习。α权重通过聚焦于模型预测不自信的位置,有效过滤掉了模型已经轻松掌握的内容,让数据价值评估更精准地指向真正有学习价值的信号。

此外,团队还验证了For-Value在不同模型规模下的稳定性:从1.5B参数一直扩展到72B参数,其AUC和召回率始终保持在接近1.0的高水平,没有出现性能随规模下降的现象。这说明For-Value的理论基础与模型规模具有良好的兼容性。

八、这套方法的局限与未来方向

任何技术都有其边界,研究团队在论文中也坦诚讨论了For-Value的局限性。

For-Value目前专门针对微调阶段的数据评估,不直接适用于预训练阶段的数据筛选。原因在于预训练阶段的模型尚未充分收敛,“无约束特征假设”可能不成立,此时最后一层的隐藏表示可能无法充分捕捉数据价值的全部信号。

此外,数据价值在训练过程中会随模型状态的变化而演变。For-Value目前使用的是预训练初始化时刻的模型进行评估,对于长期训练中数据价值的动态变化没有直接的处理机制。将For-Value扩展为支持训练感知的动态数据筛选,或者整合进主动学习框架,是研究团队指出的未来方向。

归根结底,For-Value的贡献可以用一句话概括:用最少的计算资源,最准确地回答“这条数据值不值得用来训练AI”这个问题。

过去,回答这个问题需要让AI模型反复“回忆”每一个训练步骤,消耗数小时的计算时间,且难以大规模并行。For-Value证明,只要站在预训练大模型已经积累的丰富“常识”之上,仅需一次正向扫描,就能从数据的语义深度和预测困难程度两个维度,快速而准确地完成评估。

对于AI开发者而言,这意味着数据清洗和筛选的成本可以大幅降低,在资源有限的条件下,能更高效地找到真正有价值的训练数据,而非依赖“以量补质”的粗放策略。对于普通用户来说,这项技术的长远影响将体现在AI产品的回答更准确、偏见更少、对各类知识的掌握更均衡——因为它从源头上改善了AI学习的“食谱质量”。

Q&A

Q1:For-Value和传统数据价值评估方法(如DataInf)最核心的区别是什么?

A:传统方法依赖梯度反向传播计算,需要模型“倒着思考”每个训练步骤的影响,计算成本极高,且无法大批量并行处理。For-Value则完全不做反向计算,只需一次正向推理,利用模型最后一层的隐藏表示和预测误差就能完成评分。在实际测试中,For-Value比HyperINF快5倍以上,在32B参数模型上节省超过30倍时间,同时准确率持平甚至更优。

Q2:For-Value在噪声数据场景下为什么比其他方法表现好那么多?

A:传统影响函数方法依赖模型收敛到最优解的假设,而在有40%噪声的数据集里,这个假设很难成立,导致方法失效。For-Value识别干净数据的准确率达84.4%,而HyperINF只有15.1%,DataInf为33.2%。本质原因在于For-Value通过预测误差权重α聚焦于模型真正感到困难的位置,能有效区分“让模型学到真知识的数据”和“让模型学到错误模式的噪声数据”。

Q3:For-Value能用于预训练阶段的数据筛选吗?

A:目前不能直接用于预训练阶段。For-Value的理论基础依赖“无约束特征假设”,即模型已经充分预训练、具备足够的表达能力。预训练初期的模型尚未充分收敛,最后一层的表示可能无法捕捉数据价值的完整信号。研究团队明确指出,将For-Value扩展到预训练场景是未来的研究方向之一。

来源:https://www.techwalker.com/2026/0505/3185793.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算
AI
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508 10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。 如今,全球数亿用

热心网友
05.15
Meta AI新研究揭示旧数据复用如何提升40%训练效率
AI
Meta AI新研究揭示旧数据复用如何提升40%训练效率

一项由Meta基础人工智能研究团队与纽约大学柯朗研究所联合开展的研究,于2026年4月9日以预印本形式发布,论文编号为arXiv:2604 08706v1。这项研究颠覆了AI训练领域一个长期被视为“金科玉律”的常识。 一、一个反直觉的发现:旧数据“回炉重造”,效果更佳? 在AI模型训练中,数据如同食

热心网友
05.15
Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统
AI
Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统

这项研究来自Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队,论文于2026年4月发布,编号为arXiv:2604 06425v1。 研究概要:当AI不再只是工具,而是变成电脑本身 我们日常使用的电脑,其核心在于操作系统、运行程序和内存管理。而AI模型,通常只是运行在这台电脑上的一个

热心网友
05.14
Meta首席AI官汪滔谈行业冲突:直言不喜大佬频繁争斗氛围
科技数码
Meta首席AI官汪滔谈行业冲突:直言不喜大佬频繁争斗氛围

AI行业领军人物间的公开分歧增多,OpenAI、Anthropic等公司核心人物卷入其中。Meta首席AI官汪滔对此表示不满,呼吁减少敌意,以更谨慎理性的态度推进技术发展。他曾与Meta前首席AI科学家杨立昆交锋,但双方关系已缓和。汪滔认为外界对行业人物存在误读,自己更愿专注技术而非舆论纷争。

热心网友
05.14
田渊栋离开Meta后创业项目正式官宣
业界动态
田渊栋离开Meta后创业项目正式官宣

田渊栋等顶尖研究者联合创立Recursive_SI,致力于研发能自主实验并安全实现递归自我改进的人工智能。公司已获6 5亿美元融资,估值达46 5亿美元,团队规模持续扩大。成员在多项AI前沿领域拥有深厚积累,其技术愿景旨在通过自动化科学发现推动根本性进步。

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

NBA2KOL2新秀篮板记录刷新技巧攻略
游戏攻略
NBA2KOL2新秀篮板记录刷新技巧攻略

在NBA2KOL2中刷新新秀篮板记录需综合球员选择与技巧运用。应选用篮板属性突出的内线球员,注重弹跳与卡位意识。比赛中需精准预判落点,提前抢占位置,善用身体对抗保持优势。同时掌握加速启动、卡位微操等技巧,配合战术创造空间,通过持续练习提升篮板统治力,从而突破记录。

热心网友
05.15
极限竞速地平线6媒体评分出炉 均分92分值得体验
游戏攻略
极限竞速地平线6媒体评分出炉 均分92分值得体验

《极限竞速:地平线6》以日本为开放世界舞台,提供超过550辆授权车辆及精美画面与音效。媒体均分高达92分,IGN等赞其树立开放世界赛车新标杆,GameSpot肯定其驾驶乐趣与地图设计。部分评测指出玩法创新不足、文化融合较浅,但公认其为当前顶尖的街机风格赛车游戏之一。

热心网友
05.15
我的世界游戏模式切换方法与步骤详解
游戏攻略
我的世界游戏模式切换方法与步骤详解

《我的世界》提供生存、创造、冒险和旁观四种模式,可通过指令或创建世界时切换。创造模式可自由建造,生存模式需收集资源成长,冒险模式侧重探索解谜,旁观模式便于观察。掌握切换方法能灵活体验不同玩法。

热心网友
05.15
镭明闪击双境终焉手游玩法详解与攻略介绍
游戏攻略
镭明闪击双境终焉手游玩法详解与攻略介绍

双境终焉”为高门槛策略玩法,需通关所有常驻关卡后连续挑战蜂王与幽灵蝎。难度分层且附带负面效果,积分随难度递增。战前可通过“火种计划”研发战术模组强化属性;实战中需针对首领特性搭配阵容,合理分配技能与资源以争取高分,最终奖励按总积分结算。

热心网友
05.15
大航海时代动态交易系统起源与玩法详解
游戏攻略
大航海时代动态交易系统起源与玩法详解

动态交易系统是高度拟真的海上贸易模拟引擎,商品价格随市场供需实时浮动。玩家需洞察不同港口的价格差异,低买高卖。同时必须考虑海盗、天气等航行风险。价格波动受季节、突发事件及势力关系影响,要求玩家综合市场情报与航海动态,做出精准决策,从而获取利润。

热心网友
05.15