AI训练数据选择难题破解智能配方秤精准筛选方案

这项由字节跳动与加州大学圣克鲁兹分校联合进行的研究,已于2026年5月4日以预印本形式发布在arXiv平台,论文编号为arXiv:2605.02364。
训练大型语言模型,本质上与经营一家顶级餐厅异曲同工——食材的品质与配比,直接决定了最终呈现的菜品水准。然而,现实挑战在于,高品质的“食材”,即优质训练数据,始终处于稀缺状态。所有致力于开发大模型的团队,都面临着一个核心难题:当高质量数据耗尽时,究竟该如何应对?
一、为何“加倍投入优质数据”的策略难以持续
要理解这项研究的价值,首先需要厘清大模型训练中的一个关键瓶颈。
在人工智能领域,训练数据的质量对模型最终性能具有决定性影响。高质量数据,例如逻辑严谨、信息丰富的文本,能帮助模型学习到更有效的知识。因此,一个直观的思路是:在训练过程中尽可能多地使用高质量数据,减少低质量数据的占比。
然而,问题的核心在于,优质数据本身就是一种稀缺资源。这好比一家餐厅希望大量使用顶级松露与鱼子酱,但全球产量有限,并非资金充足就能无限获取。对于AI训练而言,高质量数据同样如此——一旦耗尽,便只能反复使用同一批数据。这种“重复使用”在AI领域被称为“数据重复训练”,形象地说,就如同让厨师反复翻炒同一盘剩菜。
研究团队发现,重复使用高质量数据,其效果类似于反复加热同一锅菜肴。首次加热,风味尚存;二次加热,滋味已淡;待到第十六次加热,这锅菜几乎已丧失营养,甚至可能产生负面影响。实验数据清晰地印证了这一点:当高质量数据被重复使用超过一定次数后,模型的性能不仅停止增长,反而会出现下降。
更令研究者困扰的是,当前AI行业普遍采用一种名为“过度训练”的策略——即使用远超“恰好足够”的数据量来训练一个相对较小的模型,旨在提升其效率并降低后续推理成本。这就像为了节省燃料而用文火长时间慢炖。该策略本身具有一定合理性,但它加剧了数据重复问题,导致高质量数据被反复利用的频次更高。
面对这一困境,业内的常规做法是进行大量小规模实验,并借助“缩放定律”来预测:当进行大规模训练时,特定的数据配方可能达到何种效果。缩放定律本质上是一个数学模型,试图描述模型性能与计算资源投入之间的关系,类似于一份食谱指导“用何种火候烹饪多久能达到最佳效果”。
然而,字节跳动的研究团队指出,传统的缩放定律在存在数据重复的场景下会严重失效。若使用传统缩放定律来预测“重复使用高质量数据”时大模型的表现,其预测结果往往会过于乐观——就像食谱告诉你“再烤二十分钟会更完美”,但蛋糕实则早已烤焦。这种预测偏差在数据规模和模型参数增大时尤为显著。正是这一缺陷,催生了InfoLaw这一新理论的诞生。
二、为数据价值建立“信息度量体系”
既然传统工具已然失灵,研究团队便从底层逻辑出发,重新审视训练过程的本质。
他们的核心洞见在于:与其用“消耗了多少计算资源”来预测模型表现,不如直接追踪“模型真正从数据中吸收了多少有效信息”。这便是InfoLaw的核心思想——将训练过程理解为一个“信息积累”的过程,而不仅仅是算力消耗的过程。
沿用厨房的比喻:传统方法只关心“你在灶台前花费了多少时间和燃气”,而InfoLaw则关注“这锅菜肴实际吸收了多少营养成分”。相同的时间和燃气,用于烹制新鲜食材与反复加热剩菜,所获得的营养摄入量是天差地别的。
为了量化“信息量”,研究团队构建了一套精妙的数学模型。该模型的工作原理如下:首先,团队将所有训练数据依据质量评分从高到低排序,并划分为六个“质量层级”。可以想象为一个食材仓库,从顶级的珍稀食材到普通食材,共分六个档次。
接着,研究团队为每一个质量层级的数据,都建立了一个“信息获取公式”。该公式的核心思想源于一个常见的生活现象:你首次观看一部电影,会获得大量信息与感受;第二次观看,或许能注意到一些初次忽略的细节;但若观看第十次、第二十次,每次的新收获将微乎其微。换言之,重复学习相同内容的边际收益是递减的,且呈指数级衰减趋势。
研究团队用数学公式精确描述了这一“指数递减”规律。在他们的模型中,每次重复接触某份数据,模型所能获取的新信息量都会乘以一个小于1的衰减系数。该系数与模型的大小紧密相关:模型越大,其“学习能力”越强,衰减系数也相应更大,意味着它能从同一份数据的重复学习中榨取稍多的信息,但同样遵循边际收益递减法则。
此外,团队还发现了一个微妙而重要的细节:整体训练数据量的规模本身也会影响信息积累的速率。具体而言,信息获取速率与训练数据总量的对数成正比。为何是对数关系而非线性关系?因为当训练数据量从十亿级别增至百亿级别时,所带来的额外学习收益,远不如从一亿增至十亿时那么显著——正如一位厨师,从掌握十种食材到百种食材时厨艺会飞跃,但从掌握一千种到一万种时,进步速度则会大大放缓。研究团队采用对数函数来捕捉这一规律,并通过大量实验验证了其合理性。
将所有质量层级的信息量累加,便得到一个综合的“总信息量”。这个数值综合考量了数据质量、数据重复次数、模型规模以及总训练量。基于这一统一的“信息量”指标,后续分析变得清晰——研究团队发现,当将所有不同数据配方、不同模型规模、不同训练体量的实验结果,统一以“信息量”作为横坐标时,所有数据点都神奇地落在了同一条曲线上,而非以往那样散乱分布。这条统一曲线遵循简洁的幂律关系。
三、数据配方实验室:LayerMix方案与27组对照实验
理论框架已然搭建,但要使其真正实用,仍需通过大量实验来确定模型中的未知参数。
研究团队设计了一套名为“LayerMix”的数据采样方案。这套方案本质上是一个可调节的“配方系统”:你可以调整每个质量层级的采样比例,从而获得从“全高质量”到“全低质量”之间的各种数据混合配方。团队预设了五种标准配方,从HQ(高质量为主)到LQ(低质量为主),其中HQ配方中高质量数据占比高达80%,而LQ配方中高质量数据占比仅为24%。
这些不同配方的差异极具现实意义:HQ配方意味着高质量数据被大量重复使用,如同餐厅将同一道招牌菜反复烹制十六七次;而LQ配方则意味着大量使用低质量数据,好比厨房堆满了普通食材但每种只使用一两次。
为了给InfoLaw提供训练数据,研究团队从Common Crawl中精选出3.7万亿词的英文语料,并进行了严格的去重处理。随后,他们使用两个主流的文本质量分类器为每篇文章评分,取平均值后按分数高低排序,并划分为六个质量层级。
在此数据集基础上,研究团队训练了9种不同参数规模的模型,参数量从2.52亿到12亿不等。每种规模的模型分别采用HQ、MQ(中等质量)、LQ三种配方进行训练,因此共计产生了27组实验结果。所有实验均在“过度训练”设定下进行,具体过度训练比例设定为3.6倍。
利用这27组实验结果,研究团队拟合出了InfoLaw中的两个关键函数:一是“质量密度函数”,它描述了不同质量层级的数据对模型的相对价值。拟合结果非常符合直觉:数据质量越高,其密度值越大,且密度值随质量下降呈指数级减小。换言之,顶级质量数据的“信息密度”是次级数据的2.5倍,是第三级数据的6.3倍,依此类推。
二是“学习能力函数”,它描述了模型规模与其从重复数据中提取信息能力之间的关系。研究团队发现,随着模型参数增大,这一学习能力参数也随之增大,但增速逐渐放缓,最终趋于平稳——这种变化趋势用对数函数来描述最为准确。
四、从实验环境到实际应用:InfoLaw的外推预测能力
任何工具的价值,都取决于其能否在未见过的场景下依然做出准确预测。研究团队从三个维度全面检验了InfoLaw的外推能力。
第一个维度是“新配方预测”。研究团队使用基于HQ、MQ、LQ三种配方拟合得到的InfoLaw,去预测其他未参与拟合的配方下的模型表现。结果显示,这些新配方的实验数据点都非常精准地落在了InfoLaw预测的曲线上——这如同一位厨师,通过研究三道菜的食谱,就能准确预测其他数十道未曾烹制过的菜肴的风味。这种泛化能力是传统缩放定律所不具备的。
第二个维度是“更大模型预测”。拟合阶段使用的模型最大为12亿参数,研究团队随后挑战了15亿、25亿乃至77亿参数的模型。InfoLaw在这些从未见过的更大规模上依然保持了高度的预测准确性:在所有未见过的配方和模型规模的预测中,平均绝对误差仅为0.15%。相比之下,传统缩放定律在相同条件下的预测误差要大得多,并且会系统性地给出过于乐观的估计。
第三个维度是“不同过度训练程度预测”。研究团队此前的实验均在3.6倍过度训练的条件下进行。他们进一步探究:InfoLaw能否推广到25倍过度训练这种极端情况?实验结果显示,使用3.6倍条件下拟合的参数,直接计算25倍过度训练时的信息量,得到的预测结果依然与实际结果高度吻合。两条不同过度训练程度下的缩放曲线几乎平行——这表明,过度训练的程度主要影响整条曲线的高低位置,而不改变其基本形状。这一发现极具价值,因为它意味着只需在一种过度训练程度下进行实验,便可大致预测其他程度下的表现。
五、“信息配方秤”的实践应用:如何寻找最优数据策略
InfoLaw不仅是一个预测工具,它还能用于主动搜索最优数据配方,而无需进行实际训练。
具体方法是:从配方空间中随机抽取十万种不同的LayerMix参数组合,对每一种组合计算其对应的信息量,再通过幂律公式换算成预测的模型损失值,最终选取损失值最低的那种配方作为推荐配方。整个搜索过程无需运行任何实际训练,就像厨师可以在脑海中预先模拟所有食材配比组合,挑选出理论上最佳的方案,然后再动手烹饪。
研究团队运用此方法为一个25亿参数的模型搜索出了最优配方。结果显示,最优配方将50%的权重分配给了最高质量数据,49%给了次高质量数据,仅1%留给了第三档数据。随后,团队实际训练了采用该配方的模型,并与另外四种随机配方的模型进行比较——采用InfoLaw推荐配方的模型,在下游任务验证损失上确实最低,验证了该搜索方法的有效性。
此外,研究团队还系统地列出了不同模型规模和训练数据量下的最优配方表。从中可以总结出两条清晰规律:当模型规模固定时,训练数据量越大,最优配方就越倾向于使用更多样化的数据;当训练数据量固定时,模型参数越少,最优配方就越倾向于集中使用最高质量的数据。简而言之,小厨房做精致菜肴,需选用顶级食材精工细作;大酒楼操办宴席,则需要广泛采购、兼顾多样。这背后的逻辑在于:小模型的容量有限,每个训练样本都显得尤为珍贵,必须将有限的容量分配给价值最高的数据;而大模型拥有足够的容量来消化更广泛的知识,过分集中于同一批高质量数据反而会造成严重的重复收益递减。
六、跨数据集验证:InfoLaw在RefinedWeb上的泛化能力
一个优秀的工具,不应仅在特定条件下有效。研究团队最后在一个完全不同的数据集——RefinedWeb——上测试了InfoLaw的泛化能力。
RefinedWeb是由法国人工智能公司Falcon团队发布的另一个大规模高质量网络文本数据集,虽然同样源于Common Crawl,但采用了截然不同的过滤和清洗策略。研究团队使用相同的方法,在RefinedWeb数据集上对InfoLaw进行了拟合与外推实验。结果发现:质量密度函数的拟合参数与在自有数据集上拟合出的参数几乎完全一致。这一发现意味深长——研究团队认为,尽管两个数据集的构建方式不同,但由于底层数据均来自Common Crawl,数据的“信息密度分布”结构非常相似,因此质量密度函数具有很强的跨数据集泛化性。在未见过的配方外推测试中,平均绝对误差仅为0.24%,再次证明了该方法的鲁棒性。
归根结底,这项研究为AI训练数据的配比问题,建立了一套具有理论支撑、可计算、可外推的“配方公式”。过去,研究者在面对“使用多少高质量数据、允许重复多少次、搭配多少低质量数据”这类问题时,大多只能依赖经验和直觉,辅以耗费巨大的小规模实验。如今,只要测量出数据的质量分布,知晓模型的参数量和计划训练量,便可预先计算出不同配方对应的信息量,再通过一个简单的幂律公式预测出模型的最终性能。
研究论文也坦诚地指出了若干局限:质量层级的划分方式基于经验判断;过度训练程度影响曲线位置的理论解释尚未完全清晰;模型的质量评估同样依赖于特定的质量评分器,更换评分器是否会影响InfoLaw的适用性仍有待检验。
这些开放性问题本身也勾勒出未来的研究方向——毕竟,任何一套优秀的“配方系统”,都需要在更多场景、更多条件下反复验证,方能成为行业公认的标准工具。
Q&A
Q1:InfoLaw为何在数据重复情况下比传统缩放定律预测更准?
传统缩放定律仅依据“消耗了多少计算量”来预测模型表现,完全忽略了数据被重复使用时边际收益递减的现象。InfoLaw引入了“信息量”这一新指标,通过指数衰减函数显式地建模了重复训练带来的收益递减,并结合数据质量分布和模型规模进行综合计算。这使得不同配方、不同规模的实验结果都能统一落在同一条预测曲线上,外推误差平均仅0.15%。而传统方法在数据重复条件下会系统性地给出过于乐观的预测。
Q2:LayerMix采样方案具体如何运作?
LayerMix将所有训练数据按质量评分从高到低排列,划分为六个质量层级(桶),然后通过一组权重参数控制每个层级在最终训练集中所占的比例。调整这组权重,就能得到从“全高质量数据”到“全低质量数据”之间的各种混合配方。当某个层级的目标采样量超过该层级实际可用数据量时,就会发生重复采样,即该层级内的数据被反复使用。这套系统能够精确控制每个质量档次数据的重复次数,是InfoLaw理论框架得以量化的实验基础。
Q3:InfoLaw推荐的最优数据配方有何规律?
根据InfoLaw对不同模型规模和训练数据量的搜索结果,最优配方呈现出两条清晰规律:训练数据量越大,最优配方越倾向于使用更多样化的数据,而非将所有权重集中于最高质量数据;模型参数量越少,最优配方越倾向于集中使用最高质量数据。简言之,小模型或有限训练预算应优先保证数据质量,大模型或充足训练预算则应兼顾数据多样性。这是因为高质量数据重复使用过多会造成严重的信息边际收益递减,而大模型拥有足够的容量来消化更广泛的知识。
相关攻略
5月18日,摩尔线程-U(股票代码:688795 SH)正式披露了最新的投资者关系活动纪要。纪要显示,公司核心产品——训推一体全功能智算卡MTT S5000,已完成量产并成功实现商业化部署。作为国内少数支持FP8高性能计算精度的训推一体解决方案,MTT S5000的量产标志着公司在AI算力领域取得了
这项由复旦大学计算机科学技术学院、牛津大学、科罗拉多大学博尔德分校等全球顶尖科研机构联合完成的重磅研究,于2026年3月11日发表于权威预印本平台arXiv(论文编号:arXiv:2603 11444v1),论文标题为《FP4量化大语言模型训练中均值偏差的诅咒与祝福》。该研究为长期困扰业界的AI模型
最近,新加坡南洋理工大学与东南大学合作的一项研究,在预印本平台arXiv上发布了一篇引人注目的论文(编号:arXiv:2602 10609v1)。这项研究直指当前大语言模型训练中的一个顽疾,并提出了一个相当巧妙的解决方案,其灵感竟然来自半个多世纪前的航天技术。 想象一下,训练一个大模型,就像指导一个
这项由北京大学、加州大学洛杉矶分校、西北大学和华盛顿大学联合主导的前沿研究,于2024年12月19日公开发布在预印本平台arXiv上,论文编号为arXiv:2412 14922v1。 训练一个智能的AI助手,其过程与培养优秀学生有异曲同工之妙:两者都极度依赖于海量且优质的学习材料。理想状态下,这些材
这项由香港科技大学(广州)、伦敦大学学院与快手科技等机构合作的前沿研究,于2026年3月3日发布在arXiv预印本平台(编号:arXiv:2603 01907v1)。研究团队创新性地提出了一种名为INSIGHT的全新训练数据选择策略,旨在显著提升大语言模型在强化学习训练中的效率与效果。 当前,训练一
热门专题
热门推荐
上海启动全球首颗光计算卫星研制,其天基光计算具备抗辐照、低功耗特性,适应太空环境,可支撑在轨大算力任务。目前芯片太空验证已完成,全链条研制能力基本形成。产业面临成本与规模化挑战,需重构航天制造体系。长三角已成立创新联合体聚焦七大技术攻坚,上海将天基计算列为未来。
苹果与OpenAI合作因商业回报未达预期出现裂痕。腾讯地图推出AI骑手模式优化配送。百度成立模型委员会强化AI布局。荣耀将发布搭载云台系统的RobotPhone。Anthropic拟以9000亿美元估值融资。阿里发布智能体开发工作台Qoder1 0。千问APP接入药监局数据。发那科与英伟达深化合作,利用AI加速机器人开发。
面对海量书籍资源,数字化管理工具至关重要。小满图书管理侧重会员与库存管理,适合书店。库存管理通轻量化,支持多货品进销存。藏书馆兼具藏书管理与数字阅读功能。移动图书馆对接高校资源,提供学术服务。个人图书馆专注个人知识收集与创作。各类软件功能各异,需根据核心需求选择。
英文朗读软件能有效辅助学习。推荐几款特色应用:全能型《朗读器》操作简便;《朗读者》结合翻译与朗读;《英文翻译》支持长文朗读;《朗读大师》擅长图像识别与发音反馈;《中英文翻译》提供系统化学习路径。根据需求选择工具并坚持练习,可提升理解与发音能力。
飞机是远距离出行的高效选择,提前购票可锁定行程并享受优惠。主流购票平台包括飞猪旅行、携程旅行、航班管家、美团、飞行卡和去哪儿旅行。这些应用不仅提供机票预订,还整合酒店、景点门票、本地生活等服务,满足用户对价格、一站式规划或特定优惠的不同需求。





