首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海交大AI训练突破:大模型预训练数据选择新策略

上海交大AI训练突破:大模型预训练数据选择新策略

热心网友
21
转载
2026-02-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由上海交通大学EPIC实验室领导,联合阿里巴巴集团钉钉团队、威斯康星大学麦迪逊分校、伊利诺伊大学厄巴纳-香槟分校和Mila-魁北克人工智能研究所共同完成的研究,于2026年发表在预印本平台上。有兴趣深入了解的读者可以通过论文编号arXiv:2602.05400v2查询完整论文。

想象一下教小孩学说话的过程:你不会把所有的书籍都堆在孩子面前让他随便看,而是会精心挑选那些适合他当前水平、最有帮助的读物。这正是现在AI大语言模型训练面临的核心挑战——如何在海量的文本数据中选出最有价值的"食材"来喂养AI。

当前的AI训练就像是开设一家高级餐厅,但食材选择出现了问题。传统的做法要么是厨师提前把所有食材分好类(静态选择),要么是在烹饪过程中凭感觉随意抓取(动态选择)。然而,这两种方法都忽略了一个关键问题:不同的烹饪方法需要不同的食材处理方式,而现有的食材选择完全没有考虑到具体的烹饪工具和技巧。

研究团队发现,目前主流的AI训练优化器(相当于不同的烹饪方法)会对原始数据进行复杂的加工处理,就像用不同的刀法、火候来处理同样的食材。但现有的数据选择方法都假设所有食材都用同样的处理方式,这就像用适合煎蛋的标准去选择做红烧肉的食材一样荒谬。

为了解决这个问题,研究团队开发了一套名为OPUS的全新数据选择框架。这个名字代表"优化器诱导的投影实用性选择",听起来很复杂,但本质就是让数据选择过程充分考虑具体优化器的特性,就像为不同的烹饪方法量身定制食材选择标准。

一、传统方法的局限:为什么现有的数据选择像盲人摸象

在深入了解OPUS之前,我们先来看看现有方法的问题。目前AI训练中的数据选择主要有两大类:静态选择和动态选择。

静态选择就像在超市购物时,提前根据食材的外观、产地、价格等固定标准选好所有食材,然后回家无论做什么菜都用这些食材。比如FineWeb-Edu分类器会根据文本的"教育价值"给每个文档打分,分数高的就选中。这种方法的问题在于,它假设一个文档的价值是恒定不变的,完全不考虑AI模型在训练过程中的学习状态变化。

动态选择则更像是一边做菜一边挑选食材,会根据当前的烹饪状态来调整食材选择。比如GREATS方法会实时计算每个数据样本的"梯度"(可以理解为学习信号的强度),然后选择那些能产生最强学习信号的数据。

但这两种方法都有一个致命缺陷:它们都没有考虑到具体的"烹饪工具"特性。在AI训练中,优化器就相当于烹饪工具,不同的优化器会以完全不同的方式处理数据。就像同样的牛肉,用平底锅煎和用高压锅炖需要完全不同的切法和调料搭配。

现代AI训练主要使用两种先进的优化器:AdamW和Muon。AdamW就像一个智能的多功能厨师机,会根据每种食材的特性自动调整处理方式;Muon则更像一个专业的日式料理师傅,特别擅长精细的刀工处理。但现有的数据选择方法都假设使用的是最简单的菜刀(SGD优化器),这就导致了严重的不匹配。

研究团队通过大量实验发现,这种不匹配会导致训练效率大幅下降。就像用适合简单炒菜的食材搭配去做复杂的法式料理,结果自然不会理想。更糟糕的是,随着AI模型规模越来越大,训练成本越来越高,这种效率损失变得越来越难以承受。

二、OPUS的核心创新:让数据选择与优化器完美配合

OPUS的核心理念可以用一个简单的比喻来理解:它就像一个既懂食材又精通各种烹饪技法的顶级大厨,能够根据具体的烹饪方法来精确选择和处理食材。

传统方法在选择数据时,只看数据本身的"营养价值"(梯度大小),却忽略了不同优化器会如何"消化"这些数据。OPUS则不同,它会模拟每个优化器的具体工作方式,预测每个数据样本经过特定优化器处理后的实际效果,然后据此来选择数据。

具体来说,OPUS的工作流程就像一个精密的餐厅运营系统。首先,它会分析当前使用的"烹饪设备"(优化器)的特性,了解这种设备是如何处理原材料的。比如,AdamW优化器会对每个参数进行个性化的自适应调整,就像智能烤箱会根据不同食材的特性自动调节温度和时间。

然后,OPUS会构建一个"品质检验标准"(代理方向),这个标准来源于高质量的基准数据集。这就像米其林餐厅会有一套严格的出品标准,每道菜都要符合这个标准才能上桌。OPUS通过一种叫做"基准代理"(BENCH-PROXY)的技术,从训练数据中找出那些与高质量基准最相似的样本作为参考标准。

接下来是OPUS最精妙的部分:对每个候选数据样本,它会预测这个样本经过特定优化器处理后,能在多大程度上帮助模型朝着"品质标准"的方向改进。这个预测过程考虑了优化器的所有特性,包括它如何调整学习率、如何处理历史信息、如何应对不同类型的参数等等。

为了提高计算效率,OPUS还采用了两项关键技术。第一项叫做"幽灵技术"(Ghost Technique),它能够在不完全计算每个样本梯度的情况下获得足够的信息进行选择,就像经验丰富的厨师能够通过观察食材的外观、闻味道就知道它的品质,而不需要真正烹饪一遍。

第二项技术叫做CountSketch投影,它将高维的梯度信息压缩到低维空间进行处理,大大降低了计算成本。这就像用快速检测仪器替代复杂的化学分析,既保证了准确性又提高了效率。

三、让选择更加多样化:波尔兹曼采样的智慧

在数据选择中,还有一个容易被忽视但十分重要的问题:如何在选择高质量数据的同时保持多样性。这就像办一场成功的宴会,不能只准备一种再好吃的菜,而是要有合理的搭配。

传统的贪婪选择方法总是挑选当前看起来最好的数据,这就像只挑选最新鲜的鱼来做菜,却忽略了整桌菜的平衡。这种做法的问题在于,它可能会过度集中在某些类型的数据上,导致模型的学习出现偏向。

OPUS采用了一种更智慧的选择策略:波尔兹曼采样。这种方法的灵感来自物理学中的热力学原理,它不是简单地选择分数最高的数据,而是根据数据的质量分数给每个样本分配一个被选中的概率。

这种方法的巧妙之处在于,质量高的数据仍然有更大的被选中概率,但质量稍低但可能带来不同视角的数据也有机会被选中。这就像一个经验丰富的厨师,在选择主菜食材时会偏向最优质的,但同时也会选择一些能够提供不同口味层次的辅助食材。

为了进一步避免选择的同质化,OPUS还设计了一个"冗余惩罚"机制。当系统发现某个数据样本与已经选择的数据过于相似时,会降低其被选中的概率。这确保了选择出的数据集既有高质量,又有足够的多样性。

四、实验验证:在多个场景下的出色表现

研究团队在多个不同的场景下测试了OPUS的性能,结果令人印象深刻。这些测试就像在不同类型的餐厅中验证一套新的食材选择标准是否真的有效。

在从头开始训练GPT-2模型的实验中,OPUS展现出了显著的优势。研究团队使用了FineWeb和FineWeb-Edu两个大规模数据集,这相当于在两种不同质量的食材市场中测试采购策略。结果显示,OPUS在30B个训练token的预算下,平均比随机选择提高了2.2%的准确率,同时实现了8倍的计算效率提升。

更令人惊讶的是,OPUS训练的模型甚至能够超越使用全部200B token训练的传统方法。这就像用精心挑选的食材做出的菜肴,品质超过了使用大量普通食材制作的料理。

在一个特别严苛的测试中,研究团队让OPUS从相对低质量的数据池中选择样本,而让其他基线方法使用高质量数据。即使在这种不公平的对比中,OPUS仍然取得了最佳的性能。这证明了好的选择策略确实能够化腐朽为神奇,让普通食材发挥出超常的价值。

除了从头训练,研究团队还在继续预训练场景中测试了OPUS。他们使用Qwen3-8B-Base模型在SciencePedia科学数据上进行专业化训练。结果显示,OPUS仅使用0.5B个token就达到了传统方法使用3B token的效果,数据效率提升了6倍。

这个结果特别重要,因为它表明OPUS不仅在通用训练中有效,在专业领域的知识注入中也同样出色。这就像一套好的食材选择标准,不仅适用于家常菜,在制作专业料理时也能发挥重要作用。

五、技术细节:如何让复杂的算法变得可行

OPUS的成功不仅在于理念的创新,更在于技术实现上的巧思。研究团队面临的最大挑战是如何在保证选择质量的同时控制计算成本。

传统的影响函数方法虽然理论上很完美,但计算成本高得离谱,就像要为每道菜都配备专门的营养师进行详细分析。OPUS通过几项关键的技术创新解决了这个问题。

首先是对不同优化器的数学建模。研究团队深入分析了AdamW和Muon两种主流优化器的数学原理,推导出了它们的线性化近似公式。这就像研究不同烹饪方法的科学原理,理解它们是如何改变食材的分子结构的。

对于AdamW优化器,研究团队发现它本质上对每个参数应用了不同的缩放因子,这些因子基于参数的历史梯度统计信息。对于Muon优化器,情况更加复杂,它使用了矩阵正交化技术,相当于对参数进行了更精细的几何变换。

为了高效地处理这些复杂的变换,OPUS采用了几项巧妙的近似方法。比如在处理验证梯度时,它使用了一阶泰勒展开来避免昂贵的二阶计算。在处理Hessian矩阵时,它使用了等向性近似来大幅简化计算。

CountSketch投影技术是另一个关键创新。这种技术能够将高维向量压缩到低维空间,同时保持内积运算的无偏估计。研究团队将sketch维度设置为8192,对于参数量达到千万级的模型来说,这相当于实现了1000多倍的压缩比。

六、效率分析:少量开销换来巨大提升

任何新技术的实用价值最终都要看它的成本效益比。OPUS在这方面表现得相当出色,它仅仅增加了4.7%的计算开销,却带来了显著的训练效果提升。

这个开销主要来自三个方面:代理方向的计算、候选样本的特征提取,以及CountSketch投影。研究团队通过精心的工程优化,将这些操作的成本控制在了最低水平。

相比之下,如果使用传统的动态选择方法进行同样精度的数据选择,计算开销可能会达到350%以上。这就像用手工方式做精细食材处理和使用专业设备的区别,效率相差悬殊。

更重要的是,OPUS带来的训练效果提升远远超过了这点额外开销。在某些实验中,OPUS训练的模型达到相同性能水平所需的数据量只有传统方法的1/8。考虑到大规模AI训练的数据处理成本,这种效率提升的经济价值是巨大的。

七、未来展望:数据选择的新时代

OPUS的成功标志着AI训练数据选择进入了一个新的阶段:从经验驱动转向科学驱动,从静态标准转向动态适应,从单一指标转向综合优化。

这项研究的意义不仅在于提出了一个新的数据选择方法,更重要的是它建立了一个新的研究范式。它表明,要真正优化AI训练过程,我们不能孤立地看待数据、算法和优化器,而是要将它们作为一个整体系统来考虑。

研究团队在论文中也指出了一些未来的研究方向。比如,如何将OPUS扩展到多模态数据(图像、音频等)的选择中,如何在更复杂的混合数据集上应用这种方法,以及如何进一步降低计算成本等。

随着AI模型规模的不断增长和训练成本的急剧上升,高效的数据选择技术将变得越来越重要。OPUS为这个领域提供了一个强有力的工具和一个新的思路。它不仅能够帮助现有的AI系统提高训练效率,更可能为未来更大规模、更智能的AI系统铺平道路。

说到底,OPUS的核心理念其实很简单:要想做出好菜,不仅要有好食材,还要了解你的烹饪工具,让食材和工具完美配合。这个简单的道理在AI训练中同样适用,而OPUS正是将这个道理转化为了可行的技术方案。对于那些正在为AI训练效率和成本头疼的研究者和工程师来说,OPUS无疑提供了一个值得尝试的新选择。

Q&A

Q1:OPUS数据选择方法与传统方法有什么本质区别?

A:OPUS的核心区别在于它会根据具体使用的优化器(如AdamW、Muon)来选择数据,而传统方法都假设使用最简单的SGD优化器。就像根据不同的烹饪方法来选择食材,而不是用统一标准选择所有食材。

Q2:OPUS如何在保证选择质量的同时控制计算成本?

A:OPUS通过幽灵技术避免完全计算每个样本的梯度,使用CountSketch投影将高维信息压缩到低维空间处理,这样只增加4.7%的计算开销就实现了高质量的数据选择。

Q3:OPUS适用于哪些AI训练场景?

A:OPUS既适用于从头开始训练大语言模型,也适用于在特定领域继续训练的场景。实验表明它在通用数据集FineWeb和专业数据集SciencePedia上都取得了显著的效果提升。

来源:https://www.163.com/dy/article/KLH4OG4L0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14