首页 游戏 软件 资讯 排行榜 专题
首页
AI
南洋理工大学新发明卡尔曼滤波器解决AI训练崩溃难题

南洋理工大学新发明卡尔曼滤波器解决AI训练崩溃难题

热心网友
32
转载
2026-05-14

最近,新加坡南洋理工大学与东南大学合作的一项研究,在预印本平台arXiv上发布了一篇引人注目的论文(编号:arXiv:2602.10609v1)。这项研究直指当前大语言模型训练中的一个顽疾,并提出了一个相当巧妙的解决方案,其灵感竟然来自半个多世纪前的航天技术。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新加坡南洋理工大学发明

想象一下,训练一个大模型,就像指导一个学生进行复杂的数学推导。传统的方法有个根深蒂固的毛病:它会为句子中的每个词计算一个“重要性分数”,但这个分数常常起伏不定,活像一位情绪化的老师,对前后相邻的词语给出天差地别的评价。这种内在的不一致性,正是导致训练过程摇摆不定、甚至最终彻底“翻车”性能崩溃的元凶之一。

研究团队在对Qwen3-4B模型的深入剖析中,清晰地捕捉到了这一现象。在数学推理任务中,相邻词语间的重要性评分波动剧烈,切换频率高达41%。这意味着几乎每两个词,模型对它们的“重视程度”就要变一次脸。更成问题的是,连续保持同一评分的词语平均长度仅有1.48个,这种极端的短暂性,暴露了训练过程严重缺乏局部连贯性。

那么,如何给这位“情绪化老师”配一位沉稳的“辅导员”呢?团队给出的答案叫做“在线因果卡尔曼滤波策略优化”(KPO)。其核心思想,是引入一个源自航天导航的经典算法——卡尔曼滤波器,来平滑这些重要性评分。这个滤波器会持续观察评分的历史轨迹,当发现某个词的评分与周围环境格格不入时,便会基于整体趋势进行温和的调整,既保留了必要的区分度,又避免了毫无意义的剧烈跳动。

一、核心问题的发现:为什么AI训练会“翻车”

要理解KPO的妙处,得先看清它要解决什么问题。研究团队首先瞄准了当前主流训练方法GRPO(群体相对策略优化)。GRPO被OpenAI、DeepSeek等顶尖公司广泛采用,其核心是为每个词分配一个重要性比值,用以衡量新模型相对于旧模型对该词的关注变化。

然而,分析揭示了这些比值背后令人担忧的结构性缺陷。通过对960个训练样本的细致拆解,三个关键现象浮出水面:

首先是“频率递增效应”。在一个句子中,越靠后的词语,其重要性评分偏离正常轨道的概率就越高。这好比一个学生在做长篇证明题,开头思路清晰,越到后面越容易出错。

其次是“短命效应”。无论是偏离还是正常的评分,都难以持久。偏离评分的连续长度平均仅1.48个词,正常评分也只能维持3.53个词。这种频繁的“变脸”,让训练过程如同在颠簸路面行驶,始终处于震荡之中。

最后是“频繁切换效应”。相邻词语间评分发生突变的概率高达41%,缺乏基本的局部一致性。这就如同指挥家的手势忽快忽慢,整个乐团的演奏自然难以协调。

这三个现象共同指向一个根源:传统方法将每个词语视为孤立的个体,完全忽视了自然语言中相邻词语在语义上的关联性。这种“时间关系”的缺失,在需要多步逻辑链的数学推理任务中尤为致命——任何中间步骤的评分波动,都可能像多米诺骨&牌一样,导致整个推理链条的崩塌。

二、卡尔曼滤波器的妙用:从航天技术到AI训练

卡尔曼滤波器,这个诞生于20世纪60年代阿波罗登月计划中的数学工具,其核心任务是:在观测数据充满噪声的情况下,结合历史信息与当前观测,最优地估计一个运动物体的真实轨迹。

研究团队敏锐地意识到,AI训练中重要性评分的追踪问题,与追踪航天器轨迹在数学本质上是相通的。每个词语的真实重要性好比航天器的真实位置,而我们算出的带噪声的评分就是有误差的观测数据。卡尔曼滤波器的作用,正是将这些跳跃的“观测点”连接成一条平滑、合理的“轨迹”。

不妨用一个更生活的比喻:在大雾天开车,GPS信号飘忽不定。一个聪明的导航系统不会对每个跳变的GPS点信以为真,而是会综合你的车速、方向盘角度和历史轨迹,推断出你最可能行驶在道路的哪个位置。KPO中的卡尔曼滤波器,扮演的正是这个“聪明系统”的角色。

具体来说,KPO的运行像一场精密的三步舞:

第一步是预测。基于前一个词的重要性估计,预测当前词的重要性趋势。

第二步是计算增益。这个“增益”相当于一个信任度参数,介于0到1之间。它决定了在更新估计时,应该多大程度上相信新的观测值。如果历史轨迹很可靠而新观测看起来噪声很大,增益就低;反之则高。

第三步是更新。将预测值与新观测值按“信任度”进行加权平均,得出最终的最优估计。这个过程确保了结果既不会因过于保守而忽视真实变化,也不会因过于激进而被噪声带偏。

整个过程完全在线、因果进行,无需预知未来信息,这与语言模型逐词生成的特性完美契合。为了微调滤波效果,团队引入了两个关键参数:过程噪声Q和观测噪声V。调整Q/V的比值,就能在“快速响应真实变化”与“坚决抵抗随机噪声”之间找到最佳平衡点。

三、实验验证:数学推理能力的显著提升

理论是否有效,需要严苛的实验来证明。研究团队在六个高难度数学推理数据集上进行了全面测试,包括AIME、AMC、MATH500等涵盖中学到奥赛级别的题库。

在严格控制变量(相同基础模型、数据、硬件)的条件下,KPO与包括原始GRPO在内的多种主流方法同台竞技。评估采用生成16个答案取最优的策略,关键指标是pass@16(至少有一个答案正确的概率)和a vg@16(16个答案的平均正确率)。

结果令人信服。KPO在绝大多数基准测试中都取得了领先,尤其在最具挑战性的AIME竞赛题上优势明显。在AIME‘24中,KPO的a vg@16达到37.91%,比最强基线高出5.21个百分点。在AIME’25中,提升更为显著,a vg@16从29.16%跃升至36.87%,pass@16也从50%提升至60%。

一个有趣的发现是,KPO带来的提升与题目难度正相关。在相对简单的AMC选择题上优势温和,而在需要多步复杂推理的AIME问题上则大放异彩。这恰恰说明,卡尔曼滤波带来的序列稳定性,对长逻辑链任务至关重要。

团队还分析了训练动态。原始GRPO在训练约200步后就开始出现不稳定迹象:奖励曲线下降,策略熵(可理解为探索性)坍塌至接近零,模型陷入僵化。反观KPO,其奖励曲线持续平稳上升,熵值保持健康水平,策略梯度损失波动显著减小,整个训练过程显得稳健而可靠。

四、滤波前后的对比分析:从混乱到有序的转变

卡尔曼滤波器究竟对重要性评分序列做了什么?一系列统计分析给出了清晰的“体检报告”。

最直观的变化是词语类型比例。滤波后,评分“正常”(等于1)的词语比例从53%大幅降至22%,而“上偏离”(大于1)和“下偏离”(小于1)的词语比例相应增加。这并非坏事,关键在于“偏离”的质量发生了变化。

运行长度分析揭示了核心改善。滤波前,无论哪种类型的评分都“短命”,平均连续长度不超过3.53个词。滤波后,情况彻底改变:上偏离和下偏离的词语能分别稳定持续约120个和135个词,正常词语也能持续35个词以上。这意味着评分形成了长期、稳定的段落,保证了推理过程的局部连贯性。

切换频率的暴跌是另一有力证据。滤波前高达43%的切换率(几乎每两个词就变一次)在滤波后骤降至1%。这表明相邻词语的评分类型几乎总是一致。

从信号分析的角度看,滤波前的重要性评分序列是典型的高频噪声信号(低频能量占比仅12%)。滤波后,低频能量占比飙升至98%,序列变成了由缓慢趋势主导的平滑信号。同时,序列的全局方差和局部窗口方差都下降了数个数量级,接近为零。所有这些数据都一致表明:卡尔曼滤波器成功地将一个破碎、嘈杂的序列,转化为了结构清晰、连贯平滑的序列。

五、参数调优:在响应性和稳定性间寻找平衡

卡尔曼滤波器的表现,很大程度上取决于过程噪声Q与观测噪声V的比值(Q/V)。这个比值本质上是滤波器在“相信变化”与“相信历史”之间的权衡杠杆。

团队测试了从强平滑(Q/V=1e-6)到弱平滑(Q/V=1e-2)的不同设置。实验结果指向明确的结论:较强的平滑设置(Q/V较小)通常带来更优的训练稳定性和最终性能。强平滑设置的训练奖励最高,学习曲线平稳上升;而弱平滑设置则可能出现中期性能退化。

这为实践提供了指导:在多数情况下,倾向于使用较强的平滑。当然,参数选择也需因地制宜。例如,对于内在变异性更大的模型(如混合专家模型),可能需要适当调高Q值以增加响应速度。而对观测数据信心不足时,则应调高V值。

六、技术创新与理论贡献

KPO的价值远不止于提升几个百分点准确率。其核心创新在于将时间序列分析与控制论的经典工具,创造性地引入了强化学习训练框架。

最大的理论贡献之一是引入了状态空间建模。传统方法将词语评分视为独立变量,KPO则将其建模为一个动态系统的潜在状态,观测值则是带噪声的采样。这一框架为处理噪声、建立时间依赖关系提供了原理性基础。

在线因果性设计确保了滤波过程与语言模型自回归生成的特性严格一致,避免了使用未来信息。轻量级的线性计算复杂度,则让KPO能轻松集成到现有训练流程中,而不带来显著负担。

更重要的是其通用性与启发性。虽然实验聚焦数学推理,但KPO的思想适用于任何需要序列一致性的任务,如代码生成、长文本创作。它开创了一个方向:用控制理论等传统工程智慧,来解决现代AI训练中的稳定性难题。

七、实际应用前景与影响

这项研究的实际意义可能非常深远。当前大模型的训练动辄消耗数百万美元的计算资源,任何能提升训练稳定性和效率的方法,都蕴含着巨大的经济价值。KPO有望让训练过程更“鲁棒”,减少失败的尝试,从而直接降低成本和缩短开发周期。

模型数学推理能力的切实提升,也将拓宽其应用边界。从个性化教育辅导、科学研究辅助,到金融分析和工程设计,更可靠的逻辑推理能力意味着AI能在更多专业领域扮演关键角色。

此外,KPO作为一种即插即用的组件,其开源发布将降低高质量模型训练的技术门槛,有益于整个AI生态的健康发展。它同时也抛出了一个值得深思的命题:在追求更复杂神经网络架构的同时,从经典控制理论、信号处理等领域汲取灵感,或许能带来意想不到的突破。

当然,挑战依然存在。例如,卡尔曼滤波的序列化计算特性与当前高度并行化的训练硬件如何更好协同,仍需探索。但毫无疑问,这项工作为构建更稳定、更可控的大型AI模型,点亮了一条富有前景的新路径。

Q&A

Q1:卡尔曼滤波策略优化(KPO)是什么?

A:KPO是一种新型的AI训练方法,它借鉴航天工程中的卡尔曼滤波器,来平滑训练过程中为每个词语计算的重要性评分,从而解决训练不稳定的问题。你可以把它理解为给训练过程安装了一个“智能稳定器”。

Q2:KPO解决了什么问题?

A:它主要解决了传统方法中重要性评分剧烈波动、缺乏连贯性的问题。这种波动会导致训练过程震荡甚至崩溃,尤其是在处理数学推理等需要长序列逻辑的任务时。KPO通过滤波使相邻词语的评分保持合理的一致性,极大提升了训练稳定性。

Q3:KPO的效果有多好?

A:在多项数学推理基准测试中,KPO都显著超越了现有方法。例如,在AIME‘24和AIME’25两个高难度数据集上,模型准确率分别提升了约5个和7个百分点。同时,其训练过程曲线明显更平滑,避免了传统方法中常见的性能崩溃现象。

来源:https://www.techwalker.com/2026/0313/3181073.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

港科大研发AI数据筛选新方法 机器学习训练效率提升一倍
AI
港科大研发AI数据筛选新方法 机器学习训练效率提升一倍

这项由香港科技大学(广州)、伦敦大学学院与快手科技等机构合作的前沿研究,于2026年3月3日发布在arXiv预印本平台(编号:arXiv:2603 01907v1)。研究团队创新性地提出了一种名为INSIGHT的全新训练数据选择策略,旨在显著提升大语言模型在强化学习训练中的效率与效果。 当前,训练一

热心网友
05.13
LinkedIn揭秘AI训练陷阱:智能识别与纠正自信错误
AI
LinkedIn揭秘AI训练陷阱:智能识别与纠正自信错误

训练大型语言模型解决数学难题时,我们常常发现一些反直觉的规律。近期,LinkedIn Corporation的研究团队(论文arXiv:2602 21420v1)揭示了一个关键发现:常规的训练策略,可能会在无意中导致AI模型变得“思维固化”和“过度自信”。 这个过程类似于教导学生。我们通常通过反复练

热心网友
05.13
斯坦福英伟达联合研究揭示AI训练中重复数据为何更有效
AI
斯坦福英伟达联合研究揭示AI训练中重复数据为何更有效

这项由纽伦堡科技大学、Mistral AI和英伟达联合开展的研究,为我们理解AI如何学习复杂推理,打开了一扇碘伏性的窗口。其论文编号为arXiv:2602 11149v1,有兴趣的读者可以查阅。 想想我们是怎么教孩子学数学的?通常会让他在同一类题目上反复练习,直到彻底掌握。然而,在人工智能的训练领域

热心网友
05.13
北卡罗来纳大学联合Snowflake打造AI训练平台 一键生成虚拟环境助智能体学习使用工具
AI
北卡罗来纳大学联合Snowflake打造AI训练平台 一键生成虚拟环境助智能体学习使用工具

2026年2月,一项由北卡罗来纳大学教堂山分校与Snowflake实验室联合主导的突破性研究,为AI智能体的训练范式带来了革命性变革。这项研究(论文编号arXiv:2602 10090v1)首次实现了大规模、可执行虚拟环境的全自动化生成,为解决“如何让AI智能体学会使用工具”这一核心挑战,提供了一个

热心网友
05.12
美团AI攻克训练难题:实现均衡稳定智能问答
AI
美团AI攻克训练难题:实现均衡稳定智能问答

与ChatGPT这类大模型对话时,你是否留意过一种现象?有时它的回答详尽周到,有时却惜字如金。这看似随机的表现差异,背后其实指向了人工智能训练过程中一个长期被忽视的技术症结。近期,美团研究团队的一项工作,不仅精准定位了问题的根源,更提出了一套简洁而有效的解决方案。 不妨将这个过程比作教导学生写作。传

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

马中新能源论坛探讨产业合作与人才培养新路径
科技数码
马中新能源论坛探讨产业合作与人才培养新路径

5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域

热心网友
05.14
智元APC香港观察:具身智能如何成为先进生产力单元
科技数码
智元APC香港观察:具身智能如何成为先进生产力单元

具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim

热心网友
05.14
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号
科技数码
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号

向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似

热心网友
05.14
浙江大学万能分割学习器技术原理与应用场景详解
科技数码
浙江大学万能分割学习器技术原理与应用场景详解

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车

热心网友
05.14
比亚迪大汉纯电续航1000公里对标56E车型参数曝光
科技数码
比亚迪大汉纯电续航1000公里对标56E车型参数曝光

“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-

热心网友
05.14