首页 游戏 软件 资讯 排行榜 专题
首页
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

热心网友
63
转载
2026-05-16

在时间序列预测领域,一个长期存在的现象引人深思:模型架构本身,从经典的循环神经网络到前沿的Transformer,再到各类频域与混合模型,其演进可谓日新月异。然而,绝大多数模型的训练,却始终依赖于同一类损失函数——以均方误差(MSE)为代表的逐点误差度量。

这导致了方法论上的隐性停滞:研究焦点持续向提升模型表达能力倾斜,而对损失函数背后所隐含的统计前提与根本假设,却缺乏系统性的审视与革新。

那么,逐点误差损失的核心假设究竟是什么?它默认,在给定历史序列的条件下,未来各个时间步的预测目标是彼此独立的。但关键在于,这一假设与时间序列数据真实的生成机制存在根本性矛盾。现实世界的时间序列由复杂的随机过程演化而来,前后时刻之间通常存在显著的自相关性与依赖关系。将多步预测强行拆解为一组独立的回归任务,无疑为损失函数植入了结构性偏差,使得模型难以有效捕捉标签序列的整体趋势、周期模式、内在相关性以及复杂的条件依赖。

针对这一核心矛盾,北京大学林宙辰教授团队进行了深度剖析,并创新性地提出了DistDF:一种通过联合分布对齐来训练预测模型的新型损失函数。这项工作的价值,不仅在于为时间序列预测提供了更优的工具,更在于对序列建模中“我们究竟应该优化什么”这个长期被默认的命题,给出了一个颠覆性的答案。

当独立性假设被实验数据证伪

当前,时间序列预测的主流方法普遍采用均方误差(MSE)作为损失函数:

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

这个简洁公式的背后,隐含着一个强烈的统计学假设:给定历史序列后,未来各时间点的观测值彼此独立。然而,真实世界的时间序列标签通常存在显著的自相关性。因此,MSE所依赖的独立性假设与数据的真实生成过程相悖,这直接导致了它作为一种损失函数是存在偏差的(具体论证见定理1)。

[定理1] 考虑单变量标签序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$,其条件自相关矩阵为$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$,则标签序列的实用负对数似然可表示为:$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。显然,仅当$$\mathbf{\Sigma}_\mathbf{x}$$是单位阵,即标签自相关不存在时,才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

研究团队通过详尽的实证分析验证了这一矛盾:即使在给定历史序列的条件下,标签序列依然呈现出显著的条件相关结构,从而在数据层面证伪了独立性假设。实验进一步揭示,即便对标签进行频域变换或主成分分析等预处理,变换后的序列中依然存在残余相关性。这意味着,即使在变换后的特征空间里应用MSE,其固有的结构性偏差依然无法根除。

DistDF:基于分布对齐的序列预测损失函数

为了从根本上规避传统方法的独立性假设,DistDF的核心思想是直接对齐模型预测序列的条件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$与真实标签序列的条件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直观上,这可以通过最小化两个条件分布之间的距离$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$来实现。

然而,直接操作会遇到严峻的样本稀缺挑战。对于一段特定的历史序列$$\mathbf{x}$$,数据集中通常只有一个对应的真实标签序列$$\mathbf{y}$$,模型也只会产生一个预测序列$$\hat{\mathbf{y}}$$。这种“单样本”场景使得直接估计条件分布距离在统计上极不稳定且不可靠。

如何破解这一难题?团队巧妙地运用了概率论中的基本恒等式:$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。由于边缘分布$$\mathbb{P}(\mathbf{x})$$是模型与数据共享的,如果联合分布实现了对齐,那么条件分布自然也就对齐了。基于此洞见,他们将棘手的条件分布匹配问题,转化为了更可行、更稳定的联合分布匹配问题。

进一步结合最优传输理论,论文证明了联合分布的Wasserstein距离构成了条件分布Wasserstein距离期望的上界:

$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

因此,通过最小化历史-预测联合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$与历史-标签联合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之间的Wasserstein距离,就能有效驱动条件分布的对齐,从而实现预测模型的无偏训练。更重要的是,这一转换允许我们利用整个数据集的样本批量估计联合分布距离,显著提升了估计的统计效能与可靠性。

DistDF的具体实现流程清晰而高效:

首先,构造联合序列:$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$;

接着,计算这两个联合序列之间的Wasserstein距离:$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$,

最后,与传统的MSE损失进行加权融合,形成最终训练目标:$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

作为一种与模型架构无关的损失函数,DistDF可以灵活适配于各类时间序列预测模型。

大量实验一致验证其性能优势

论文首先将DistDF与现有旨在削弱标签相关性的损失函数(如FreDF和Time-o1)进行了全面对比。结果表明,这些方法虽然通过标签变换减少了似然估计的偏差并提升了性能,但残差偏差仍然存在,因此性能仍有提升空间。而DistDF通过直接最小化条件分布之间的距离,实现了预测模型的无偏训练,从而在多个基准数据集上取得了最佳的预测精度。

其次,通过系统的消融实验,团队验证了分布对齐中两个关键统计矩的作用:分别考察仅对齐一阶矩(均值)、仅对齐二阶矩(协方差)以及同时对齐二者的情形。结果显示,两者单独对齐时均能带来性能提升,而二者同时对齐时效果最为显著,证明了完整分布对齐的必要性。

此外,论文还对模型输出的预测序列进行了可视化分析。结果表明,采用DistDF训练的模型能够更敏锐地捕捉并跟随序列中的突发变化与转折点,使得预测序列在整体形态、波动模式上更加贴近真实数据。这进一步说明,DistDF的作用不仅在于降低数值误差,更在于引导模型学习到了真实未来时间序列的整体概率分布形态。

最后,论文广泛验证了DistDF与不同预测模型的兼容性与普适性。实验结果显示,无论基础模型是简单的线性模型还是复杂的深度网络(如Transformer、Informer等),引入DistDF作为训练策略后,模型的预测性能几乎都能获得一致且显著的提升。这一结果强有力地表明,DistDF的作用并非弥补特定模型结构的缺陷,而是提供了一种更优的、通用的训练范式与优化信号。

「多任务学习」亟需分布对齐视角

从更广阔的机器学习视角看,这项研究深刻地重新审视了多任务学习场景中的损失函数设计。研究团队强调,多任务学习的核心目标不应局限于对T个独立的任务标签进行逐点建模,而应转向对一个在任务维度上具有内在相关结构的随机过程进行整体建模。

在这一全新视角下,传统损失函数(如MSE)所隐含的“给定输入条件下各任务标签相互独立”的假设,实际上将一个高维、相关的随机过程建模任务,错误地简化并退化为一组彼此独立的标量回归任务。正是由于忽略了输出标签之间的内生相关性结构,这些传统损失函数才引入了系统性的偏差。

DistDF通过将预测序列与真实标签序列建模为完整的概率分布,实现了对任务维度上相关结构的整体性建模。优化基于分布对齐的损失函数,使得模型能够显式地学习并复现标签序列的整体形态、协方差结构以及复杂的条件依赖关系。

更进一步,这项研究揭示的问题具有高度的普适性。只要机器学习任务的输出构成具有显著相关性的序列——无论是语音识别中的梅尔频谱、图像生成中的像素序列、自然语言处理中的文本,还是用户行为分析中的轨迹序列——如果仍然沿用基于独立性假设的损失函数(如MSE或MAE),就必然会引入结构性偏差,限制模型性能上限。因此,DistDF所倡导的联合分布对齐思想,不仅为时间序列预测指明了新方向,也同样为语音合成、视频预测、轨迹生成等序列输出任务提供了深刻的启示。它并非针对时间序列的特定技巧,而是为多任务学习与序列建模问题提供了一种更为通用、更为本质的损失函数构造新范式。

本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持。

来源:https://www.leiphone.com/category/ai/5oydINXpChEjEWjL.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案
AI
松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案

英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。

热心网友
05.16
Concordium CCD币全面解析:发行机制、应用场景与投资前景
web3.0
Concordium CCD币全面解析:发行机制、应用场景与投资前景

Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。

热心网友
05.16
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区
AI
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区

上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。

热心网友
05.16
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录
AI
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录

具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。

热心网友
05.16
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局
AI
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局

TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。

热心网友
05.16