蚂蚁集团发布时序预测新基准揭示AI预测真实能力

首页

热心网友

转载

2026-05-14

2026年3月，一项由蚂蚁集团主导的突破性研究在arXiv预印本平台发布（论文编号：arXiv:2603.26017v1），为时间序列预测领域带来了一个全新的评估标准。这项研究直指该领域长期存在的一个核心痛点：缺乏一个真正可靠、公正的“考场”来衡量AI模型的真实预测能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

蚂蚁集团发布时间序列预测新基准：揭开AI预测能力的真实面纱

评估AI的预测能力，就像评判一位天气预报员的水平——如果每次测试的天气类型、地域范围都不同，得出的结论自然有失偏颇。蚂蚁团队所做的，正是为时间序列预测构建了一个前所未有的标准化测试平台。他们不仅创建了包含16亿个数据点的庞大数据集QUITO，更基于此开发了名为QUITOBENCH的评估基准。

这项工作的独特价值在于，它首次从根源上解决了长期困扰学界的“数据泄露”问题。以往许多公开基准由开源数据集拼凑而成，导致模型在“考试”时可能已经“预习”过类似题目。而QUITO数据集全部来自支付宝平台的真实业务流量，从未公开，确保了评估的“闭卷”真实性。

更引人深思的是，研究得出了一个碘伏常规认知的结论：在时间序列预测任务中，并非参数越多、体积越大的模型就一定表现更好。这好比在汽车引擎的世界里，一台经过精密调校的小排量发动机，其综合效能有时会超越一台粗糙制造的大排量引擎。

一、解决时间序列预测的评估困境

时间序列预测并不神秘，它渗透在日常生活的方方面面：从股票价格的波动，到节假日电商平台的流量高峰，再到城市交通的潮汐变化，本质上都是基于历史数据预测未来趋势。

然而，如何公正地评估一个AI模型的预测能力，却一直是个难题。蚂蚁团队的分析指出，现有主流评估方法存在四个关键缺陷：

首先是标准缺失。 在计算机视觉和自然语言处理领域，早有ImageNet、GLUE等公认的“金标准”基准。但时间序列预测领域却长期处于“各自为政”的状态，缺乏统一、权威的测试集，导致不同研究间的结果难以直接比较。

其次是基准设计失衡。 目前广泛使用的GIFT-Eval和Timer等基准，其数据分布存在严重偏斜。例如，Timer基准中超过76%的数据集中在同一种相对简单的预测场景中。这就好比一场考试，如果绝大部分题目都是基础算术，那么一个只擅长算术的学生也能拿到高分，但这根本无法反映他解决复杂应用题的真实能力。

第三是隐蔽的信息泄露。 由于基准数据多来自公开数据集，而许多模型在训练时也使用了同源或相似的数据，导致评估时存在直接或间接的“数据污染”，高估了模型的泛化能力。

最后是序列长度不足。 现有基准中过半数据序列短于200个时间点，这难以充分考验模型捕捉长期依赖关系和进行远期预测的能力。

二、构建全新的评估标准

面对这些根本性问题，蚂蚁团队选择另起炉灶，构建了一套全新的评估体系。其核心是规模空前的QUITO数据集，它涵盖了支付宝在金融支付、电商交易、广告、风控等九大核心业务领域的真实流量数据，总计16亿个数据点。

所有数据均来自同一封闭商业生态，彻底杜绝了信息泄露的可能。每个数据序列的长度在5900到15300个点之间，为评估长期预测能力提供了坚实基础。

真正的创新在于其分类逻辑。传统基准通常按数据来源的领域（如“交通”、“电力”）分类，但同一领域的数据其预测难度可能天差地别。为此，研究团队提出了全新的“TSF分类法”，即依据数据本身的三个内在统计特征进行分类：

趋势强度： 数据是否存在明确的长期上升或下降方向。
季节性强度： 数据是否呈现稳定的周期性波动模式。
可预测性： 数据变化的规律性程度。

通过这三个维度的组合，所有数据被划分为八种类型（如“高趋势-高季节性-高可预测性”）。关键在于，QUITOBENCH确保了这八类数据在评估中的占比基本均衡，各占约12.5%。这就像设计了一份试卷，确保基础题、中等题和难题的分值比例合理，从而能全面、公正地考察学生的真实水平。

三、震撼人心的实验发现

基于QUITOBENCH，研究团队对十种主流模型进行了大规模测试，产生了超过2320万个预测结果。结论挑战了许多固有认知：

发现一：“上下文长度交叉点”。 在短期预测（使用96个历史点）中，传统深度学习模型表现更优；但当历史数据足够长（达到576点或更多）时，大型预训练基础模型则实现反超。这揭示了一个重要规律：模型的选择高度依赖于可用历史数据的长度。传统模型像是“专科医生”，在信息有限时能快速给出精准判断；而大型基础模型则像“全科专家”，需要更丰富的“病历”（历史数据）来调动其广泛的知识储备。

发现二：可预测性是关键。 在影响预测难度的三大特征中，数据的“可预测性”影响力远超“趋势”和“季节性”。最容易预测的类型与最难预测的类型之间，模型误差差距高达3.64倍。这意味着，数据内在的规律性，比它属于哪个行业更能决定预测的成败。

发现三：小模型的高效逆袭。 参数仅百万级的深度学习模型CrossFormer，其预测精度竟超越了参数达亿级的大型基础模型Chronos-2。换言之，要达到相近的预测效果，前者所需的参数量比后者少了59倍。这在追求“大即是美”的潮流下，提供了一个关于计算效率的重要注脚。

发现四：数据优于参数。 对于提升模型性能，增加训练数据量远比单纯扩大模型规模更有效。当训练数据从1万激增至1亿时，CrossFormer模型的预测误差降低了66%。这明确指向一个结论：在模型优化上，投资于获取更多高质量数据，往往比盲目堆砌参数更具性价比。

四、深入剖析模型表现差异

进一步的细分分析揭示了更多有价值的洞见：

在应对不同预测时长时，深度学习模型表现出更好的稳定性。当预测步长从48大幅增加至512时，深度学习模型的误差增长幅度（15%-34%）普遍小于基础模型（31%-37%）。一个有趣的例子是简单的线性模型DLinear，其长期预测的稳定性最佳。

在多变量预测（同时预测多个相关指标）任务中，基础模型通常更具优势，可能得益于其预训练过程中对复杂关联模式的学习。而在单变量预测上，深度学习模型则稍占上风。

研究还识别出一类极具挑战性的“病态场景”：高趋势、低季节性、低可预测性。面对这类数据（例如某些剧烈波动的新兴市场指标），所有现有模型都显得力不从心，预测误差比最简单场景高出近3倍。这为未来研究指明了攻坚方向。

五、方法创新的技术细节

研究的严谨性体现在其方法论上。团队采用基于STL分解的方法精确量化趋势与季节性强度，并创新性地使用“频谱熵”来度量数据的可预测性——规律性强的信号，其能量会集中在少数几个频率上。

在评估策略上，QUITOBENCH采用了密集滚动窗口评估。不同于传统稀疏采样，该方法以单位步长滑动，为每个时间序列生成数百甚至上千个测试窗口，极大提升了评估结果的统计稳健性。

六、跨基准一致性验证

为确保结论可靠，团队将模型在QUITOBENCH上的排名与在传统Timer基准上的排名进行了对比。结果显示，尽管两个基准差异显著，但模型排名的相关系数高达0.865。这种强相关性有力证明了QUITOBENCH评估结果的有效性和普适性，也侧面印证了其基于数据内在特征（TSF）分类的科学性。

七、实用指导意义

这项研究为业界提供了清晰的行动指南：

模型选择： 若历史数据短（<500点）或计算资源有限，优先考虑高效的深度学习模型（如CrossFormer）。若数据充足且季节性明显，大型基础模型（如Chronos-2）可能效果更佳。
优化重点： 应将更多资源投入高质量数据的收集与治理，而非一味追求模型复杂度。
应对难题： 对于“病态”数据，建议采用模型集成策略，并加强预测结果的不确定性量化，为决策者提供风险提示。

归根结底，它传递了一个核心决策原则：没有“放之四海而皆准”的最佳模型，只有最适合特定场景、数据条件和资源约束的模型。