树模型与表格建模的规模化应用与未来趋势

首页

树模型与表格建模的规模化应用与未来趋势

热心网友

转载

2026-05-19

一张H100 GPU的算力，大约相当于多少个Hadoop集群节点？

站在2026年的视角回望，这个对比极具启示意义：单张H100 GPU（FP16精度）的峰值计算能力，大致等同于200台搭载96核CPU的传统Hadoop服务器实例。

这一巨大差距背后，揭示了一个深刻的行业现状：尽管AI芯片算力正以指数级速度狂飙，但在金融风控、医疗诊断、电商推荐、工业预测等核心商业场景中，处理结构化数据的主流建模方法，依然是以XGBoost、LightGBM和随机森林为代表的树模型及其定制化方案。

一方面，科技界正通过千亿、万亿参数的大语言模型推动通用人工智能的边界；另一方面，在直接产生商业价值的业务决策核心，承担关键预测任务的，往往仍是那些历经考验的“经典”算法。这种鲜明的对比促使我们思考：在算力革命已然发生的今天，结构化数据建模的“技术范式”，是否也到了需要全面升级的关键节点？

“苦涩的教训”与结构化数据建模的挑战

从人工智能发展史来看，大模型的成功印证了Richard Sutton提出的“苦涩的教训”：长远来看，那些能够充分利用计算规模增长的通用方法，最终总会超越依赖人类先验知识与复杂手工设计的系统。

大语言模型是这一规律的典范——通过统一的Transformer架构与海量无监督预训练，获得了惊人的跨任务泛化能力。然而，当企业试图将深度学习引入具体的表格数据分类、回归等监督学习任务时，过程却异常复杂。通常需要构建定制化的数据管道、设计专用网络结构，并注入大量业务知识，整个过程成本高昂且难以规模化。

这就形成了一个明显的技术断层：通用AI飞速发展，而在高价值行业的核心业务系统中，基于决策树的表格模型或垂直场景的深度学习模型，仍然占据统治地位。这种现状，恰恰推动了对结构化数据模型能否实现“规模扩展”的深入研究。

回顾历史，2014年左右XGBoost的崛起，被视为当时算力、算法与数据规模间的一个完美“平衡点”。但十二年后的今天，GPU算力已提升数百倍，当年的平衡是否已被彻底打破？结构化数据建模，能否像自然语言处理和计算机视觉那样，借助预训练与规模扩展实现范式突破？当单卡H100与主流CPU服务器之间出现近200倍的算力鸿沟时，一个必然的构想便是：能否将GPU的大规模并行计算能力深度引入结构化数据建模，并通过预训练技术，重新定义算力、数据与算法三者的关系。

千亿级样本预训练：从理论到实践

接下来，我们将深入解读浙江大学与蚂蚁集团AIforData团队的联合研究成果。他们基于蚂蚁集团海量的多源异构结构化数据与丰富的下游业务场景，成功在千卡GPU集群上对百亿级别样本进行了结构化数据预训练，并系统评估了预训练模型在多种下游任务中的性能表现。核心实验结论可归纳为三点：

首先，在真实的工业级表格数据集上，预训练模型的预测性能能够稳定且显著地超越传统的梯度提升树模型。其次，表格数据预训练模型清晰地遵循Scaling Law（规模定律），即性能随模型与数据规模扩大而可预测地提升。最后，用户行为序列预训练模型同样展现出良好的Scaling Law特性。

研究一：表格数据预训练与规模定律验证

相关研究论文：https://arxiv.org/abs/2602.22777

为应对工业场景中数十亿样本、数千维异构特征的建模挑战，研究团队提出了KMLP架构（一种融合了Kolmogorov-Arnold Network与门控MLP的混合深度学习模型）。该架构创新地将浅层KAN网络作为前端自动化特征构造器，再结合gMLP主干网络来高效捕获高阶特征交互，从而实现了端到端的、免于人工干预的特征表示学习。

在一个包含20亿样本的真实信贷风控数据集上的实验表明，KMLP模型展现出显著的规模扩展优势：随着训练数据量从百万级增至十亿级，其相对于传统GBDT模型的性能优势持续扩大。这一发现证实了KMLP作为可扩展深度学习范式的潜力，为大规模、高动态的互联网表格数据建模提供了全新的解决方案。

KMLP的核心突破在于，它同时解决了传统方法面临的两大瓶颈：一是突破了GBDT在超大规模数据集上分布式训练效率低下的限制；二是通过可学习的自适应激活函数，摆脱了对繁琐、耗时的专家特征工程的依赖，实现了对异构特征及其复杂交互关系的统一、高效建模。

研究二：行为序列预训练与规模定律探索

相关研究论文：https://arxiv.org/abs/2412.12468

用户行为时序数据是刻画用户兴趣与意图的关键结构化数据形式。如何高效利用、乃至充分挖掘更丰富的长周期用户行为序列，是提升用户画像与预测模型效果的核心课题。

FOUND框架：时序数据的语义级通用建模

FOUND（可迁移与可预测的用户定向基础模型）是AIforData团队发表于The Web Conference 2025的研究工作。该框架面向互联网平台中多源异构的用户行为序列与属性数据，旨在构建一个工业级、具备强大未来行为预测能力的通用用户表征基础模型。

当前许多用户理解模型面临两大共性挑战：一是跨不同业务领域、不同产品场景的可迁移性与泛化能力不足；二是在实际业务中，对未来一段时间内的用户行为预测准确性有限。为增强跨域迁移能力，FOUND框架整合了多场景用户数据，并创新地通过对比学习预训练，将用户行为序列数据与其对应的、经过语义整理的文本描述进行对齐。为提升预测性，框架基于用户未来的真实行为反推其对应的文本描述，而用户表征则由历史信息构建，通过这种“历史-未来”的语义对齐方式构造自监督训练样本。

由此框架产出的统一用户表征向量，在多个真实业务场景的基准测试和线上A/B实验中均取得了显著的效果提升。同时，引入自然语言作为监督信号的方式，使得模型天然支持“自然语言人群圈选”这一关键业务操作。该预训练框架支持的智能圈人能力，已在下游超过50个业务场景中成功落地并产生实际商业价值。

序列数据中的规模定律与密度定律

在建立了上述通用预训练框架后，一个随之而来的核心问题是：如何将互联网平台中更丰富、更长的用户行为序列数据，更高效地引入模型并最大化其价值？

针对多源异构图谱、点击、浏览等序列数据，若为每种序列单独设计编码器，会导致模型参数量膨胀、训练成本剧增且表征空间不一致。同时，如何最大化利用更多输入序列数据以提升性能，即探索输入序列本身存在的Scaling Law以及如何突破可能出现的性能增长瓶颈，成为关键。

实验发现，当输入序列长度或用户样本数量处于较低水平时，模型性能随数据量（在对数坐标下）近似线性提升，Scaling现象显著。然而，当序列长度或用户数增长到千万乃至亿级规模时，性能提升曲线逐渐平缓，出现了明显的Scaling瓶颈。

为解决此问题，除了增加模型参数量这种常规的模型侧扩展，提升输入数据的信息密度——即对用户长序列信息进行无损或微损压缩——成为一种成本更低、更轻量化的有效方案。在使用RQ-VAE等量化压缩方案对用户序列数据进行压缩后，观测到数据增长瓶颈得到有效延缓，这表明数据压缩带来了突破瓶颈的“Densing Law”（密度定律）现象。

基于对原始数据和压缩后数据Scaling Law的深入理解，团队进一步设计了基于统一用户量化压缩的理解方案。该方案使用设计的MRQ-VAE将用户的多源序列数据高效压缩成语义化的token ID序列以提升信息密度，并在此基础上进行模型规模扩展，最终得到了性能更优的通用用户模型。产出的用户表征在超过80%的真实场景基准测试中优于原始长序列输入版本，并在数字金融、支付安全、营销推荐、在线广告等核心业务中实现了规模化应用与效果提升。