首页 游戏 软件 资讯 排行榜 专题
首页
AI
树模型与表格建模的规模化应用与未来趋势

树模型与表格建模的规模化应用与未来趋势

热心网友
69
转载
2026-05-19

一张H100 GPU的算力,大约相当于多少个Hadoop集群节点?

站在2026年的视角回望,这个对比极具启示意义:单张H100 GPU(FP16精度)的峰值计算能力,大致等同于200台搭载96核CPU的传统Hadoop服务器实例。

这一巨大差距背后,揭示了一个深刻的行业现状:尽管AI芯片算力正以指数级速度狂飙,但在金融风控、医疗诊断、电商推荐、工业预测等核心商业场景中,处理结构化数据的主流建模方法,依然是以XGBoost、LightGBM和随机森林为代表的树模型及其定制化方案。

一方面,科技界正通过千亿、万亿参数的大语言模型推动通用人工智能的边界;另一方面,在直接产生商业价值的业务决策核心,承担关键预测任务的,往往仍是那些历经考验的“经典”算法。这种鲜明的对比促使我们思考:在算力革命已然发生的今天,结构化数据建模的“技术范式”,是否也到了需要全面升级的关键节点?

“苦涩的教训”与结构化数据建模的挑战

从人工智能发展史来看,大模型的成功印证了Richard Sutton提出的“苦涩的教训”:长远来看,那些能够充分利用计算规模增长的通用方法,最终总会超越依赖人类先验知识与复杂手工设计的系统。

大语言模型是这一规律的典范——通过统一的Transformer架构与海量无监督预训练,获得了惊人的跨任务泛化能力。然而,当企业试图将深度学习引入具体的表格数据分类、回归等监督学习任务时,过程却异常复杂。通常需要构建定制化的数据管道、设计专用网络结构,并注入大量业务知识,整个过程成本高昂且难以规模化。

这就形成了一个明显的技术断层:通用AI飞速发展,而在高价值行业的核心业务系统中,基于决策树的表格模型或垂直场景的深度学习模型,仍然占据统治地位。这种现状,恰恰推动了对结构化数据模型能否实现“规模扩展”的深入研究。

回顾历史,2014年左右XGBoost的崛起,被视为当时算力、算法与数据规模间的一个完美“平衡点”。但十二年后的今天,GPU算力已提升数百倍,当年的平衡是否已被彻底打破?结构化数据建模,能否像自然语言处理和计算机视觉那样,借助预训练与规模扩展实现范式突破?当单卡H100与主流CPU服务器之间出现近200倍的算力鸿沟时,一个必然的构想便是:能否将GPU的大规模并行计算能力深度引入结构化数据建模,并通过预训练技术,重新定义算力、数据与算法三者的关系。

千亿级样本预训练:从理论到实践

接下来,我们将深入解读浙江大学与蚂蚁集团AIforData团队的联合研究成果。他们基于蚂蚁集团海量的多源异构结构化数据与丰富的下游业务场景,成功在千卡GPU集群上对百亿级别样本进行了结构化数据预训练,并系统评估了预训练模型在多种下游任务中的性能表现。核心实验结论可归纳为三点:

首先,在真实的工业级表格数据集上,预训练模型的预测性能能够稳定且显著地超越传统的梯度提升树模型。其次,表格数据预训练模型清晰地遵循Scaling Law(规模定律),即性能随模型与数据规模扩大而可预测地提升。最后,用户行为序列预训练模型同样展现出良好的Scaling Law特性。

研究一:表格数据预训练与规模定律验证

相关研究论文:https://arxiv.org/abs/2602.22777

为应对工业场景中数十亿样本、数千维异构特征的建模挑战,研究团队提出了KMLP架构(一种融合了Kolmogorov-Arnold Network与门控MLP的混合深度学习模型)。该架构创新地将浅层KAN网络作为前端自动化特征构造器,再结合gMLP主干网络来高效捕获高阶特征交互,从而实现了端到端的、免于人工干预的特征表示学习。

在一个包含20亿样本的真实信贷风控数据集上的实验表明,KMLP模型展现出显著的规模扩展优势:随着训练数据量从百万级增至十亿级,其相对于传统GBDT模型的性能优势持续扩大。这一发现证实了KMLP作为可扩展深度学习范式的潜力,为大规模、高动态的互联网表格数据建模提供了全新的解决方案。

KMLP的核心突破在于,它同时解决了传统方法面临的两大瓶颈:一是突破了GBDT在超大规模数据集上分布式训练效率低下的限制;二是通过可学习的自适应激活函数,摆脱了对繁琐、耗时的专家特征工程的依赖,实现了对异构特征及其复杂交互关系的统一、高效建模。

研究二:行为序列预训练与规模定律探索

相关研究论文:https://arxiv.org/abs/2412.12468

用户行为时序数据是刻画用户兴趣与意图的关键结构化数据形式。如何高效利用、乃至充分挖掘更丰富的长周期用户行为序列,是提升用户画像与预测模型效果的核心课题。

FOUND框架:时序数据的语义级通用建模

FOUND(可迁移与可预测的用户定向基础模型)是AIforData团队发表于The Web Conference 2025的研究工作。该框架面向互联网平台中多源异构的用户行为序列与属性数据,旨在构建一个工业级、具备强大未来行为预测能力的通用用户表征基础模型。

当前许多用户理解模型面临两大共性挑战:一是跨不同业务领域、不同产品场景的可迁移性与泛化能力不足;二是在实际业务中,对未来一段时间内的用户行为预测准确性有限。为增强跨域迁移能力,FOUND框架整合了多场景用户数据,并创新地通过对比学习预训练,将用户行为序列数据与其对应的、经过语义整理的文本描述进行对齐。为提升预测性,框架基于用户未来的真实行为反推其对应的文本描述,而用户表征则由历史信息构建,通过这种“历史-未来”的语义对齐方式构造自监督训练样本。

由此框架产出的统一用户表征向量,在多个真实业务场景的基准测试和线上A/B实验中均取得了显著的效果提升。同时,引入自然语言作为监督信号的方式,使得模型天然支持“自然语言人群圈选”这一关键业务操作。该预训练框架支持的智能圈人能力,已在下游超过50个业务场景中成功落地并产生实际商业价值。

序列数据中的规模定律与密度定律

在建立了上述通用预训练框架后,一个随之而来的核心问题是:如何将互联网平台中更丰富、更长的用户行为序列数据,更高效地引入模型并最大化其价值?

针对多源异构图谱、点击、浏览等序列数据,若为每种序列单独设计编码器,会导致模型参数量膨胀、训练成本剧增且表征空间不一致。同时,如何最大化利用更多输入序列数据以提升性能,即探索输入序列本身存在的Scaling Law以及如何突破可能出现的性能增长瓶颈,成为关键。

实验发现,当输入序列长度或用户样本数量处于较低水平时,模型性能随数据量(在对数坐标下)近似线性提升,Scaling现象显著。然而,当序列长度或用户数增长到千万乃至亿级规模时,性能提升曲线逐渐平缓,出现了明显的Scaling瓶颈。

为解决此问题,除了增加模型参数量这种常规的模型侧扩展,提升输入数据的信息密度——即对用户长序列信息进行无损或微损压缩——成为一种成本更低、更轻量化的有效方案。在使用RQ-VAE等量化压缩方案对用户序列数据进行压缩后,观测到数据增长瓶颈得到有效延缓,这表明数据压缩带来了突破瓶颈的“Densing Law”(密度定律)现象。

基于对原始数据和压缩后数据Scaling Law的深入理解,团队进一步设计了基于统一用户量化压缩的理解方案。该方案使用设计的MRQ-VAE将用户的多源序列数据高效压缩成语义化的token ID序列以提升信息密度,并在此基础上进行模型规模扩展,最终得到了性能更优的通用用户模型。产出的用户表征在超过80%的真实场景基准测试中优于原始长序列输入版本,并在数字金融、支付安全、营销推荐、在线广告等核心业务中实现了规模化应用与效果提升。

总结与未来展望

让我们回到最初的问题:当算力格局已经发生数量级巨变时,结构化数据建模的技术范式是否也应该随之系统性演进?

蚂蚁集团与浙江大学AIforData团队的系列探索给出了肯定的答案。Scaling Law的效应正从NLP、CV领域明确延伸至表格数据与序列数据领域——这或许预示着,那个高度依赖专家经验、手工特征工程和重复场景化调参的传统机器学习时代,正在走向尾声。

“当算力的天平已然倾斜,技术的平衡点也需重新定义。”展望未来,随着GPU算力的持续进化与预训练范式的日益成熟,我们有充分理由期待,结构化数据建模也将迎来属于自己的“基础模型时刻”,开启规模化、自动化、泛化能力更强的新阶段。

来源:https://www.51cto.com/article/840928.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

树模型与表格建模的规模化应用与未来趋势
AI
树模型与表格建模的规模化应用与未来趋势

一张H100 GPU的算力,大约相当于多少个Hadoop集群节点? 站在2026年的视角回望,这个对比极具启示意义:单张H100 GPU(FP16精度)的峰值计算能力,大致等同于200台搭载96核CPU的传统Hadoop服务器实例。 这一巨大差距背后,揭示了一个深刻的行业现状:尽管AI芯片算力正以指

热心网友
05.19
把员工的信息保存在加密的Linux分区中
网络安全
把员工的信息保存在加密的Linux分区中

数据泄露频发,加密文件系统能否成为移动办公的安全基石? 相信大家都不止一次看到过类似这样的新闻头条:“某公司泄露三千万用户社保号及财务数据,责任竟在‘承包商’?”通常的剧情是,某位外部人员(注意,极少是内部员工)在一台似乎装载了海量数据的笔记本电脑上,存储了所有敏感信息,随后设备遗失或被盗,且无人能

热心网友
04.28
XML教程:什么是XML及XML和HTML的区别
前端开发
XML教程:什么是XML及XML和HTML的区别

XML与HTML的本质差异 在深入探讨技术细节前,不妨先明确一个核心概念:XML和HTML虽然长相相似,都使用标签,但它们生来就是为了完成截然不同的任务。理解这一点,是掌握两者关系的关键。 设计初衷:数据内容 vs 数据外观 XML被设计用来描述和携带数据,它的全部焦点在于数据本身的内容和结构。

热心网友
04.27
什么是XML?
前端开发
什么是XML?

XML是什么?深入解析可扩展标记语言的核心概念与应用 提及标记语言,大多数人首先会想到HTML(超文本标记语言),它是构建网页的基础。事实上,XML(可扩展标记语言)与HTML确实同源,均衍生自早期的标准通用标记语言SGML。然而,许多人误以为XML是HTML的简单替代品,这其实是一个常见的理解误区

热心网友
04.27
用ASP.NET加密Cookie数据(图)
网络安全
用ASP.NET加密Cookie数据(图)

Cookie确实在WEB应用方面为访问者和编程者都提供了方便,然而从安全方面考虑是有问题的 首先,Cookie数据会随着HTTP请求和响应的包头进行明文传输,这意味着在传输过程中,这些数据可能被第三方截获和查看。其次,Cookie通常以文本文件的形式存储在用户的浏览器缓存目录中,其中可能包含用户的会

热心网友
04.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

东南亚智能手机一季度均价上涨19% 市场趋势与价格分析
业界动态
东南亚智能手机一季度均价上涨19% 市场趋势与价格分析

东南亚智能手机市场第一季度平均售价同比上涨19%,达349美元。出货量虽下滑9%,但市场总规模增长8%,呈现“量减价增”态势。这表明消费者开始转向高端机型,市场增长动力正从销量扩张向价值提升转变。

热心网友
05.19
代币归属期是什么意思?通俗解释解锁规则与投资影响
web3.0
代币归属期是什么意思?通俗解释解锁规则与投资影响

代币归属期指代币在发行后按预定时间表逐步解锁的过程。该机制旨在激励项目长期发展,防止早期投资者或团队成员大量抛售导致市场波动。归属期通常包含锁定期与释放期,具体规则由项目方设定。理解此概念有助于评估代币的潜在流通量与市场风险。

热心网友
05.19
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营
业界动态
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营

近日,小鹏汽车正式宣布,基于其旗舰SUV车型GX打造的首款Robotaxi(自动驾驶出租车)量产车已成功下线。这一重要进展标志着中国L4级高阶自动驾驶技术的商业化落地,迈出了坚实而关键的一步。 根据官方披露的核心信息,这款自动驾驶车型创造了多项行业纪录:它不仅是中国首款实现全栈自研、前装量产的Rob

热心网友
05.19
人民日报评恶意仅退款行为触碰法律红线违背公序良俗
业界动态
人民日报评恶意仅退款行为触碰法律红线违背公序良俗

5月19日,一则新闻引发广泛关注与讨论:河南濮阳一位主营冷冻榴莲果肉的商家,因遭遇买家恶意发起“仅退款”操作,在沟通无果后,选择驱车数百公里前往山东进行维权。几乎在同一时间,浙江杭州萧山区盈丰街道,也因类似恶意退货退款问题频发,被部分电商商家列入“交易谨慎名单”。这两起典型事件,将长期存在于电商交易

热心网友
05.19
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓
业界动态
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓

5月19日,AMD完成了一项具有里程碑意义的战略举措:首次将其年度AI开发者大会的主会场设在中国。在上海,AMD董事会主席兼首席执行官苏姿丰博士发表了核心主题演讲,其中所传递的战略信号,其深远意义远超单纯的技术发布。 贯穿整场演讲,一个核心信息被不断强化:中国市场对于AMD的全球战略重要性,已提升至

热心网友
05.19