游乐游手机版
首页/AI热点日报/热点详情

谷歌开源零样本表格基础模型TabFM

类型:热点整理2026-07-03
TabFM是什么表格数据的学习,过去基本靠梯度提升树(比如 XGBoost、LightGBM)一路称霸。但现在格局不一样了——Google Research 推出的 TabFM,算是给表格模型智能化开了个新方向。这是个零样本的表格基础模型,能直接处理混合了数值和类别特征的结构化数据,完成分类(最多1

TabFM是什么

表格数据的学习,过去基本靠梯度提升树(比如 XGBoost、LightGBM)一路称霸。但现在格局不一样了——Google Research 推出的 TabFM,算是给表格模型智能化开了个新方向。这是个零样本的表格基础模型,能直接处理混合了数值和类别特征的结构化数据,完成分类(最多10类)和回归任务。关键在哪里?它在数百亿条合成数据上训练完成后,不需要你费心微调或调超参数,直接拿训练数据作为上下文,一次前向传播就能做出预测。在 TabArena 基准的51个真实数据集上,它的表现甚至超过了那些被仔细调优过的梯度提升树。而且,TabFM 同时提供了 PyTorch 和 JAX 两种版本的权重,安装也简单,非常适合做快速表格推断。

TabFM的主要功能

  • 零样本分类:不用训练数据,不用调参,直接对最多10个类别的表格数据做分类预测。
  • 零样本回归:如果目标变量是数值型的回归任务,同样不需要微调,拿来就用。
  • 混合特征处理:数值和类别特征混在一起的数据,它原生支持,自动帮你处理好编码和缩放。
  • 上下文学习推理:把训练数据当作“上下文”来读,一次前向传播就完成预测,省时省力。
  • 双后端兼容:JAX 和 PyTorch 的权重版本都有,根据你的技术栈选就行。

TabFM的技术原理

  • 合成数据预训练:它用的是结构因果模型(SCM)来生成数百亿条合成表格数据。具体做法是随机采样有向无环图,定义好变量间的因果结构,再根据父节点的条件分布生成每个特征的值。这样一来,完全绕开了真实数据的隐私和版权问题。
  • Transformer 序列架构:模型本身是 Transformer 架构。每行样本被看作一个 token 序列,数值特征通过线性投影或分桶编码成连续向量,类别特征则通过嵌入层映射为稠密向量。自注意力机制会自动捕捉列之间的高阶交互关系。
  • 上下文学习推理:推理时,用户的训练集会被序列化成上下文,和测试样本拼接后一起输入模型。模型通过注意力机制读取训练样本的统计规律,不更新任何权重就直接输出预测——这才是真正的零样本推断。
  • 自动化预处理:它提供了兼容 scikit-learn 的接口,内置了一套自动化流水线:类别特征做 Ordinal Encoding、数值特征做标准化缩放、缺失值做鲁棒处理。你拿到原始 DataFrame 就能直接往里扔,不用手工预处理。

如何使用TabFM

  • 克隆仓库:执行 git clone https://github.com/google-research/tabfm.git 下载源码。
  • 安装依赖:进入目录后,根据后端选择安装:pip install -e .[pytorch]pip install -e .[jax]
  • 加载预训练权重:在代码中导入对应后端模块(如 tabfm_v1_0_0_pytorch)并调用 .load() 自动下载权重。
  • 初始化分类器/回归器:用 TabFMClassifierTabFMRegressor 包装模型,调用 .fit(X_train, y_train) 准备编码器。
  • 执行预测:调用 .predict(X_test).predict_proba() 获取零样本预测结果。

TabFM的核心优势

  • 真正零样本:无需微调、无需超参数搜索,开箱即用,门槛降得很低。
  • 隐私安全:基于合成数据训练,不碰真实敏感数据,天然规避隐私与版权问题。
  • 性能强劲:在51个真实数据集的 TabArena 基准上,零样本表现超越精心调优的梯度提升树。
  • 框架灵活:同时提供 PyTorch 与 JAX 权重,适配不同技术栈的部署环境。
  • 接口友好:完全兼容 scikit-learn API,数据科学家可以无缝接入现有工作流。

TabFM的项目地址

  • 项目官网:https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/
  • GitHub仓库:https://github.com/google-research/tabfm
  • HuggingFace模型库:https://huggingface.co/google/tabfm-1.0.0-pytorch

TabFM的同类竞品对比

两个典型的零样本表格模型放在一起看,差异点很明显:

  • 开发团队:TabFM 来自 Google Research,而 TabPFN 出自德国弗莱堡大学 / AutoML 团队。
  • 训练数据:TabFM 用的是数百亿条由结构因果模型生成的合成表格,TabPFN 则是数百万个从先验分布采样的合成数据集。
  • 分类类别限制:两者都限制在最多10类。
  • 回归支持:TabFM 原生支持回归任务;TabPFN 早期版本不支持,后续扩展有限。
  • 后端支持:TabFM 提供 PyTorch 和 JAX 双版本,TabPFN 主要基于 PyTorch。
  • 数据规模:两者都针对中小规模表格数据(样本数小于10000)做了优化。
  • 核心机制:TabFM 依赖上下文学习(In-Context Learning),TabPFN 则基于 Transformer 的近似贝叶斯推断。

TabFM的应用场景

  • 金融风控:快速评估贷款申请风险,既不需要历史数据重新训练模型,也能保护客户隐私。
  • 医疗辅助诊断:根据患者的混合特征做疾病分类,同时规避敏感医疗数据的泄露风险。
  • 电商定价预测:新上架商品没有历史数据?直接做零样本价格回归,类别和数值特征一并考虑。
  • 广告点击率预估:冷启动场景下快速预测 CT R,不用等积累够训练数据再动手。
  • 科研数据探索:研究人员在敏感数据集(比如人口普查、社会调查)上做快速基线建模,不用接触原始隐私数据。
来源:https://ai-bot.cn/tabfm/

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。