新型因果推断估算器优化面板数据分析

时间：2026-06-11 17:04

斯坦福大学教授、诺贝尔奖得主因本斯提出一种新估算器，通过加入时间距离和绝对距离权重改进矩阵补全法，用于面板数据因果效应估算。在九个数据集上的测试显示，新估算器在八个数据集中显著优于现有方法。此外，他建议使用条件方差估算器以提升统计功效。

在今年的某机构机器学习大会上，斯坦福大学教授、新晋诺贝尔奖得主吉多·因本斯登台分享了他关于面板数据中因果效应估算的最新思考。作为某机构的学术研究顾问，因本斯在因果推断领域有着深厚造诣。

因果推断新估算器提升面板数据分析

某机构自2013年起便定期举办内部机器学习大会。早在2015年第三届大会上，因本斯就曾带来关于因果性与机器学习的精彩教程，广受好评。时隔九年，2024年10月，已担任某机构学术研究顾问达十年的他，再次以主题演讲者身份登台。

此次演讲的核心依然是因果推断——这一领域因本斯已深耕三十余年，也是诺贝尔委员会颁奖词中强调的焦点。他重点探讨了面板数据：在离散时间点上，对多个单元（如产品、客户或地理区域）及其结果（如销售额或点击量）进行观测。在特定时间段内，部分单元会接受某种“处理”（例如特殊促销或新环境法规），其影响体现在结果测量中。因果推断的目标是厘清结果变化中，有多大比例真正归因于处理效应——这需要调整由数据总体趋势产生的虚假相关性，而这些趋势可从未接受处理（控制组）的单元中推断得出。

因本斯首先分享了他在某机构工作的感受：“我从2014年起与这里的同事合作。能够与他们交流，了解他们所关注的研究问题和困惑，一直是我研究工作的真正乐趣和灵感源泉。在我的计量经济学、统计学和方法论研究中，与那些在实际场景中应用这些方法的人沟通，总能让我受益匪浅。”

面板数据

随后，因本斯切入正题。面板数据通常用一对矩阵表示：行代表单元，列代表时间点。其中一个矩阵记录特定单元在特定时间的测量值；另一个为二值矩阵，表示某个单元在特定时间段是否接受了处理。

理想情况下，对于给定的单元和时间段，我们希望能进行一场对照实验：先让单元不接受处理，然后时间倒流，再在有处理的情况下重复实验。然而时间无法倒流。因此，对于矩阵中每个受处理的“单元格”，我们需要估算其未受处理时的测量值——这一估算需基于其他单元和时间段的结果。为便于解释，因本斯先考虑一个特例：只有一个单元，且仅在单个时间间隔内接受处理。“一旦我掌握了能有效处理这种情形的方法，我所要建议的方法就能非常自然地扩展到更一般的处理分配机制。”他解释道。

控制估算

因本斯描述了五种估算受处理单元在相同时间段内、未受处理时结果的标准方法：

双重差分法：通过对处理前所有未处理数据进行回归分析，利用回归函数估算受处理单元在未受处理情况下的结果。

合成控制法：将受处理单元的“控制版本”合成为其他控制单元的加权平均。例如，在估算加州1989年禁烟法规的效果时，可寻找其他州的凸组合，使其1989年前的吸烟率与加州实际吸烟率匹配（如40%亚利桑那、30%犹他、10%华盛顿、20%纽约），进而用这些权重估算加州的“反事实”吸烟率。

带截距的合成控制法：在合成控制方程中额外加入一个截距项。

矩阵补全法：在标准双重差分函数中引入一个低秩矩阵项。

合成双重差分法：根据控制单元与受干预单元的相似性，对单元-时间测量值与回归曲线之间的距离进行加权处理。

缺点

接着，因本斯指出了这些方法的局限性。第一，它们将结果矩阵和处理矩阵视为行（单元）和列（时间点）可交换的——即无论矩阵如何排列，结果都相同。单元的可交换性似乎尚可接受，但时间维度则不然：预测2020年的结果时，2019年的测量值显然比1983年的更具价值。

第二，这些方法在仅有一个单元-时间对受处理的特例下效果良好，但当处理分配变得更随机时，表现便不尽如人意。因为在随机分配下，单元在不同时间段会进出控制组，导致回归分析变得相当困难。

一个新的估算器

因本斯据此提出了一种基于矩阵补全法的新估算器，但额外加入了两组权重，以调整每个控制单元对回归分析的贡献。

第一组权重：根据控制单元测量值与受处理单元测量值之间的时间距离，减小其贡献——即对更近期的测量值赋予更高权重。

第二组权重：根据控制单元测量值与受处理单元测量值的绝对距离，减小其贡献——旨在限制稀疏数据集（控制单元频繁进出）中异常值的影响。

随后，因本斯在九个现有数据集上，将新估算器的性能与其他五种方法进行了对比。结果令人瞩目：在八个数据集上，新估算器显著优于所有前驱方法；在第九个数据集上，它紧随双重差分法之后——但值得注意的是，双重差分法在其他几个数据集上排名垫底。

“我并不主张将这个估算器视为所有场景下的通用方案，”因本斯解释道，“我主要想展示的是，即使只是对现有估算器类别做一个简单调整——以更合理的方式将时间维度纳入进来——就能获得比以往方法好得多的表现。”

方差的方差

在演讲的后半部分，因本斯探讨了估算反事实估算器方差的方法。这里的方差估算器本身也存在方差。他主张使用条件方差估算器——即固定某些变量（在面板数据中为单元、时间，或两者），然后估算自由变量的方差。因本斯指出，与直觉相反，较高方差的条件方差估算器反而能提供更高的统计功效。

“一般来说，你应当优先选择条件方差，因为它能更好地适配你正在分析的特定数据集，从而赋予你更大的功效来发现处理效应。而边缘方差（另一种广泛使用的方差估算方法）本身的方差虽是最低的，但检测处理效应的功效也是最低的。”

随后，他展示了基于合成面板数据的实验结果，证实当数据存在异方差性（即一个变量的方差随另一个变量值增大而增大）时，使用条件方差的方差估算器确实具有更高的统计功效。

“显然，无论在估算层面还是方差估算层面，都还有大量工作需要推进，”因本斯总结道，“我认为这些模型的未来在于结果建模与某种灵活性的结合——无论是因子模型还是权重，其目的都是确保只在局部进行估算。同时，我们在方差估算上还需要投入更多努力，兼顾功效与有效性，其中对某些异方差性的建模将发挥关键作用。”

来源：https://cloud.tencent.com.cn/developer/article/2685414

机器学习

上一篇JBoltAI向量空间从数字员工到企业大脑的技术路径 下一篇JDK 27双预览更新与Spring AI 2.0-M6推出

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网