在今年的某机构机器学习大会上,斯坦福大学教授、新晋诺贝尔奖得主吉多·因本斯登台分享了他关于面板数据中因果效应估算的最新思考。作为某机构的学术研究顾问,因本斯在因果推断领域有着深厚造诣。

某机构自2013年起便定期举办内部机器学习大会。早在2015年第三届大会上,因本斯就曾带来关于因果性与机器学习的精彩教程,广受好评。时隔九年,2024年10月,已担任某机构学术研究顾问达十年的他,再次以主题演讲者身份登台。
此次演讲的核心依然是因果推断——这一领域因本斯已深耕三十余年,也是诺贝尔委员会颁奖词中强调的焦点。他重点探讨了面板数据:在离散时间点上,对多个单元(如产品、客户或地理区域)及其结果(如销售额或点击量)进行观测。在特定时间段内,部分单元会接受某种“处理”(例如特殊促销或新环境法规),其影响体现在结果测量中。因果推断的目标是厘清结果变化中,有多大比例真正归因于处理效应——这需要调整由数据总体趋势产生的虚假相关性,而这些趋势可从未接受处理(控制组)的单元中推断得出。
因本斯首先分享了他在某机构工作的感受:“我从2014年起与这里的同事合作。能够与他们交流,了解他们所关注的研究问题和困惑,一直是我研究工作的真正乐趣和灵感源泉。在我的计量经济学、统计学和方法论研究中,与那些在实际场景中应用这些方法的人沟通,总能让我受益匪浅。”
面板数据
随后,因本斯切入正题。面板数据通常用一对矩阵表示:行代表单元,列代表时间点。其中一个矩阵记录特定单元在特定时间的测量值;另一个为二值矩阵,表示某个单元在特定时间段是否接受了处理。
理想情况下,对于给定的单元和时间段,我们希望能进行一场对照实验:先让单元不接受处理,然后时间倒流,再在有处理的情况下重复实验。然而时间无法倒流。因此,对于矩阵中每个受处理的“单元格”,我们需要估算其未受处理时的测量值——这一估算需基于其他单元和时间段的结果。为便于解释,因本斯先考虑一个特例:只有一个单元,且仅在单个时间间隔内接受处理。“一旦我掌握了能有效处理这种情形的方法,我所要建议的方法就能非常自然地扩展到更一般的处理分配机制。”他解释道。
控制估算
因本斯描述了五种估算受处理单元在相同时间段内、未受处理时结果的标准方法:
双重差分法:通过对处理前所有未处理数据进行回归分析,利用回归函数估算受处理单元在未受处理情况下的结果。
合成控制法:将受处理单元的“控制版本”合成为其他控制单元的加权平均。例如,在估算加州1989年禁烟法规的效果时,可寻找其他州的凸组合,使其1989年前的吸烟率与加州实际吸烟率匹配(如40%亚利桑那、30%犹他、10%华盛顿、20%纽约),进而用这些权重估算加州的“反事实”吸烟率。
带截距的合成控制法:在合成控制方程中额外加入一个截距项。
矩阵补全法:在标准双重差分函数中引入一个低秩矩阵项。
合成双重差分法:根据控制单元与受干预单元的相似性,对单元-时间测量值与回归曲线之间的距离进行加权处理。
缺点
接着,因本斯指出了这些方法的局限性。第一,它们将结果矩阵和处理矩阵视为行(单元)和列(时间点)可交换的——即无论矩阵如何排列,结果都相同。单元的可交换性似乎尚可接受,但时间维度则不然:预测2020年的结果时,2019年的测量值显然比1983年的更具价值。
第二,这些方法在仅有一个单元-时间对受处理的特例下效果良好,但当处理分配变得更随机时,表现便不尽如人意。因为在随机分配下,单元在不同时间段会进出控制组,导致回归分析变得相当困难。
一个新的估算器
因本斯据此提出了一种基于矩阵补全法的新估算器,但额外加入了两组权重,以调整每个控制单元对回归分析的贡献。
第一组权重:根据控制单元测量值与受处理单元测量值之间的时间距离,减小其贡献——即对更近期的测量值赋予更高权重。
第二组权重:根据控制单元测量值与受处理单元测量值的绝对距离,减小其贡献——旨在限制稀疏数据集(控制单元频繁进出)中异常值的影响。
随后,因本斯在九个现有数据集上,将新估算器的性能与其他五种方法进行了对比。结果令人瞩目:在八个数据集上,新估算器显著优于所有前驱方法;在第九个数据集上,它紧随双重差分法之后——但值得注意的是,双重差分法在其他几个数据集上排名垫底。
“我并不主张将这个估算器视为所有场景下的通用方案,”因本斯解释道,“我主要想展示的是,即使只是对现有估算器类别做一个简单调整——以更合理的方式将时间维度纳入进来——就能获得比以往方法好得多的表现。”
方差的方差
在演讲的后半部分,因本斯探讨了估算反事实估算器方差的方法。这里的方差估算器本身也存在方差。他主张使用条件方差估算器——即固定某些变量(在面板数据中为单元、时间,或两者),然后估算自由变量的方差。因本斯指出,与直觉相反,较高方差的条件方差估算器反而能提供更高的统计功效。
“一般来说,你应当优先选择条件方差,因为它能更好地适配你正在分析的特定数据集,从而赋予你更大的功效来发现处理效应。而边缘方差(另一种广泛使用的方差估算方法)本身的方差虽是最低的,但检测处理效应的功效也是最低的。”
随后,他展示了基于合成面板数据的实验结果,证实当数据存在异方差性(即一个变量的方差随另一个变量值增大而增大)时,使用条件方差的方差估算器确实具有更高的统计功效。
“显然,无论在估算层面还是方差估算层面,都还有大量工作需要推进,”因本斯总结道,“我认为这些模型的未来在于结果建模与某种灵活性的结合——无论是因子模型还是权重,其目的都是确保只在局部进行估算。同时,我们在方差估算上还需要投入更多努力,兼顾功效与有效性,其中对某些异方差性的建模将发挥关键作用。”
