CausalAI核心算法：因果森林及其相关研究-淘娜娜副业社

原创龚鹤扬集智俱乐部

导语

在集智俱乐部，中国科学技术大学统计学博士龚鹤扬介绍了因果树、因果森林及快手的大规模多元因果森林模型。因果树模型的主要贡献是“诚实” () 的方法，使用非训练样本估计模型的局部参数。相较于传统的“自信” () 的方法，“诚实”的方法有较好的泛化能力。广义随机森林以因果树模型为基础，结合所关注的特定问题，构建算法框架。快手的大规模多元因果森林可以对单一一个模型同时处理任意种干预手段，同时HTE的定义要求各干预手段对应一致的特征子空间。本文是根据此次分享整理的文字稿。

随着“因果革命”在人工智能与大数据领域徐徐展开，作为连接因果科学与深度学习桥梁的因果表征学习，成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音，新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合，因果表征学习有望催生更强大的新一代AI。新一季的已经启动，欢迎从事相关研究的各界朋友参与。

研究领域：因果树模型，因果森林

龚鹤扬 | 讲者

贾潍佳 | 整理

邓一雪 | 编辑

1. 因果树

因果树模型是什么？因果树模型是对条件因果效应的估计。一棵典型的因果树如图所示：

图1. 因果树示例

模型的学习能力非常有限，一个简单的代码实现如下：

图2. 因果树代码实现示例

通用的评估方式是AUUC：

图3. AUUC示例

因果树模型的主要贡献是“诚实”（）的方法[1]。因果树模型的两个核心问题：一是如何分割特征空间，二是如何估计子空间上的因果效应。“诚实”的方法就是说，将一半的样本用于树的生成，确定分割特征空间的准则，另一半的样本用于树的叶子结果预测，估计子空间上的因果效应，用于控制树的复杂度。相较于传统的“自信”（）的方法，“诚实”的方法有较好的泛化能力，这类似于机器学习中交叉验证的思想。

那么，为什么要用“诚实”的方法而不直接使用交叉验证？一方面，因为使用的样本是独立的，因此在估计子空间上的因果效应时，使用“诚实”的方法得到的结果会是无偏的。另一方面，实验结果显示，“诚实”的方法相较于非“诚实”的方法能够覆盖更大的置信区间。也就是说，因果树具备良好的统计性质。

2. 广义随机森林

广义随机森林使用统计理论提升机器学习算法，在置信区间上取得了优化。其算法框架如下：

图4. 广义随机森林算法框架

广义随机森林的创新点有：1. 总体思想是使用“诚实”的方法，“诚实”地估计局部参数；2. 利用算法本身的信息进行估计，例如，基于随机森林的权重进行估计、利用得分函数进行估计等。

在利用得分函数进行估计时，工具变量的结构信息及其得分函数如下：

图5. 工具变量法的因果图

图6. 工具变量的得分函数

综上，因果树区别于普通的机器学习树模型的点在于，估计的内容是子空间的因果效应，与增益树的最大区别在于“诚实”的方法避免了过拟合。

3. 从因果树到广义随机森林

因果树的主要贡献是采用“诚实”的方法，使用非训练样本估计模型的局部参数；因果森林的主要贡献是首次将统计学可证明的方法引入模型，其中，广义随机森林是结合所关注特定问题结构的机器学习树类模型的算法框架。

4. 快手的大规模多元因果森林[2]

智能营销要研究的核心问题是，用户对不同补贴额度的转化效果差异有多大？这些不同的补贴额度可以被看作是因果推断中的，所以场景驱使研究者去研究用户在不同下的转化效果，即需要多元因果模型。

为此，快手的研究者们提出了多元因果森林模型，模型结构如图 7所示。其主要的优化内容，一是适应业务特别的改造，二是分配算法的速度优化，三是适应问题的评估方法。

图7 多元因果森林模型

该模型结构有两个优点：第一，单一一个模型能够同时处理任意种干预手段，否则，几种干预手段就需要维护相应数量的二元因果森林模型；第二，HTE 的定义要求各干预手段对应一致的特征子空间，该模型结构保证了这一点，这对准确估计 HTE 至关重要。

5. 论文推荐

CausalAI核心算法：因果森林及其相关研究

站长简介

最新实战项目

微头条变现写作课程，掌握流量变现技巧，提升微头条质量，实现收益增长

AI+自媒体运营变现课，掌握AI写作与RPA技术，轻松实现自媒体变现

微信朋友圈广告投放全攻略：ADQ平台介绍、推广层级、商品库与营销目标

人工智能AI时代，饭碗频遭抢夺，普通人咋办？躺赢之道在何方？

图书博主养成记：4类带货方式，视频直播课助力，快速入局图文赛道

YouTube视频营销入门：账号注册指南，平台介绍与外贸推广

小红书飞书模板实战变现：小红书快速起号，搭建一个赚钱的飞书模板

联盟营销实战指南，详解联盟模式、平台规则及联盟客运作，实现流量变现

CausalAI核心算法：因果森林及其相关研究

相关文章

站长简介

最新实战项目