本文2700字,读完需要15分钟
在本节中,介绍因果推理的背景知识,包括任务描述、数学概念、假设、挑战和一般解决方案。还给出了一个将在整个综述中使用的说明性的例子。
一般来说,因果推理的任务是估计如果采用了另一种治疗方法,结果的变化。
例如,假设有两种治疗方法可以应用到患者身上:药物A和药物B。在感兴趣的患者队列中,药物A的治愈率为70%,而在同一队列中,药物B的治愈率为90%。治愈率的变化是治疗(即本例中的药物)对治愈率的影响。
上面的例子描述了衡量治疗效果的理想情况:对同一队列应用不同的治疗方法。
在现实世界中,这种理想情况只能通过随机实验来近似,在随机实验中,治疗分配是受控的,比如完全随机分配。这样,接受特定治疗的群体就可以看作是感兴趣的群体的近似值。
然而,做随机实验是昂贵的,耗时的,有时甚至是不道德的。
因此,由于观测数据的广泛可用,从观测数据来估计治疗效果越来越受到关注。观察性数据通常包含一组接受不同治疗的个体,他们相应的结果,可能还有更多的信息,但不能直接获得他们接受特定治疗的原因/机制。这样的观测数据使研究人员能够在不进行随机实验的情况下研究某种治疗的因果效应这一基本问题。
为了更好的介绍各种治疗效果评估方法,下面将介绍观察数据提供的unit、treatment、结果、治疗效果等信息(前和治疗后变量)的定义。
2.1 定义
这里,在潜在结果框架下定义符号,该框架在逻辑上等价于另一个框架-结构因果模型框架。潜在结果框架的基础是因果关系与治疗(或行动、操作、干预)有关,适用于一个单unit。治疗效果是通过比较单位的潜在治疗结果得出的。
下面,首先介绍因果推理的三个基本概念: unit, treatment, outcome。
定义1 unit。unit是处理效果研究中最基础的研究对象
unit可以是特定时间点的物理对象,公司,患者,个人或对象或人员的集合,例如教室或市场。在潜在结果框架下,不同时间点的原子研究对象是不同的unit。数据集中的一个unit是整个人口的样本,因此在此调查中,术语“样本”和“unit”可互换使用。
定义2 treatment。treatment指的是应用到一个unit的行动。
设W(W∈{0,1,2,...,NW})表示treatment,其中NW +1为可能treatment的总数。在上述药物示例中,药物A为treatment。大多数文献都考虑二元治疗,在这种情况下, W = 1的单位组是治疗组,治疗组W = 0的单位组是对照组。
定义3 潜在结果。对于每对单位的治疗,当应用于该单位时,该治疗的结果就是潜在的结果。
值为w的潜在治疗结果表示为Y(W = w)。
定义4.观察到的结果。观察到的结果是实际应用的治疗结果。
观察到的结果也称为事实结果,使用YF表示“事实”。潜在结果与观察到的结果之间的关系为:YF = Y(W = w)其中w是实际应用的治疗方法。
定义5.反事实结果:反事实结局是unit接受另一种治疗后的结果。
反事实结果是该until实际采取的治疗外的潜在结果。
由于一个unit只能接受一种治疗,因此只能观察到一种潜在的结果,而其余未观察到的潜在结果就是反事实的结果。
在多重治疗的情况下,令YCF(W = w')表示值为w的治疗的反事实结果。在二元治疗的情况下,为了简化表示,使用YCF表示反事实结果,并且YCF = Y(W = 1-w),其中w是unit实际采取的处理方法。
在观察数据中,除了选择的治疗方法和观察到的结果以外,还记录了unit的其他信息,它们可以分为治疗前变量和治疗后变量。
定义6.治疗前变量:治疗前变量是不受治疗影响的变量。
治疗前变量也称为背景变量,它们可以是患者的人口统计学信息,病史等。让X表示治疗前变量。
定义7.治疗后变量:治疗后变量是受治疗影响的变量
治疗后变量的一个示例是中间结果,例如在上述药物示例中服用药物后的实验室测试。
在以下各节中,除非另有说明,否则术语变量是指预处理变量。
治疗效果。在介绍了观察数据和关键术语之后,可以使用以上定义定量定义治疗效果。可以在人群,治疗组,亚组和个体水平上测量治疗效果。 为了使这些定义更清楚,在此定义二元治疗下的治疗效果,并且可以通过比较其潜在结果将其扩展到多种治疗。
在人群级别,治疗效果称为平均治疗效果(ATE),其定义为:
其中Y(W = 1)和Y(W = 0)分别是整个人群的潜在治疗和控制结果。
对于治疗组,治疗效果称为对治疗组的平均治疗效果(ATT),定义为:
其中Y(W = 1)| W = 1和Y(W = 0)| W = 1分别是治疗组的潜在治疗结果和对照结果。
在亚组级别,治疗效果称为有条件平均治疗效果(CATE),其定义为:
其中Y(W = 1)| X = x和Y(W = 0)| X = x分别是X = x的亚组的潜在治疗和控制结果。在不同亚组的治疗效果不同的情况下,CATE是一种常见的治疗效果测量,也称为异质治疗效果。
在个体级别,治疗效果称为个体治疗效果(ITE),UNI i的ITE定义为:
其中Yi(W = 1)和Yi(W = 0)分别是第i单元的潜在治疗结果和控制结果。在某些文献中,ITE被视为等同于CATE。
客观的 对于因果推理, 目标是从观察数据中估计治疗效果。从形式上讲,给定观测数据集,其中N是数据集中的单位总数,因果推理任务的目标是估计上面定义的治疗效果。
2.2一个说明性的例子
为了更好地说明因果推断,将以下示例与上面定义的符号结合使用以进行概述。
在此示例中,通过利用包括人口统计学在内的观察数据(即电子健康记录)患者的信息,患者所服用的特定剂量的特定药物以及医学检查的结果评估几种不同药物对一种疾病的治疗效果。
显然,只能从电子健康记录中获得特定患者的一个事实结果,因此核心任务是预测如果患者接受另一种治疗会发生什么情况(即不同的药物或剂量不同的相同药物)。
回答这样的反事实问题是非常具有挑战性的。因此,希望使用因果推理来预测每位患者在所有不同剂量药物上的所有潜在结果。然后,可以合理,准确地评估和比较不同药物对该疾病的治疗效果。
需要牢记的一点是,对于每种药物,它们可能有不同的剂量。例如,对于药物A,剂量范围可以是在[a,b]范围内的连续变量,而对于药物B,剂量可以是具有几种特定剂量方案的分类变量。
在前述示例中,unit是患有所研究疾病的患者。treatments指的是针对该疾病的具有特定剂量的不同药物,我们使用W(W∈{0,1,2,...,NW})来表示这些治疗。
例如,Wi = 1代表unit i服用特定剂量的药物A,而Wi = 2代表unit i服用特定剂量的药物B。Y是结果,例如一种血液测试,可以测量药物破坏疾病并让患者康复的能力。令Yi(W = 1)表示对患者i特定剂量的药物A的潜在结果。患者的特征可能包括年龄,性别,临床表现和其他一些医学检查等。
在这些特征中,年龄,性别和其他人口统计学信息是治疗前变量,不会受到治疗的影响。一些临床表现和医学检查会受到药物治疗的影响,它们是治疗后的变量。在这个例子中,我们的目标是根据提供的观察数据来估计不同药物对该疾病的治疗效果。
在以下各节中,将继续使用该示例来解释更多概念,并说明各种因果推理方法背后的直觉。
微信扫一扫
关注该公众号