6.3-7 医学、强化学习等应用和结论

 

 人工智能之强化学习 

 

6.3 医学

学习最优的患者治疗规则是治疗效果评估方法在医学领域应用的目标之一。当可以估计出不同可用药物的疗效时,医生就可以据此开出更好的处方。 

在[121]中,为实现该目标提到了两个挑战:混杂因素的存在和未观察到的混杂因素的存在。尽管从随机实验数据集进行分析是黄金解决方案,但它具有以下局限性:

  • (1)随机实验数据的目标是分析ATE而不是ITE,因此数据量通常很小,从而限制了得出个性化治疗规则的能力。

  • (2)如第2节所述,进行随机试验通常很昂贵, 耗时,有时甚至不道德。

因此,从观察数据集或实验数据和观察数据的组合得出个性化治疗规则是两个富有成效的方向[121]。

对于利用观察数据集的方向,各种方法都可以在无混淆的假设下根据估计的ITE得出个性化的治疗规则,例如文献【7】深层治疗[7],文献【66】基于分层病例队列设计的方法。

但是,在这一领域,处理未观察到的混杂因素的工作非常有限,第4.2节中讨论的方法和方法具有很大的探索潜力。

 


 

6.4 强化学习

从强化学习的角度来看,ITE估计可以看作是一个以处理为行动,以结果为奖励,以背景变量为背景信息的情境性多武装强盗问题。手臂的探索和利用类似于随机试验和观察数据。

因此,这两个领域都面临着一些类似的关键挑战:

  • (1)如何获得公正的结果/奖励估计? 

  • (2)如何处理既影响治疗分配/行动选择又影响结果/奖励的观察或未观察到的混杂因素?

 

为了获得无偏的奖励估计,重要抽样加权是离线策略评估中常用的方法。

权重设置为目标策略与记录的(观察到的)策略之间的概率,类似于3.1.1节中提到的IPW。类似于3.1.1节中提到的IPW。

然而,文献[98]中提出的重要抽样存在较大的方差,并且高度依赖所分配的权重。

为了改进这一点,类似于ATE估计中的双鲁棒方法,在[37]中提出了双鲁棒策略评估。 

后来,提出了各种方法来改进这两种具有不同设置的方法。

 

如上所述,第二个挑战是如何与混杂因素打交道。当观察到所有混杂因素时,我们可以直接优化上一段中提到的无偏奖赏函数。

但是,当存在未被观察到的混杂因素时,它可能导致引入损害而不是收益的政策,就像观察数据的一般情况一样。

在文献[65]中提出了混杂鲁棒策略学习框架,该框架在一个不确定集合上优化策略以获得倾向权值,从而可以控制未观察到的混杂因素。

 


 

6.5 其他应用

因果推论的应用不仅限于上述领域,与有效性测量,决策或处理选择偏见有关的领域都是潜在的应用。

  • 教育。在教育领域,通过比较不同教学方法对学生群体的结果,可以确定一种更好的教学方法。

    此外,ITE估计可以通过估计每个学生在不同教学方法下的效果来促进个性化学习。

    例如,开发了ITE评估来回答以下问题:“当该学生无法解决问题时,该特定学生将从视频提示或文本提示中受益吗?”,以便智能教员系统(ITS)可以确定哪个提示是 更适合特定的学生。

  • 政治决定。在政治领域,因果推理可以提供决策支持。例如,针对“谁将从就业培训补贴中受益最大?”这个问题,人们开发了各种方法。

    因果推断还可以帮助做出政治决策,例如是否应将政策推广到大规模人口。

 

  • 改善机器学习方法。除了决策支持,各种可以处理选择偏差(第3节中提到的)的平衡方法也可以被扩展,以提高机器学习方法的稳定性。

    在文献[67]中,采用了加权方法来提高学习模型对未知环境(即未知测试数据)的泛化能力。

    具体而言,将每个样本的权重作为正则化添加到预测损失函数中,该正则化公式表示为: 6.3-7 医学、强化学习等应用和结论6.3-7 医学、强化学习等应用和结论

      其中p是总特征数,6.3-7 医学、强化学习等应用和结论6.3-7 医学、强化学习等应用和结论是特征转换函数,例如神经网络,6.3-7 医学、强化学习等应用和结论6.3-7 医学、强化学习等应用和结论是X中的第j个特征,6.3-7 医学、强化学习等应用和结论是X中除第j个特征之外的特征,R∈RN是全局样本权重,其中N为总样本数。

    该平衡正则化器扩展了3.1.1中讨论的CBPS方法,将第j个特征作为处理,其余特征作为背景变量,然后结合所有特征获得全局平衡权值。

     

7结论

因果推理在很长一段时间以来一直是一个有吸引力的研究主题,因为它提供了一种在现实世界中发现因果关系的有效方法。

如今,机器学习的蓬勃发展为这一领域带来了新的活力,同时,因果推理领域的敏锐思想也促进了机器学习的发展。

在这项调查中,文章对众所周知的潜在结果框架下的方法进行了全面的回顾。

由于潜在结果框架依赖于三个假设,因此方法是分为两类。一类依赖于这些假设,而另一类则放宽了一些假设。

对于每个类别,文章提供了详细的讨论、比较和总结。还列出了这些方法的可用基准数据集和开源代码。

最后,介绍了因果推理在现实世界中的一些代表性应用,例如广告,推荐,医学和强化学习。

 

6.3-7 医学、强化学习等应用和结论

 

微信扫一扫
关注该公众号

上一篇:C++ map set


下一篇:运行golang出现invalid memory address or nil pointer dereference错误