本篇文章3793字,读完约9分钟
viahitbullseye
雷锋的人工智能科技评论:acm sigkdd国际会议(简称kdd)是由acm知识发现和数据挖掘委员会(sigkdd)主办的数据挖掘研究领域的顶级学术会议。雷锋。(公开号码:雷锋。ai科技评论今年也来到kdd 2017报道。清华大学博士生邝坤参加了此次kdd,他应雷锋的《人工智能科学技术评论》的邀请,与导师杨士强博士、崔鹏博士、李波(清华大学)和uiuc共同介绍了他的著作《通过区分混杂平衡估计野外治疗效果》。
论文地址:KDD/KDD 2017/论文/观点/评估-治疗-效果-野生-通过-区分-混杂-平衡
在当今的大数据时代,广告和医疗保健等各个领域都积累了大量的历史数据。同时,大量高效的机器学习和数据挖掘算法被提出,使我们能够利用大数据更有效地预测未来的数据点。在面向预测的问题上,大多数算法都取得了良好的效果。然而,由于大多数预测算法缺乏可解释性,很难将其应用于许多实际问题,尤其是那些需要做出决策的问题。因此,如何提高这些算法的可解释性对学术界和工业界都是非常重要的。
以医学领域为例。假设在整个医疗系统中,我们有100万流感患者的数据。对于每个病人,我们知道他们过去的病史、诊断史、常用药物、基因测试、年龄和性别以及其他特征。现在,医院来了安娜,一个新病人。我们知道安娜是亚洲人,54岁,有流感、头痛、发烧等症状。安娜问她的医生哪种治疗对她的流感最有效。因此,医生需要做出决定,是给安娜服用药物a(泰诺)、药物b(苏达菲)还是其他药物。作为数据科学家,基于这些数据,我们能使用我们的机器学习和数据挖掘算法来帮助医生做出正确的药物决策吗?
当然,用最简单的方法,我们可以构建一个Return模型,并通过患者的特征(x)和药物决策(a/b)预测Return中的药物效应(y)。通过对回归模型的研究,我们可以很容易地预测安娜服用药物A或B后的疗效,并通过疗效的差异做出药物决策。
决策回报模型
然而,我们认为基于关联分析的算法不足以解决决策问题。主要原因如下:
首先,数据中变量之间的相关性。众所周知,在真实数据中,患者的某些特征,如收入,往往会影响患者对药物的选择。也就是说,患者特征和药物选择不是独立的。在许多关系分析模型中,他们假设数据中的变量是独立的。忽视数据变量的依赖性将使我们难以评估每种药物的实际疗效,并且很容易做出错误的决定。
相关分析模型不足以解决决策问题
例如,在医学历史数据中,我们发现对于大多数健康的病人来说,即使他们不服用任何药物,他们最终恢复得很快;对于虚弱的病人,即使他们服用了相关的药物,最终的疗效也不是很好。基于这个简单的数据,关联分析模型将会挖掘出错误的认知:“患者最好不要服用药物”。
第二个原因是关联并不代表因果关系。也就是说,两个变量之间存在相关性,但它们之间不一定存在因果关系。如果没有因果关系,那么我们就不能做决定。例如,基于观察,我们发现某个地方的冰淇淋销量与当地汽车熄火频率密切相关。基于观测数据,我们可以通过冰激销售准确预测车辆熄火频率。然而,我们不能通过控制冰淇淋销售来降低汽车熄火的频率,因为冰淇淋销售和汽车熄火之间没有因果关系。冰淇淋销售与汽车熄火频率密切相关的原因是由于炎热天气的影响。
冰淇淋的销量与汽车熄火的频率密切相关
因此,我们认为相关分析模型不足以解决决策问题。
因果推理是一个强大的统计建模工具,用于决策和其他问题。因果推理中的一个基本问题是因果效应的评估。常用的方法是随机对照试验,如a/b试验,通过控制两组样本的相同特征,然后给予不同的治疗并比较其最终结果的差异,来评估药物对患者的因果效应。然而,完全随机对照试验通常非常昂贵,甚至在许多伦理问题上也不可行。因此,在大数据时代,我们在思考这样一个问题:我们能根据历史观察数据评估因果效应吗?
因果推理框架
与此问题相关的主要任务有两个:
基于触痛评分的方法,包括反向智能权重和双重稳健方法。在这些方法中,首先应评估适当性得分,然后通过用适当性得分(可理解为接近随机对照试验或aa试验)对样本进行加权,特征混杂因子x在不同治疗组之间的分布应相同,并应评估因果效应。然而,这种方法的最大缺点是需要先验知识来对混杂因子x和治疗t之间的模型做出假设。然而,我们知道在大数据的背景下,我们经常有大量的观察变量,并且我们很难知道变量之间的模型结构,所以我们在计算因果效应时不能做出模型假设。
直接变量平衡法,如熵平衡法和近似剩余平衡法。这些方法的动机在于变量的分布由它们的矩唯一地确定,因此不同治疗组之间的变量平衡可以由矩控制。然而,这种方法平等地平衡了所有的观察变量,包括一些不影响治疗的无关变量。然而,在大数据的情况下,不是所有的变量都需要平衡,不同的变量需要不同的权重来平衡。
因此,本文认为在大数据背景下评估因果效应存在两个挑战:
首先,由于变量和模型之间的未知关系,我们不能在评估因果效应时假设模型。
其次,由于高维变量和噪声数据的影响,并不是所有的变量都需要平衡,不同的变量需要不同的平衡权重。
为了解决上述问题,本文提出了一种差分平衡算法,该算法通过学习混杂权重β和样本权重w来评估因果效应..混杂权重决定哪些观察变量是混杂的及其置信偏倚权重,而样本权重用于控制治疗组(t=1)和对照组(t=0)之间混杂x分布的相似性。
关于区分混杂平衡算法的思考
但是我们如何学习这些混杂权重和样本权重呢?
首先,学习混杂权重。在因果推理的框架中,X、T和Y之间的一般关系可以表示如下:
由此,我们可以得到真实因果效应的表达式。考虑函数f(x)的一般形式:
理论上,我们发现在我们实际评估的因果效应和实际的因果效应之间有一个误差项。误差项可分解为由每个一维观测变量mk和相关混杂偏差权重αk K产生的混杂偏差.
从以上推论,我们发现如果不同的混杂因素有不同的混杂因素权重αK;当αk=0时,变量mk不是混杂的,所以不需要平衡。我们还发现混杂权重αk只是函数f(x)中变量mk的相关系数。因此,我们给出以下定理:
其次,学习样本权重。通过维基百科,我们知道任何变量的矩都可以唯一地决定它的分布。受此启发,我们建议直接通过变量的矩来平衡变量,如下图所示。借助于矩,我们可以通过直接变量平衡来学习样本权重,而不需要任何模型假设。
通过矩学习样本权重
总而言之,我们的dcb算法的最终目标函数如下:
红色方框用于学习样本权重,绿色方框用于学习混杂权重。
实际上,熵平衡和近似残差平衡是我们的dcb算法的特殊情况,通过在我们的算法中设置混杂权重β作为单位向量。因此,我们的算法对于因果效应评估更具一般性。
我们的dcb算法的时间复杂度是o(np),其中N代表样本的数量,P代表变量的维数。
在实验部分,我们从鲁棒性测试、准确性测试和预测能力测试三个方面对dcb算法进行了测试。
首先是稳健性测试。为了测试我们算法的鲁棒性,我们在模拟数据上生成各种场景下的高维和噪声数据。
上面的图表只报告了少量的结果,更多的结果将在我们的论文中详细介绍。从以上结果,我们发现直接估计器在所有情况下都是失败的,因为这种方法忽略了混杂偏差;在数据中;当面对错误的模型假设和高维变量时,基于倾向得分的Ipw和双重稳健方法将会犯巨大的错误。Ent和arb算法将所有观察到的变量作为混杂因素进行平衡,这导致了不满意的最终结果。与基准方法相比,我们的dcb算法通过同时优化混杂权重和样本权重,在所有设置下都显著提高了因果效应评估的性能。这表明我们的dcb算法是非常稳健的。
其次,准确性测试。这里我们将dcb算法应用于真实数据lalonde数据集。数据集包含两个模块,一个是随机对照试验的数据,它为我们提供了基础事实;因果效应;另一个是观察数据,用于测试每种算法在评估因果效应方面的性能。
实验结果如下:
从实验结果可以看出,我们的dcb算法能够更准确地评估各种设置下的因果效应。
最后,预测能力测试。为了测试算法的预测能力,我们将dcb算法应用于真实的在线广告数据集。计算数据中每个一维特征对最终结果的因果效应,并选择因果效应最高的前k个特征来预测最终结果。预测结果如下:
从结果来看,我们发现我们的dcb算法在这个预测问题上取得了最大的预测精度。同时,我们将我们的算法与经典的基于相关性的特征选择方法(mrel、mrmr)进行了比较,发现基于相关性的方法比我们的dcb方法更差,甚至比其他基于因果关系的方法更差。这表明因果效应评价或因果推理可以有效提高模型的预测能力。(关于因果关系在预测中的应用,请参考我们最新的文章《论图像分类:相关性与因果关系》)
综上所述,在本文中,我们主要关注如何在高维无约束大数据环境下评估因果效应。我们发现,以前的大多数方法要么没有考虑混杂因素之间的差异,要么需要正确的模型假设,这导致了在大数据的高维背景下性能不佳。为此,我们提出了差异化竞争均衡算法,并进行了理论分析。我们的算法通过联合优化混杂权重和样本权重来评估因果效应。基于模拟数据集和真实数据集的大量实验表明,该方法能够显著优于目前最好的方法。同时,通过我们的方法选择的最重要的特征在广告数据集的预测任务中取得了最好的结果。
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
标题:清华崔鹏团队KDD论文一作解读:在大数据背景下进行因果效应评估
地址:http://www.hcsbodzyz.com/hcxw/10701.html