第3章
贝叶斯推断
人的思想是一个推断机器:“风大,天色渐暗,我最好带上雨伞。”遗憾的是,这不是一个非常可靠的机器,特别是在对以往经验进行复杂的选择时。贝叶斯定理是一个非常简单的精确推断的数学指南。这个已经被提出了250年的定理(或“规则”)标志着统计推断作为一个严谨的科学命题的开始。它已历经兴衰数百年,现在正因计算机应用时代的到来而再次兴起。
贝叶斯推断即使不是直接与频率论对立,至少也是与其无关的。它揭示了频率主义观点中的一些令人担忧的缺陷,同时也将自身暴露于危险的过度使用的批评之下。在大数据时代,如何努力结合两种思想的优点已经变得更加急迫。在接下来的章节中,大部分内容都将涉及这个问题。在这里,我们将回顾一些基本的贝叶斯思想及其对频率学派的影响。
频率学派和贝叶斯学派的统计推断的基本单位是一个概率密度族
x作为观测数据,是样本空间X的一个点,而未被观测到的参数μ是在参数空间Ω的一个点。统计学家从fμ(x)中观测到x,然后推断μ的值。
也许最熟悉的例子是正态族
(更准确地说是方差为1的一维正态平移族),其中X和Ω都是R′,整条实轴(-∞,∞)。另外一个重要例子是泊松族
其中X是非负整数{0,1,2,…},Ω是非负实轴(0,∞)。(在这里“密度”(3.3)具体指的是X的离散点的概率)。
除了对概率族F的假定之外,贝叶斯推断还有一个重要假定,那就是具备先验密度
的知识,其中g(μ)代表有关参数μ的先验信息,也就是在得到观测x之前统计学家已经获得的信息。例如,当我们把贝叶斯推断运用在正态模型(3.2)时,我们可以知道μ是正数,而过去的经验告诉我们μ不会超过10,此时我们可以令先验密度g(μ)为区间[0,10]上的均匀密度g(μ)=1/10。更准确地说,什么构成“先验知识”是我们在正在进行的贝叶斯定理讨论中要考虑的关键问题。
贝叶斯定理是将有关先验知识g(μ)和目前的数据x结合起来的定理。假定g(μ|x)为μ的后验密度,即我们在考虑观测数据x后对先验密度g(μ)进行的更新。贝叶斯准则提供了一个利用g(μ)和F表达g(μ|x)的简单表达式。
贝叶斯准则:
其中f(x)是x的边缘密度,
(如果Ω是离散的,那么式(3.6)中的积分符号表示的是求和。)这个准则是条件概率的一个直接例子,但却有着深远而有时令人惊讶的结果。
在贝叶斯公式(3.5)中,观测值x是固定的,而μ却在Ω上变动,这正好与频率学派的计算相反。我们可以通过改写(3.5)为
来强调这一点,其中Lx(μ)是似然函数,即x固定而μ变动的函数fμ(x)。计算完Lx(μ)g(μ)之后,常数cx可以通过g(μx)的积分为1的要求计算而得,从而避免计算(3.6)中的f(x)。
注意:将似然函数乘以任意一个固定常数c0对(3.7)没有任何影响,因为c0将会归入cx这一项中。因此对于泊松族(3.3)我们可以令似然函数Lx(μ)=e-μμx,而忽略x!这个在贝叶斯准则中视为常数的项。忽略这些仅依赖于x的项往往能够简化贝叶斯计算。
对于在Ω中的任意两点μ1,μ2,后验密度之比为(3.5)式的商
(和边缘密度f(x)不再相关),即“后验比值比等于先验比值比乘以似然比”,这是对贝叶斯准则的一个令人难忘的复述。
3.1 两个例子
物理学家双胞胎的故事提供了一个简单而真实的贝叶斯准则实践的例子:一位物理学家通过超声波发现她怀有双胞胎男孩。她问:“我的双胞胎会有多少概率是同卵双胞胎,而不是异卵双胞胎?”医生回答说,三分之一的双胞胎分娩是同卵双胞胎,还有三分之二的分娩是异卵双胞胎。
在这个情境下,未知参数(或者“自然状态”)μ要么是先验概率为1/3的同卵双胞胎,要么是先验概率为2/3的异卵双胞胎;而双胞胎的可能的超声波结果X要么是相同性别,要么是不同性别,而x=相同性别被观测到了。(我们在此忽略性别,因为性别并不影响计算。)一个关键事实是,同卵双胞胎经常是相同性别的,而异卵双胞胎有0.5的概率是相同性别的,有0.5的概率是不同性别的,因此如果双胞胎是同卵双胞胎,那么超声波中发现相同性别的可能性是发现不同性别的2倍。运用(3.8)式中比值形式的贝叶斯准则能够回答物理学家的问题:
也就是说,后验比值比是1,物理学家的双胞胎有相同的0.5的概率是同卵双胞胎或者是异卵双胞胎。在这里医生2:1这个更倾向于异卵双胞胎的先验比值比被超声波2∶1这个更倾向于同卵双胞胎的似然比平衡了。
在双胞胎问题中,参数μ和结果x的组合只有四种可能,在图3.1中分别被标记为a,b,c和d。因为同卵双胞胎不可能出现不同性别,所以单元格b出现的概率为0。由于异卵双胞胎的性别具有随机性,故单元格c和d发生的概率相等。最后,根据医生的先验分布,a+b必须等于1/3,c+d必须等于2/3。把所有信息放在一起,我们将得到图中四个单元格的概率。物理学家知道她处在表格的第一列的情形,因而根据(3.9)的贝叶斯准则,同卵和异卵的条件概率相等。
也许医生的先验分布来源于一些大州的或者*的数据库,例如300万对之前出生的双胞胎中,有100万对同卵双胞胎和200万对异卵双胞胎。我们推断单元格a,c和d必须在数据库中有100万个条目,而单元格b是空的。贝叶斯准则可以被认为是一本大书,每一个可能的结果x都有一页。(这本书在图3.1中只有两页。)物理学家翻到了“双胞胎性别相同”这一页,并且看到200万个先前出生的双胞胎中,有一半的同卵双胞胎和一半的异卵双胞胎,正确地得到了针对其自身情况,双胞胎是同卵或者是异卵的概率是相等的结论。
给定任意先验分布g(μ)和密度族fμ(x),贝叶斯准则将始终提供一本大书。这并不意味着这本书的内容总是具有同样的说服力。之前的双胞胎问题的先验是基于大量相关的先前经验。这种经验往往得不到。现代贝叶斯实践在没有先验的情况下使用各种策略来构造适当的“先验”g(μ),使得许多统计学家对贝叶斯推断的结果提出质疑。我们的第二个例子正好说明了这个问题。
表3.1给出了22名学生在力学和向量两门课程测验中的得分。两组得分的样本相关系数是=0.498,
其中m和v分别是力学和向量的简称,m和v分别是力学和向量分数的平均值。我们希望对后验精度给出一个贝叶斯测度用以得到真实的相关系数θ,“真实”指的是假设的所有学生总体的相关系数,而在此我们观测到的只是其中22个样本的相关系数。
如果我们假设(m,v)的联合分布是二元正态分布(会在第5章中讨论),那么关于θ的密度函数有一个确定形式,
就我们的贝叶斯一般表示法而言,参数μ是θ,观测x是,分布族F由公式(3.11)确定,Ω和X都等于区间[-1,1]。计算公式(3.11)对于人来说很难,但是对于计算机来说却很容易,这使得快速求解成为可能。
在这种情况下,我们并不具有能够提供一个先验g(θ)的相关经验。Laplace提出的一个权宜之计就是“不充分理由原则”,即令θ均匀分布在Ω上,
称作“平坦先验”。图3.2中的实曲线表示相应的后验密度(3.5),也就是在图中所示的关于θ的似然函数fθ(0.498)(并且已经被标准化处理,使得积分为1)。
Jeffreys先验
所产生的后验密度在图中以虚曲线表示。图中显示的值比未知参数θ稍大。公式(3.13)由下一节有关“无信息先验”的理论得到,该公式是在不充分理由原则上的改进;因为,所以(3.13)是一个反常密度,但是当其被应用于贝叶斯准则(3.5)时,它依旧提供了一个合适的后验密度。
图3.2中的虚点曲线是由三角形先验
得到的后验密度。这是一个典型的收缩先验的例子,该先验是为获得较小的θ值而设计的。它的效果可以从图中向左偏移的后验密度中看出。收缩先验在我们有关大样本估计和检验问题的讨论中起着重要作用,在有关情境下,我们希望能够在数以千计的微不足道的影响中找到一些大的影响。
3.2 无信息先验分布
给定一个让人信服的先验分布,相比于频率学派方法,贝叶斯准则更易于使用,并且能够得到更加令人满意的推断。频率学派方法依旧占据主导地位,这反映了在日常的科学应用中有用的先验信息的匮乏。但是贝叶斯冲劲十足,并且几乎在250年前开创贝叶斯统计的时候,就提出了在没有相关经验的情况下建立允许使用贝叶斯准则的“先验”的建议。
也许在当前实践中最有影响力的一种方法是使用无信息先验。“无信息”在这里有一个积极的含义,这意味着在贝叶斯准则中使用这样的先验并不会使结果有较大的偏差。Laplace的不充分理由原则,即将均匀先验分布分配给未知的参数,是为了达到这个目标的一个明显的尝试。它的使用在一个多世纪以来一直没有受到质疑,这也许是因为Laplace的影响远远超过了原则自身的好处。
19世纪60年代的Venn和20世纪20年代的Fisher,针对之前使用贝叶斯定理的套路做出批评,指出Laplace原则并不适用于所有场合。例如,在学生相关系数的例子中,如果我们进行如下变量替换γ=eθ,那么有关θ的均匀先验分布就不是均匀的了。例如,后验概率
将取决于我们是把θ的先验还是把γ的先验设为均匀分布。哪一种选择都不能称作是无信息的考虑。
Laplace原则的一个更加复杂的版本在20世纪30年代初由Jeffreys提出。令人惊奇的是,它取决于一个频率学派的概念Fisher信息量(详见第4章)。在单参数族fμ(x)中,当参数空间是实轴R1的一个区间时,Fisher信息量由下式定义:
(对于泊松族(3.3),。)Jeffreys先验gJeff(μ)由下式定义:
因为近似等于最大似然估计的方差σ2,有一个等价定义
式(3.17)实际上在参数变换下也能正确转换,避免了Venn-Fisher批评。众所周知,族(3.11)中的具有近似标准差
这可以由(3.18)推得Jeffreys先验(3.13),其中常数因子c对贝叶斯准则(3.5)和(3.6)没有影响。
图3.2的三角形表示由Jeffreys先验得到的θ的“95%置信区间”[0.093,0.750],即0.093≤θ≤0.750的后验概率等于0.95。
有0.025的概率使得θ<0.093或者θ>0.750。这几乎等于基于(3.11)的fθ(θ)的标准Neyman 95%置信区间,这并非偶然。Jeffreys先验倾向于在贝叶斯学派和频率学派的世界之间构建这种美好的联系,至少在单参数族中构建。
第4章提到的多参数概率族会使所有事情变得更加复杂。例如,假设统计学家得到来自于正态模型(3.2)的10个独立观测,每个观测可能服从不同的μ对应的不同正态分布
Jeffreys先验对于10个问题中的任意一个问题都是平滑的,因而将它们分开单独处理是合理的,然而联合Jeffreys先验
同样也是平滑的,这将会产生灾难性的总体结果,正如第13章所讨论的那样。
相对于(3.11),计算机时代的应用场景往往更像(3.21),除非同时考虑成百上千个随机变量而不是10个随机变量。正如我们将要讨论的那样,包括Jeffreys先验在内的许多无信息先验在当前的应用中都非常受欢迎。这导致了贝叶斯学派和频率学派方法论之间的相互联系,后者旨在控制由于使用前者所带来的偏差,这体现了计算机时代统计推断的更广义的主题。
3.3 频率学派推断的缺陷
贝叶斯统计提供了一个内部一致的(“连贯的”)推断方法,但是频率主义却不能这样说,杜撰的抄表员故事正好阐述了这个道理:工程师使用测量值符合正态分布的电压表测量一批12个管上的电压,
其中x是任一测量结果,μ是真实电压。测量值范围为82到99,平均值为x=92,他报告称这是μ的无偏估计。
第二天他发现他的电压表上有这样一个故障:大于100的任意测量结果都会显示为x=100。他的频率学派统计学家告诉他,再也不是真实期望μ的无偏估计了,因为(3.23)不再能够完整刻画这个概率族。(统计学家说值92有点太小了。)这样一个故障并不影响任意一个实际观测的事实,并没有帮他解决困境:在以后实际概率模型的X的实现中,x不再是μ的无偏估计。
贝叶斯统计学家来帮忙了。对于任意先验密度g(μ),后验密度,其中x是12个观测的向量表示,这仅取决于数据x的真实观测值,而不是其他潜在的可能已经观测到的数据集X。平滑的Jeffreys先验g(μ)=常数得到μ的后验期望,不管这个故障是否会影响100以上的读数。
图3.3运用了非杜撰的故事来说明同样的道理。实验正在运行,每个月都会观察到一个独立的正态变量,
然后我们打算检验原假设H0:μ=0与备择假设μ>0。图上的点是检验统计量
的值。一个“Z值”取决于第i个月的所有数据,
在第30个月,这个实验按计划应该要结束的这个月,Z30=1.66,刚好超过N(0,1)分布的上95%点。调查人员断言在0.05水平“显著”拒绝H0。
遗憾的是,事实证明,调查人员在第20个月破坏了协议并偷看了数据,希望能够尽早结束昂贵的实验。然而当研究人员看到Z20=0.79这个远远不显著的值之后,他们美好的愿望破灭了,所以他们继续按照原计划继续实验到第30个月。这说明研究人员有效地运用了如下停止规则“如果Z20或者Z30超过1.645,那么停止实验并且宣布显著拒绝。”如果按照这种停止规则计算,那么原假设H0正确然而却被拒绝的概率是0.074而不是0.05。基于备受尊敬的频率主义者的0.05标准,胜利眼睁睁变成失败。
以上再一次验证了贝叶斯统计学家的做法更加宽松。完整数据集x=(x1,x2,…,x30)的似然函数是
与实验是否“可能”提前结束无关。实验的停止准则并不会影响后验分布g(μx),其中x只会通过似然函数(3.7)对后验分布施加影响。
贝叶斯推断的宽松性在多参数环境下可能看起来不那么有效。图3.4涉及一项前列腺癌研究,比较了50名健康对照者和52名患者。每个人都有一个N=6033基因组的测量基因活动。每个基因的统计量x都会被计算出来,然后把患者的数据和健康对照者的数据作对比。比如说,
其中μi反映了基因i的真实效应大小。大多数基因不太可能涉及前列腺癌,预计效应大小接近于0,但是研究人员希望能够找到一些比较大的μi值,不管它是正是负。
6033个xi的直方图实际上反映出一些比较大的值,其中x610=5.29的绝对值最大。问题来了:μ610的估计到底是多少?即使x610是μ610的无偏估计,然而频率学家会(肯定会)担心关注6033个值中最大的那个值会不会导致向上的偏差,然后5.29这个估计应该要往下调整以进行修正。“选择偏差”“均值的回归”和“赢者诅咒”是这类现象的三个名词。
令人惊讶的是,贝叶斯推断不受选择偏差的影响。无论基因610是被预先指定为特别关注还是只被作为“胜利者”来关注,贝叶斯对μ610给出的所有数据的估计保持不变。这不是显而易见的,而是因为任何基于数据的选择过程不影响(3.7)中的似然函数。
影响贝叶斯推断的因素是6033个效应大小的全向量μ的先验g(μ)。平坦先验,g(μ)设为常数会导致出现高估的风险。第15章的经验贝叶斯计算中会介绍一种更适合的无信息先验(并给出)。这里的操作要点是以牺牲贝叶斯推断的理想性质为代价。我们把注意力从选择一个好的频率学派分析流程转移到选择一个适当的先验分布。在高维问题中,这可能是一个艰巨的任务,这是计算机时代推断的特点。
3.4 贝叶斯学派/频率学派的对比列表
贝叶斯学者和频率主义者有相同的出发点,概率分布族fμ(x)(3.1),然而分析流程却大相径庭,正如图3.5所示:贝叶斯推断按垂直方向进行,给定x,根据后验分布进行推断;而频率主义者按水平方向推断,给定μ而变化x。两种方法的优缺点都会产生,其中一部分将会在下面进行比较。
●贝叶斯推断要求先验分布g(μ)。当过去的经验提供了g(μ),就像在双胞胎的例子中一样,有充分的理由使用贝叶斯定理。如果不是这样的话,例如Jeffreys先验那样的技术仍然支持贝叶斯准则的使用,但是结果缺乏定理的全部逻辑力量。例如,贝叶斯无视选择性偏见的看法必须被谨慎对待。
●频率主义者倾向于选择方法或者算法,记为t(x),而不是选择先验,来解决手头的具体问题。这给推断过程增添了一个任意的因素,并可能导致抄表员的各种矛盾。t(x)的最佳选择减少了任意的行为,但计算机时代的应用通常超出经典最优化理论的传统框架,这为频率主义分析提供了一个特例。
●现代数据分析问题常常通过运用人们广受青睐的方法来处理,例如第8章的例子中的逻辑回归或者回归树。这就涉及比贝叶斯在处理特定算法方面更具灵活性的频率论的方法论取向(尽管人们总是希望得到目前方法的合理的贝叶斯解释)。
●选择了g(μ)后,贝叶斯只用一个概率分布。相反,频率主义者必须努力平衡t(x)对可能分布族的行为,因为图3.5中的μ是未知的。贝叶斯应用场景的日益普及(通常以无信息先验开始)反映了其应用和解释的简单性。
●两种方法的简单性使得两者的缺点都暴露出来。贝叶斯基本上将赌注押在用户对先验的选择的正确性,或者至少没有危害。频率学派采取更加防御性的姿态,希望无论这个μ是什么都能做好,或者至少不会很差。
●贝叶斯分析一次可以回答所有可能出现的问题,例如估计E{gfr}或Pr{gfr<40}或与图2.1相关的任何其他问题。频率学派更关注手头上的问题,需要构造不同的估计以处理不同的问题。这就需要更多的工作,但是我们可以对特定问题进行更为严格的检查。例如在情况(2.9)中,以下形式的估计量
可能会针对常数c的不同选择进行研究,希望能够减少预期的均方误差。
●贝叶斯方法的简单性在动态环境中特别有吸引力,在这种情况下,其中数据依次到达,并且不断更新之前的认知,是一种自然的做法。贝叶斯准则被用于减少2012年美国总统大选之前数据的影响,通过更新连续的投票结果,以正确预测所有50个州的结果。贝叶斯定理是整合来自不同来源的统计证据的最佳工具,频率学派最接近的类似概念是最大似然估计。
●在没有真实的先验信息的情况下,主观性的帽子总会扣在贝叶斯结果之上,即使是基于无信息先验的结果。经典频率主义者声称自己站在科学客观性的高地,特别是在药物测试和批准这种会有很多怀疑论者细抠统计细节的有争议的领域。
图3.5的示意图中出现令人盲目乐观的误导:在随后的章节中,μ和x通常是高维的,有时甚至是超高维的,频率学派的方法和贝叶斯的范式此时都会被突破。计算机时代的统计推断最成功地结合了这两种哲学的元素,例如在第6章的经验贝叶斯方法和第16章的套索中。统计学家的哲学箭袋中有两支强有力的箭,当统计学家去狩猎时,如果要面对1000个参数和100万个数据点,那么他没有必要只带其中一支箭去。
3.5 注释与细节
如果穿越到现代,贝叶斯(Thomas Bayes)可能会成为成功的数学教授。实际上,他是18世纪中叶一位不墨守成规的英国牧师,对数学有着浓厚的兴趣。Richard Price是一位文学、科学和政治领域的领军人物,在1763年的皇家学会会刊发表了贝叶斯定理(贝叶斯逝世后两年),他的兴趣部分在神学,而贝叶斯准则在某种程度上证明了神的存在。Bellhouse(2004)的传记记载了贝叶斯的一些其他数学成就。
Harold Jeffreys是另一位兼职统计学家,作为第一次世界大战到第二次世界大战之间的杰出地球物理学家(和大陆漂移理论的激烈反对者),他在日常工作中兼做统计方面的工作。我们所说的无信息先验也被称为非信息或客观的先验。Jeffreys的贝叶斯主义在1950年至1990年间在贝叶斯主义者中声名远扬,他在主观分析上倾向于支持Savage和de Finetti提倡的类型。马尔可夫链蒙特卡罗方法的引入是一种改变哲学的技术创新。MCMC(见第13章)非常适合Jeffreys风格的大数据问题分析,它将贝叶斯统计量从教科书中移出到计算机时代的应用领域。Berger(2006)为客观贝叶斯方法提出了一个有力的例子。
注释
1.相关系数密度。公式(3.11)的相关系数密度为R.A.Fisher对统计学文献的首次贡献。Johnson和Kotz(1970b)的第32章给出了几个等价的形式。(3.19)中的常数c通常取成,其中n是样本量。
2.Jeffreys的先验分布和变换。假设我们由μ到μ以平滑可导的方式进行变量替换,那么新的族满足
然后有和。但是这只能说明gJeff(μ)正确转换成。
3.抄表员的寓言取自Edwards(1992)Likelihood一书,在那里他表扬了John Pratt。这很好地说明了频率学派推断,根据可能观测到的数据集X进行校准,可能不适合实际的观测值x。这是图3.5中水平和垂直方向的区别。
4.两样本t-统计量。运用于前列腺研究中第i个基因数据的两样本t-统计量ti(2.17)具有理论原假设分布t100,一个*度为100的学生t分布;在(3.28)中的xi是Φ-1(F100(ti)),其中Φ和F100分别是标准正态和t100变量的累积分布函数。Efron(2010)的7.4节对(3.28)的近似提出了改进。
5.选择偏差。Senn(2008)讨论了贝叶斯推断对选择偏差和其他“悖论”的免疫性,文中将Phil Dawid的观点记录下来。这篇文章反映出在应用中过于照搬贝叶斯定理可能带来的不安。
表3.1中的22名学生是从Mardia等人(1979)的一个更大的数据集中随机抽取的(其中给出)。Welch和Peers(1963)开始研究如何找到先验分布使得通过贝叶斯方法得到的置信区间能够与通过频率学派方法得到的置信区间相匹配(如图3.2中的[0.093,0.750])。在单参数问题中,Jeffreys先验分布提供了很好的匹配,但在多参数情况下通常不成立。事实上,没有一个多参数先验可以给所有的单参数子问题都建立良好的匹配关系,这是第11章重新讨论贝叶斯和频率学派方法之间关联的原因。