第2章
频率学派推断
计算机时代之前是计算器时代,而在“大数据”时代之前,还有一些数据量通常为数百个或更少的小数据集,这些小数据集由科学家们在充满限制的实验约束下辛苦收集而来。珍贵的数据需要最高效的统计分析。一个可以在机械式桌面计算器上运行的非常有效的理论,由Pearson、Fisher、Neyman、Hotelling等人于1900年开始发展,并逐渐主导了20世纪的统计实践。这个现在被称为经典的理论几乎完全依赖于频率学派推断思想。本章简要介绍了频率学派推断,特别介绍如何将其运用在经典应用统计中。
我们从Myers博士的肾病实验室的另一个例子开始:实验室对211名肾脏患者测定了肾小球滤过率,结果见图2.1;gfr是肾功能的重要指标,低值意味着肾出了问题。(这是图1.1中tot的关键组件。)均值(见公式1.1)和标准误差(见公式1.2)分别为和,通常表示成
54.25±0.95(2.1)
其中±0.95表示对估计的准确性的频率学派推断,并且表明我们不应该太看重“0.25”,即使“4”这个数字也是值得怀疑的。推断来自哪里,究竟意味着什么,还有待说明。
统计推断通常始于一种假设,即概率模型已经生成观测数据x,而在我们的情况下,x是数据量为n=211的gfr测量向量x=(x1,x2,…,xn)。令X=(X1,X2,…,Xn)表示从概率分布F中抽取的相互独立的随机向量,记作
F→X(2.2)
F在这里为可能的gfr分数的潜在分布。一个(2.2)的X=x的实现值被观测到,而统计学家希望推断未知分布F的特征。
假设我们想得到的分布特征是从分布F中抽取一个随机变量X的期望,记作
(也等于关于随机向量(2.2)的平均值的期望)。对θ明显的估计是样本平均值。如果n很大,例如10^10,那么我们期待和θ几乎相等,但除此之外,还存在一定误差。误差为多大是推断统计所研究的问题。
估计是根据某种已知的算法从x计算而得,例如
在我们的例子中t(x)是求平均函数;是
的实现值,t(·)的输出应用于来自F(2.2)的理论样本X。我们选择了t(X),希望让成为θ(想要的分布F的特征)的一个好的估计量。
我们现在可以给出频率学派推断的第一个定义:一个观测的估计的准确性是作为θ的一个估计量的的概率准确性。这可能只是定义的同义复述,但它包含了一个强大的思想:只是一个单一的数字,但是包括一系列的取值,能够刻画估计的准确性。
偏差和方差都是频率学派推断中熟悉的例子。定义μ为在模型(2.2)下的期望,
那么参数θ的估计的偏差和方差分别为
再者,模型(2.2)中的概率性质对单个数字的影响导致上式中的偏差、方差与之前重申的不同。如果有关这方面的担忧都是杞人忧天的话,那么在第3章中贝叶斯学派对此的批评将会让你感到惊讶。
频率学派通常与“无限的未来试验序列”有关。我们设想假想的数据集X(1),X(2),X(3),…是在给定(2.5)中相应的值…下运用与x一样的机制生成的。频率学派准则解释了对于值的集合的精确性质。如果各个有经验方差,例如,0.04,那么我们可以说的标准误差是0.2=0.04。这相当于对以前的定义给出一个更生动的重述。
2.1 实践中的频率学派
我们对于频率学派的实践定义是,导出一个感兴趣的过程的概率性质,然后逐一地应用于观测数据的过程输出。这个定义有一个明显的缺陷:它需要计算从真实分布F中获得的估计量的概率性质,即使F未知。实用的频率学派使用一些或多或少的巧妙手法来规避这个缺陷。
1.插入原则。一个有关的标准误差和varF(X),即来自真实分布F的随机变量X的方差的简单关系式如下:
但是观测到x=(x1,x2,…,xn)后,我们能够用下式给出varF(X)的无偏估计。
把式(2.9)代入式(2.8)中,得到平均值x的标准误差的常用估计。换句话说,频率学派对x的准确性估计是来自于观测数据的估计。
2.泰勒级数近似。统计量如果比更复杂的话,通常可以与通过局部线性近似(有时被称作“Delta方法”)得到的插入公式建立联系。例如,。考虑到是一个常量,得到
其中的定义见(1.2)。大样本的计算,正如样本量n趋于无穷时,验证了Delta方法的有效性。幸运的是,Delta方法在小样本计算中通常表现得很好。
3.参数族和最大似然理论。最大似然估计(MLE)标准误差的理论表达式将在第4章和第5章分布的参数族相关内容中讨论。该理论将Fisher理论、泰勒级数近似和插入原则结合在一个易于应用的软件包中。
4.模拟和自助法。现代计算开辟了数值实现“无限的未来试验序列”定义的可能性,除了无限的部分。我们找到F的估计,有可能是MLE,然后值是从中模拟得到的,其中k=1,2,…,B,不妨令B=1000。的经验标准差是的标准误差的频率学派估计,其他准确性的度量也类似。
以上是对第10章自助法的一个很好的描述。(注意到在这里关于真实分布F的插入统计量F是在全过程的开始而不是在全过程的结束。)上面的经典方法1~3仅限于估计各种样本均值的平滑函数。模拟计算消除了这个限制。表2.1展示了gfr数据的三个“位置”估计值,均值、25%的缩尾均值、中位数,以及它们的标准误差,后两项是由自助法计算得出的。计算机时代统计推断的一个令人满意的特征是统计学家的工作工具箱中有用和可用的统计量t(x)的巨大扩展,图1.2和图1.3中的lowess算法对此提供了一个很好的例子。
5.枢轴统计量。枢轴统计量是一个其分布不取决于潜在概率分布F的统计量。在这里,理论分布就可以直接运用在上,上述第一种到第四种方法就不需要了。有关枢轴统计量的经典例子有学生两样本t-检验。
在两样本问题中,统计学家观测到两组数据:
而我们想检验一下“这两组数据来自同一个分布”的原假设(与原假设相反的是,第二组数据更倾向于来自均值比第一组数据的分布更大的分布)。假设x1的分布F1是正态分布,或者高斯分布,
上述标记表明n1个点来自同一个期望为μ1、方差为σ2的正态分布且相互独立。同样,
我们希望检验原假设H0:
μ1=μ2(2.14)
检验统计量显然为两组样本的均值差,该检验统计量在原假设下的分布为
我们可以将以下σ2的无偏估计代入其中,
但是Student提供了一个更优雅的解决方法:我们运用两样本t-统计量而不是θ来检验原假设是否成立:
在原假设成立的情形下,t是枢轴量,服从学生t分布(*度为n1+n2-2),与“多余参数”σ无关。
当n1+n2-2=70时,正如(1.5)和(1.6)的白血病例子,由学生t分布得到
如果t大于1.99具有很大的概率,那么在能容忍犯第一类错误的概率为0.05的前提下,假设检验将拒绝原假设H0。与此类似,
是均值差μ2-μ1的95%置信区间,也就是说95%的概率模型(2.12)和(2.13)的重复实验获得的区间会包含其真实值。
所谓频率主义的严格定义是指在实验重复下的确切的概率准确性。遗憾的是,枢轴量法在大多数统计情形下都不可用。我们对频率主义的宽松定义,以及对方法技巧的补充,例如上述五种方法等,对频率学派统计实践应用的场景给出了更加实际的描述。
2.2 频率学意义下的最优化
频率学派方法的普及反映了他们相对适度的数学建模假设:只有一个概率模型F(更准确地说是一个概率族,详见第3章)和一个选择算法t(x)。这种灵活性也是一个缺陷,因为频率正确性原则并不能帮助选择算法。我们应该用样本均值来估计gfr分布的位置吗?如表2.1所示,也许25%的缩尾均值会更好。
1920年至1935年,频率学派最优化的发展得到了两个关键结果,即寻找给定模型F下t(x)的最佳选择。其中第一个是Fisher最大似然估计理论和Fisher信息界限:在第4章讨论的参数概率模型中,MLE是最小(渐近)标准误差的最优估计。
本着同样的精神,Neyman-Pearson引理提供了一个最优假设检验算法。这也许是最优雅的频率学派构造。在最简单的表达式中,NP引理假设我们正试图在观测数据x给出的情境下决定样本可能属于哪个概率密度函数,是原假设下的概率密度f0(x),抑或是备择假设下的概率密度f1(x)。检验规则t(x)表示我们在观察数据x之后做出0或1的选择。任何这样的规则都有两个相关的频率学派框架下的错误概率:生成x的实际上是f0,但我们选择了f1,反之亦然。
令L(x)是似然比,
并且定义检验规则tc(x)为
对于每个截止点的选择有一个这样的规则:Neyman-Pearson引理说只有满足规则(2.22)才是最优的,对于任何其他规则t(x)将会有一个规则tc(x)具有更小的错误,
图2.2 中在x=(x1,x2,…,x10)下作为截止点c的函数的图像(αc,βc)是从正态分布f0~N(0,1)与f1~N(0.5,1)中独立抽样得到的。NP引理说,任何不是形式(2.22)的规则都必须把它的(α,β)点放在曲线之上。
频率学派最优化理论,无论是对于估计还是检验,都是20世纪统计实践的基础。当今时代的大数据集和更复杂的推断性问题,使这一理论的能力受到了限制。正如我们所看到的,计算机时代的统计推断往往表现出一个令人不安的特征。也许一些当代Fisher和Neyman的继承者会为我们提供一个更加宽广的最优理论,这个理论等于当前实践的挑战,但是现在这只是一个希望。
频率主义不能说是统计推断的一种无懈可击的哲学。在它的边界内会出现矛盾,下一章将会对此进行介绍。这就是说,频率学派的方法对研究该领域的科学家有着天然的吸引力。历史上一系列卓越的成功应用案例,例如我们之前列举的五种方法,显示了其具有促进巧妙方法论诞生的能力。接下来的故事不是放弃频率学派的思考方式,而是扩大与其他方法的联系。
2.3 注释与细节
“频率主义”这个名字似乎被Neyman认为是Richard von Mises的频率学概率论的一个统计类比,这个关系在他1977年的论文“Frequentist probability and frequentist statistics”中被明确地表述出来。“行为主义”可能是一个更具描述性的名字 这个名字已经在心理学文献中讲过了。,因为这个理论是围绕着统计学的长期行为展开的,但无论如何,“频率主义”已经停滞不前,取代了较老的(有时是贬义的)术语“客观主义”。Neyman对统计推断中的“归纳行为”曾尝试给出一个完整的频率主义理论,然而时至今日,对该理论的引用寥寥无几。但是,我们仍认为该理论对Wald决策理论的发展起到了重要影响。
R.A.Fisher关于最大似然估计的研究在第4章中有介绍。Fisher可以说是频率学派最优化理论的创始人,他本身并不是一个纯粹的频率论者,本书第4章以及Efron于1998年所著文章“k.A.Fisher in the 21st Century”均对此有所讨论。(现在我们已经进入21世纪,作者Efron作为预言者的天赋即得以验证。)
注释
1.Delta方法:Delta方法运用一阶泰勒级数去近似统计量的函数s()的方差。假设有均值/方差(θ,σ2),并且考虑到近似约等式s()≈s(θ)+s′(θ)(-θ),则有var{s()}≈|s′(θ)|2σ^2。一般情况下用代替θ,再将σ2用另一个估计量代替。