统计学中假设检验有关P值的讨论

摘要: 统计检验能有效确定从样本统计推断至总体时所犯错误的概率,其在医学、临床试验。观察性研究方面有着重要意义。近年来期刊编辑和统计顾问越来越关注医学文献中显着性检验和P值的过度使用和误解。为了澄清对统计学检验和P值的误解和误用,本文通过回顾P值相关理论,总结了P值的优势和劣势,强调了P值在使用中应注意的问题,旨在使非统计专业人员避免对P值的误解和误用。
关键词 : P值;假设检验;置信区间

统计学中假设检验有关P值的讨论

1 引言

为了确定从样本统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检验。通过把所得到的统计检验定值,与统计学家建立了一些随机变量的概率分布进行比较,我们可以知道在多少百分比的机会下会得到目前的结果。然而,期刊编辑和统计顾问越来越关注医学文献中显着性检验和P值的过度使用和误解。正如美国统计协会最近发表的论文所总结的那样,P值除了具有优势外,还存在固有的弱点。

为了澄清,扩展和完善了统计指南,以便作者涵盖临床试验和观察性研究。新指南讨论了《*》研究报告的许多方面,包括用效应或关联的估计值代替P值的要求,以及当协议和统计分析计划都没有指定用于调整乘数的方法时95%置信区间的要求。本文通过回顾 P值相关理论,解读了P值的含义以及在假设检验中应注意的问题,旨在使非统计专业人员避免对 P 值的误解和误用。

2 P值相关理论

P 的含义是指从H0规定的总体中随机抽样,抽得等于及大于或等于及小于现有样本获得的检验统计量的概率。P值理论归功于现代统计学之父、英国统计学家Ronald A. Fisher,Fisher 基于1908年Student的t分布理论,于1925 年首次给出不同情形下P值的计算方法。P 值提供的是度量实际数据与无效假设不相容的证据,P 值越小,越有理由拒绝无效假设。Fisher 认为这是建立科学事实的唯一实验依据,并提出使用后来饱受诟病的“显著”一词来描述该结论,P 值理论由此得名显著性检验。Fisher提示研究者应尽可能重复实验,如果重复实验仍然得到较小的 P 值,则可以推论观察到的效应不大可能单纯由于偶然造成。所以“显著”本意是值得研究者关注或进行重复实验,一次实验本身并不能证明。另外 Fisher 当时还建议阈值除 了0. 05外,也可以使用其他比如0.02或0.01,同时也强调下结论时应结合 P 值和研究的背景信息。

假设检验理论归功于波兰数学Jerzy Neyman 和英国统计学家Egon Pearson。1933 年,在Fisher提出P值理论 8年后,Neyman 和Pearson提出假设检验理论,他们认为考虑一个无效假设的前提是先构想至少一个合理的备择假设。Neyman-Pearson 理论巧妙避开了 Bayes 定理,文献中提到“基于概率论的检验本身都不能提供关于假设真伪的任何有价值的证据,但是我们可以从另一个角度看检验的目的。不用期望知道每个假设的真伪,我们或许可以寻求并遵循一些规则来规范我们的行为,以确保从经验的结果看,我们不会经常犯错。与Fisher理论不同,Neyman-Pearson 理论中包含Ⅰ型错误和Ⅱ型错误( 或检验效能)。尽管他们当时没有设定 5% 水平为Ⅰ型错误的标准阈值,科学界普遍认同该阈值。对Ⅱ型错误 β,通常取 0.1 或0.2,对应检验效能分别为90%和80%。

3 文献综述

《New Guidelines for Statistical Reporting in the Journal》[1]一文中详细介绍了有关P值的理解,文献中指出:P值表示观察到的数据与原假设之间的不兼容程度。“P <0.05”表示在无效应或无关联且假设无混杂的情况下,比观察到的更大的处理效应或暴露相关性发生的几率不到5%。

如果无效假设实际上是真的,则该假设为假的可能性小于5%。如果报告了多个P值而没有对多重性进行调整,那么在不存在任何差异的情况下宣布治疗差异的可能性可能远高于5%。当进行10个检验时,如果无差异条件下的原假设成立,则10个检验中至少有一个的P值小于0.05的可能性可能高达40%。即使在不需要对多重性进行调整的情况下,P值也不代表原假设为假的概率:P<0.05并不意味着原假设为假的概率小于5%。因为P值不提供有关估计的关联性(其标准误差)的可变性的信息,所以无显著性的P值不能区分真正可忽略的组间差异和由于标准误差较大而不能提供信息的组间差异。P值不提供关于效应或关联大小的信息。

在研究中使用P值来总结证据,一方面需要阈值具有很强的理论和经验上的一致性,另一方面,需要适当注意由非批判性地解释多个推论导致的误差。这种由多次比较引起的变化也可能发生在研究人员进行了比较但未在手稿中报道的情况下。当在研究设计中指定时,可以使用大量的方法对多个组件进行调整,并可用于控制分析中的I型错误概率。最后,如果P <0.05,则对某种特定结果有效的治疗方法;如果未达到该阈值,则认为无效的治疗方法的观点是医学上的还原论观点,并不总是反映现实。

一个设计良好的随机或观察性研究将有一个基本假设和一种预先指定的分析方法,而该分析的显著性水平是一项可靠的指标,表明所观察到的数据在多大程度上与干预措施或暴露措施之间不存在关联的原假设相矛盾。临床医生和监管机构必须做出决定,决定使用或允许销售哪种治疗方法,并且由经过适当调整的可靠计算的阈值解释的P值对这些决定中起作用。

关于P值的修订主要基于3个前提:重要的是要遵守一项既定的分析计划(如果有的话);使用统计阈值来表明效果或关联应仅限于分析,分析计划概述了控制I类错误的方法;并且有关治疗或接触的利弊的证据应包括点估计及其误差范围。

4 对P值的理解

P值表明数据与既定统计模型不相容的程度,P 值越小,数据与既定统计模型对应的无效假设不相容的程度越大,前提是满足计算 P 值的假定条件。P值不表示无效假设成立的概率,也不表示样本数据单纯由于偶然产生的概率。我们得到的是无效假设H0成立条件下,获得现有样本或更极端样本的概率,而不是获得现有样本条件下无效假设 H0成立的概率。

科学结论或决策不应仅依靠 P 值是否超过给定阈值即检验水准,还要结合研究设计、数据质量、研究现象的外部证据以及数据分析的前提条件等。正是广泛使用将 P 小于 0. 05 即“有统计学意义”作为科学发现的依据,才导致对该科学推论过程的曲解。研究者应当报告研究的所有假设、数据收集、统计学分析及其 P 值,而不应选择性地报告 P值和相应的统计分析。

P 值不等价于效应的大小或研究结果的重要性,P 值越小并不表示效应越大或结果越重要,反之,P 值越大也不表示效应越小或结果越不重要。只要样本含量足够大或测量精度足够高,任何小的效应都能产生小的 P 值,反之,大的效应由于样本含量小或测量精度低会导致大的 P 值; 另外,相同的估计效应由于不同的估计精度会导致不同的 P 值。

没有研究背景或其他证据的 P值只能提供有限的信息。例如,接近 0. 05 的 P 值只能提供关于无效假设的微弱证据,而一个相对大的 P 值也不构成支持无效假设的证据,因此,数据分析不应以计算出 P 值而告终,研究者还可以提供其他证据,包括置信区间、预测区间、Bayes 方法、似然比或 Bayes 因子、决策理论模型等。

5 结论

作为规范的科学实践的一个必要部分,规范的统计实践强调研究设计的原则和实施、研究假设的理解、研究结果的解释及表达等。报告确切的 P 值可以让读者或研究者判断结果提示的意义,而不是仅仅依据检验水准做出拒绝或不拒绝假设的非此即彼的推断。另外,建议研究者综合使用假设检验、效应值、置信区间、Bayes 统计、meta 分析等,从不同角度阐释研究现象,而不是将假设检验作为统计推断唯一依据。

参考文献

[1] Harrington D , D’Agostino R B , Gatsonis C , et al. New Guidelines for Statistical Reporting in the Journal[J]. New England Journal of Medicine, 2019, 381(3):285-286.
[2] 余红梅. 解析美国统计学会关于统计学检验和 P 值的声明[J]. 中国卫生统计,2017,34(1):173-176.

上一篇:基于鸢尾花卉数据集的Fisher分类器设计


下一篇:在人类小鼠细胞系中的细胞特异性选择性剪切分析之统计方法篇