先看原题:
某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明,化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性, 而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性,问他真的患有肝癌的概率是多少?
先说答案,一个人化验结果呈阳性,则他患有肝癌的概率是28.4%。
乍一看,觉得这个概率真的好小,看题设里说的,患有肝癌的人,99%的概率是化验结果呈阳性(1%的误判是技术等其他原因导致的)。那为什么反过来,一个人化验结果呈阳性,则他患有肝癌的概率概率就变成了28.4%,这似乎有点违背常识。
解题
我们先把题设化成图,便于取数计算。
解:
设A={该患者是肝癌患者},B={该患者检验呈阳性}
求\(P(A|B)\)
则
\[P(A) = 0.9996 \\ P(\overline{A})=0.0004 \]由贝叶斯公式可知:
\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \]这里分子的展开使用了 乘法公式,分母的展开使用了 全概率公式。
我们依次求每一项:
\(P(B|A)\)代表是肝癌患者的前提下,检测呈阳性的概率。我们已经知道了是 0.99
\(P(B|\overline{A})\)代表不是肝癌患者的前提下,检测呈阳性的概率。我们已经知道了是 0.001
即:
\[\begin{equation} P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]将公式(1)(3)代入(2)可得\(P(A|B)=0.284\),即 一个人在第一次化验结果呈阳性的前提下,则他患有肝癌的概率是28.4%
分析
其实凭直觉,我们也应该能猜出,这与肝癌的发病率有关,因为在样本空间(所有人)中,他的发病率只有0.0004。
对此,如果我们把样本空间换成首次检验结果呈阳性的个体,也就是理解成,对首次检查呈阳性的个体进行复查。再去计算
如果复查结果还是阳性,那么此时患肝癌的概率的值。
由于首次检验结果呈阳性的患者,发病率是 0.284(上面已经计算出来了),我们再去使用一次贝叶斯公式(2),
此时的参数是:
\[\begin{equation} P(A) = 0.284 \\ P(\overline{A})=0.716 \\ P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]代入(2),可得P = 0.997,可见若第二次化验结果还是阳性,此时是肝癌患者的概率变成了99.7%,这也就是现实生活中,要复查的原因了。
作图
在目前技术水平不变的情况下,化验结果的概率,我们假设是一个定值。
那么对于公式
\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \tag 2 \]我们画出求\(P(A|B)\)关于\(P(A)\)的函数,即检验结果是阳性的前提下,该患者患肝癌的概率与人群肝癌发病率的关系。
设人群肝癌发病率为x,检验结果是阳性的前提下,该患者患肝癌的概率为y。
可得:
\[y = {0.99x \over 0.99x + 0.001(1-x)} \]作图:
假设当疾病发病率为4%时,若检测为阳性,则患肝癌的概率是97.63%。
代码:
# coding=gbk
import numpy as np
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
def morbidity(x):
y = x*0.99 / (x*0.99 + (1-x)*0.001)
return y
if __name__ == '__main__':
x = np.arange(0, 1, 0.01)
y = morbidity(x)
# 开始作图
fig = plt.figure(figsize=(20, 6)) # 设置画布大小
plt.grid(linestyle="-.", axis='y', alpha=0.4)
plt.xlabel("人群发病率", fontsize=15)
plt.ylabel("患肝癌概率", fontsize=15)
plt.plot(x, y)
plt.show()
总结
进一步降低错检率是提高检验精度的关键。但在实际中由于技术和操作等种种原因,降低错检率是很困难的。仔细分析一下会发现检验精度低的主要原因是肝癌发病率很低。所以在实际中,常采用复查的方法来减少错误。因为此时被怀疑的对象群体中,肝癌的发病率已大大提高了。
概率有时候与我们的经验不太一样,这也是其魅力之一。