贝叶斯公式经典例题

先看原题:

某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明,化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性, 而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性,问他真的患有肝癌的概率是多少?

先说答案,一个人化验结果呈阳性,则他患有肝癌的概率是28.4%

乍一看,觉得这个概率真的好小,看题设里说的,患有肝癌的人,99%的概率是化验结果呈阳性(1%的误判是技术等其他原因导致的)。那为什么反过来,一个人化验结果呈阳性,则他患有肝癌的概率概率就变成了28.4%,这似乎有点违背常识。

解题

我们先把题设化成图,便于取数计算。

贝叶斯公式经典例题

解:

设A={该患者是肝癌患者},B={该患者检验呈阳性}

求\(P(A|B)\)

\[P(A) = 0.9996 \\ P(\overline{A})=0.0004 \]

由贝叶斯公式可知:

\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \]

这里分子的展开使用了 乘法公式,分母的展开使用了 全概率公式

我们依次求每一项:

\(P(B|A)\)代表是肝癌患者的前提下,检测呈阳性的概率。我们已经知道了是 0.99

\(P(B|\overline{A})\)代表不是肝癌患者的前提下,检测呈阳性的概率。我们已经知道了是 0.001

即:

\[\begin{equation} P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]

将公式(1)(3)代入(2)可得\(P(A|B)=0.284\),即 一个人在第一次化验结果呈阳性的前提下,则他患有肝癌的概率是28.4%

分析

其实凭直觉,我们也应该能猜出,这与肝癌的发病率有关,因为在样本空间(所有人)中,他的发病率只有0.0004。

对此,如果我们把样本空间换成首次检验结果呈阳性的个体,也就是理解成,对首次检查呈阳性的个体进行复查。再去计算

如果复查结果还是阳性,那么此时患肝癌的概率的值。

由于首次检验结果呈阳性的患者,发病率是 0.284(上面已经计算出来了),我们再去使用一次贝叶斯公式(2),

此时的参数是:

\[\begin{equation} P(A) = 0.284 \\ P(\overline{A})=0.716 \\ P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]

代入(2),可得P = 0.997,可见若第二次化验结果还是阳性,此时是肝癌患者的概率变成了99.7%,这也就是现实生活中,要复查的原因了

作图

在目前技术水平不变的情况下,化验结果的概率,我们假设是一个定值。

贝叶斯公式经典例题

那么对于公式

\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \tag 2 \]

我们画出求\(P(A|B)\)关于\(P(A)\)的函数,即检验结果是阳性的前提下,该患者患肝癌的概率人群肝癌发病率的关系。

设人群肝癌发病率为x,检验结果是阳性的前提下,该患者患肝癌的概率为y。

可得:

\[y = {0.99x \over 0.99x + 0.001(1-x)} \]

作图:

贝叶斯公式经典例题

贝叶斯公式经典例题

假设当疾病发病率为4%时,若检测为阳性,则患肝癌的概率是97.63%。

代码:

# coding=gbk
import numpy as np
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题


def morbidity(x):
    y = x*0.99 / (x*0.99 + (1-x)*0.001)

    return y


if __name__ == '__main__':
    x = np.arange(0, 1, 0.01)
    y = morbidity(x)

    # 开始作图
    fig = plt.figure(figsize=(20, 6))  # 设置画布大小
    plt.grid(linestyle="-.", axis='y', alpha=0.4)
    plt.xlabel("人群发病率", fontsize=15)
    plt.ylabel("患肝癌概率", fontsize=15)
    plt.plot(x, y)
    plt.show()

总结

进一步降低错检率是提高检验精度的关键。但在实际中由于技术和操作等种种原因,降低错检率是很困难的。仔细分析一下会发现检验精度低的主要原因是肝癌发病率很低。所以在实际中,常采用复查的方法来减少错误。因为此时被怀疑的对象群体中,肝癌的发病率已大大提高了。

概率有时候与我们的经验不太一样,这也是其魅力之一。

上一篇:数据挖掘-数据预处理-02


下一篇:降维技巧