如果你去医院体检发现癌症检测为阳性,而检测准确率为90%(检测成阳性而且确实有癌症P( + | C) ),你真正得了癌症的概率是多少?
当然我还得给你两个数据比如
1、癌症患者占人口总数的比如1%(P(C) = 0.01)
2、检测的误诊率20%(没有癌症但是检测成阳性P( + | -C))
这三个条件下你能算出你确实得癌症(检查为阳性)(P(C|+))概率吗?
------答案在分割线下面--------
答案是4.3%, 其实有很大概率你是没有癌症的,所以不必惊慌。
概率有多重要,记得当年在学习量子物理的时候,发现这是理解量子世界最重要的概念,没有之一。同时,现代金融,理财甚至赌博行业,都是概率理论在起着决定性作用。
概率思维是一个很重要的思维,特别是在机器学习领域,机器学习领域有一个用得非常广泛的方法叫做“朴素贝叶斯(Naive Bayes)”方法的核心就是概率理论。
那刚刚那个癌症的例子是怎么计算得到的呢?
概率理论有几个关键概念
1、独立事件和联合事件
比如抛硬币,每次拋都是独立事件,正反面的概率都是0.5。 独立事件同时发生比如抛两次都是正面的概率是0.5x0.5 = 0.25. 同时发生这种情况是两个相互独立事件的联合事件。
2、关联事件
比如天气,假设只有天晴和下雨两种状态,第一天天晴的概率是, P1(晴)=0.5,第二天天晴的概率是在第一天的基础上的关联事件, P2(晴|晴)=0.8。第一天晴第二天还是晴的联合事件的概率是P1(晴)*P2(晴|晴)=0.4, 那是不是说第二天天晴的概率就是0.4呢,当然不是,因为第一天还可能下雨,需要加上第一天下雨第二天也是晴天的概率。正确的算法是
因为第一天晴的概率是0.8 那么第一天下雨的概率是P1(雨) = 1-0.5 = 0.5, 这种情况下,如果第二天还是晴天的概率也要给出比如P2(晴|雨)=0.3,只有知道了 P1(晴),P2(晴|晴) 和P2(晴|雨)这三个条件我们才能算出第二天甚至第三天第四天天晴下雨的概率。
所以第二天, P2(晴) = P1(晴)P2(晴|晴) + P1(雨)P2(晴|雨) = 0.50.8 + 0.50.3 = 0.45。
癌症的例子怎么算呢?因为癌症患者的比例和被检测出阳性是一个关联事件,所以需要计算出两个联合事件:
1、癌症患者同时又被检测出来成阳性的概率 P(C, +) = P(C) * P( + | C) = 0.009
2、癌症患者但同时检测出来成阴性的概率 P(C, -) = P(C) * P( - | C) =0.001
所以最后你是癌症患者同时又被检查出来的概率 P(C|+) = P(C, +) /(P(C, +) +P(C, -)) = 0.043
3、贝叶斯法则(Bayes Rule)
对于癌症检测这类问题的概率计算方法实际上有一个法则叫做贝叶斯法则(Bayes Rule)
参考*:https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86
于是 套用上面的公式也是可以的到计算结果的
P(c | +) = P(+|c)* P(c)/P(+) = P(+|c)* P(c)/( P(+|c)* P(c) + P(+|-c)* P(-c))
其实还有一个更简便的公式,可以更方便地计算如果两次都被检查出阳性那真正换癌症的概率,我就不做解释了贴出来放在这里,如果有疑问欢迎留言讨论: