最优检测器,ROC,AUC

1.背景

一般机器学习完成后会生成正确率等指标,ROC也是常用的指标
\(假设有一随机变量X,离散值,有n中取值,同时有两类分布对应X\)
\(1.真实分布-从样本中,概率为p=(p_1,p_2,....,p_n)\)
\(2.假设分布-学习得到,概率为q=(q_1,q_2,....,q_n)\)
\(问题,若现在已知X=某个值,那么请问这个X来源于哪个分布?\)

2.\(概率矩阵P\)

\(P=\begin{pmatrix} p_1 & q_1 \\ p_2 & q_2 \\ . & . \\ p_n & q_n \\ \end{pmatrix},每列代表一种分布,每行代表X可能的离散值\)
\(P_{kj}=Prob(X=k|\theta =j)代表某个分布j下产生样本k的概率,这是条件分布,\color{red}{给定了分布}\)

3.检测器/检测矩阵 dector T

\(T=\begin{pmatrix} 1 & 1 & 0.5 & 0.3 & 0 & ... \\ 0 & 0 & 0.5 & 0.7& 1 & ... \\ \end{pmatrix}\)
\(每一行对应一种分布,每一列X=k代表这个值在1分布的概率或者2分布的概率,显然要么在1分布,要么在2分布,每一列求和=1\)
\(上面是Random\ dector\)
\(如果T对应如下情况\)
\(T=\begin{pmatrix} 1 & 1 & 0 & 0 & ... \\ 0 & 0 & 1 & 1 & ... \\ \end{pmatrix}\)
\(这种叫确定性的矩阵 deterministic\ dector,也就是这两类分布是完全独立,互不影响的\)
\(t_{ik}=Prob(\hat \theta=i|X =k),\color{red}{给定了样本值}情况下,样本属于哪个分布的概率\)

4.检测概率矩阵 Detection Prob Matrix-D

\(D_{ij}=Prob(\hat \theta =i | \theta =j),真实分类/分布是j,但识别称了i\)
\(根据全概率公式\)
\(P(A|C)=\sum P(A|BC)P(B|C)\)
\(=\sum_B \frac{P(ABC)}{BC} \frac{P(BC)}{C}\)
\(=\frac{P(AC)}{C}=P(A|C)\)
\(故有\)
\(D_{ij}=Prob(\hat \theta =i | \theta =j)\)
\(=\sum_{k=1}^{n}P(\hat \theta =i| x=k,\theta =j) P(x=k|\theta =j)\)
\(=\sum_{k} t_ik p_{kj}\)
\(=TP_{ij},是矩阵相乘\)

Detection Prob-判断正确的概率

\(P_i^{d}=D_{ii}=Prob(\hat \theta =i|\theta =i)\)

Error Prob-判断错误的概率

\(P_i^{e}=\sum_{j+i}D_{ji}=Prob(\hat \theta =i|\theta =i)\)

\(矩阵D有如下性质\)
\(\sum_{i=1}^{n}D_{ij}=1-D_{ii}=Prob(\hat \theta =j|\theta =i),i\ne j\)

5.最优检测器涉及

1.limit on error and detection

限制正确率,错误率
\(P_i^{d}=D_{ii} \ge L_j\)
\(D_{ij}\le u_{ij}(i\ne j)\)
\(这是一个解可行域的问题,feasibility\ Problem\)
\(这里变量是T矩阵,T=(t_1,...,t_k,...,t_K),t_k是列向量\)

2. Minimum detection design-极小化错误率

\(min\ max_j P_i^{e}\)
\(s.t. \ t_k\ge 0,1^Tt_k =1\)

6.真假阴阳性,Binary case

\(D = TP = [Tp_1,T_p2] = \begin{bmatrix} P_{TN}, P_{FN} \\ P_{FP} , P_{TP} \\ \end{bmatrix}\)
真实/假 True/False
阴性/阳性 Positive/Negative
$ P_{TN}, + P_{FP} =1 \( \) P_{FN}, + P_{TP} =1 $

举些例子

一些疾病,不能错放一个,没病的检测出有空可以容忍,要控制假阴性

上一篇:Softmax从零开始实现(李沐动手学)


下一篇:PReLu