R语言中绘制ROC曲线和PR曲线

2024-02-29 10:49:46

接收器操作特性（ROC）曲线可能是评估评分分类器的预测性能的最常用的度量。

预测正类（+1）和负类（-1）的分类器的混淆矩阵具有以下结构：

预测/参考类	+1	-1
+1	TP	FP
-1	FN	TN

这里，TP表示真阳性的数量（模型正确预测正类），FP表示误报的数量（模型错误地预测正类），FN表示假阴性的数量（模型错误地预测阴性类），TN表示真阴性的数量（模型正确预测阴性类）。

ROC曲线

在ROC曲线中，相对于假阳性率（FPR，x轴）绘制真阳性率（TPR，y轴）。这些数量定义如下：

TPRFPR=TPTP+FN=FPFP+TNTPR=TPTP+FNFPR=FPFP+TN

ROC曲线中的每个点来自混淆矩阵中的值，该值与分类器的预测（分数）上的特定截止值的应用相关联。

yi=+1yi=+1yi=−1yi=−1

y^i=3.5y^i=3.5y^i=2y^i=2

[0,1][0,1]

<span style="color:#000000"><span style="color:#000000"><code>plot.scores.AUC <- <strong>function</strong>(y, y.hat, measure = <span style="color:#880000">"tpr"</span>, x.measure = <span style="color:#880000">"fpr"</span>) {
    par(mfrow=c(<span style="color:#880000">1</span>,<span style="color:#880000">2</span>))
    hist(y.hat[y == <span style="color:#880000">0</span>], col=rgb(<span style="color:#880000">1</span>,<span style="color:#880000">0</span>,<span style="color:#880000">0</span>,<span style="color:#880000">0.5</span>), 
         main = <span style="color:#880000">"Score Distribution"</span>,
         breaks=seq(min(y.hat),max(y.hat)+<span style="color:#880000">1</span>, <span style="color:#880000">1</span>), xlab = <span style="color:#880000">"Prediction"</span>)
    hist(y.hat[y == <span style="color:#880000">1</span>], col = rgb(<span style="color:#880000">0</span>,<span style="color:#880000">0</span>,<span style="color:#880000">1</span>,<span style="color:#880000">0.5</span>), add=<span style="color:#78a960">T</span>, 
            breaks=seq(min(y.hat),max(y.hat) + <span style="color:#880000">1</span>, <span style="color:#880000">1</span>))
    legend(<span style="color:#880000">"topleft"</span>, legend = c(<span style="color:#880000">"Class 0"</span>, <span style="color:#880000">"Class 1"</span>),  col=c(<span style="color:#880000">"red"</span>, <span style="color:#880000">"blue"</span>), lty=<span style="color:#880000">1</span>, cex=<span style="color:#880000">1</span>)
    <span style="color:#888888"># plot ROC curve</span>
    <strong>library</strong>(ROCR)
    pr <- prediction(y.hat, y)
    prf <- performance(pr, measure = measure, x.measure = x.measure)
    <span style="color:#888888"># get AUC</span>
    auc <- performance(pr, measure = <span style="color:#880000">"auc"</span>)@y.values[[<span style="color:#880000">1</span>]]
    plot(prf, main = paste0(<span style="color:#880000">"Curve (AUC: "</span>, round(auc, <span style="color:#880000">2</span>), <span style="color:#880000">")"</span>))
}</code></span></span>