回科普文章主選單

AUC & ROC 曲線

AUC & ROC Curve


ROC曲線連結分類模型各個分類閥值的結果,以圖形方式呈現二元分類的預測成果。曲線的兩個參數分別是真陽率 True Positive Rate,也就是Recall或Sensitivity,和偽陽率 False Positive Rate,也就是1 – Specificity。曲線的全名是Receiver Operating Curve,一開始研發是給軍方的雷達接收員使用。

真陽率的公式是。偽陽率公式是若不懂TP,FP,TN,FN是什麼意思,請參考Confusion Matrix頁的解釋。

這裡用一個例子來解釋真陽率和偽陽率。假設我們在做胰臟癌的分類,真陽率就是在所有實際上有胰臟癌的病人中有多少比例的人在分類時被判定確實是有胰臟癌。偽陽率則是在所有實際上沒有胰臟癌的受測人員中,有多少比例的人在分類時是被誤判,被判定有胰臟癌。

不同的分類閥值會對應到不同的真陽率和偽陽率。在把分類閥值從0提升到100的過程中,預測結果會出現越來越多的正陰性和偽陰性,得出不同的真陽率和偽陽率。把這些不同的真陽率和偽陽率組合連起來就可以得到ROC曲線。

AUC則是Area under the ROC curve的縮寫,用積分求取ROC曲線下的面積,如此就不須要知道曲線上個別點的值。AUC的區間是從0到1。錯誤率100%的模型AUC是0。錯誤率0%的模型AUC是100。隨機分類的模型AUC是0.5。

AUC有兩個優點。第一,它不受尺度影響。AUC的值只是正的案例數和負的案例數的比較,不受實際預測值的大小影響。ˇ第二,它不受分類閥值影響。分類閥值不管如何設定都不會影響AUC值的測量。


參考文獻:

https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc

https://www.alexejgossmann.com/auc/

回科普文章主選單