混淆矩陣

Confusion Matrix


混淆矩陣是機器學習裡,特別是在做分類時,會使用到的圖表,以視覺化演算法的成果。它又被稱為誤差矩陣,通常被用來評估監督學習的結果。

在圖表一中,矩陣中的每一列(左右)代表的是預測的結果。每一行(上下)代表實際的值。被取名為混淆矩陣是因為這樣的矩陣列表方式可以讓使用者很清楚的判斷分類演算法有沒有混淆了正確和錯誤的判斷。

舉例來說,圖表一是在做蘋果和香蕉之間的分類。參照圖表一可以看出蘋果實際上有10顆。香蕉實際上有12根。預測出的蘋果卻只有9顆,香蕉有13根。在10顆蘋果中,有6顆被準確的預測出是蘋果,其他4顆卻被誤判成香蕉。在12根香蕉中,9根被正確的判定是香蕉,其他的3根卻被誤判成蘋果。

接著我們假設要做的是蘋果的分類,如果要做蘋果的分類,蘋果就是正值,香蕉就是負值。真陽性 True Positive TP 是預測和實際結果都是正值的狀況,就是實際上是蘋果,預測出的也是蘋果,共有6例。真陰性 True Negative TN 是預測和實際結果都是負值的狀況,就是實際上是香蕉,預測出的也是香蕉,有9例。偽陽性 False Positive FP,也稱為Type I Error 第一型誤差,是預測結果是正值,實際結果卻是負值的狀況,就是預測出的是蘋果,實際上卻是香蕉的情況。偽陰性 False Negative FN,也稱為Type II Error 第二型誤差,是預測結果是負值,實際結果卻是正值的狀況,就是預測出的是香蕉,實際卻是蘋果的情況。斜對角的連線,左上到右下,粗體字的部分,就是分類演算法所有正確的分類。


參考文獻:

https://en.wikipedia.org/wiki/Confusion_matrix