文章目录
import pandas as pd
import numpy as np
import os
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import *
os.chdir("../../数据/")
- 这里我省略了
preprocessing()
的具体实现,因为每个人的数据都不一样,而且本文的重点在于混淆矩阵,因此忽略了处理特征的过程。
def preprocessing():
.....
.....
return std_data,label
得到特征和标签
- data 代表的是做分类使用的特征矩阵
- label 代表的是我的数据的分类的标签
- 在我自己的数据中,我的 label 一共有三类,即:0,1,2 来表示
data, label = preprocessing()
训练自己的模型
x_train,x_test,y_train,y_test = train_test_split(data,label)
forest = RandomForestClassifier()
forest.fit(x_train,y_train)
score = forest.score(x_test,y_test)
score
0.7647058823529411
构造混淆矩阵
- 混淆矩阵就是用一种可视化的方式来直观地判断你训练的模型的性能如何
- 比如我们构造的这个混淆矩阵,一共是 3 × 3 3 × 3 3×3 个格子,我们就用 ( 0 , 0 ) , ( 0 , 1 ) . . . ( 2 , 2 ) (0,0),(0,1)...(2,2) (0,0),(0,1)...(2,2) 来表示
- 那么 ( 0 , 1 ) (0,1) (0,1) 的含义就是:对于一个样本他的真实标签是 0 0 0,通过训练后的模型预测的标签是 1 1 1;同样地, ( 2 , 1 ) (2,1) (2,1) 表示的含义就是:一个样本的真实标签是 2 2 2,预测标签是 1 1 1;
- 很显然,主对角线上的三个格子 ( 0 , 0 ) , ( 1 , 1 ) , ( 2 , 2 ) (0,0),(1,1),(2,2) (0,0),(1,1),(2,2) 表示的就是真实值和预测值一致的情况。
- 每个格子中的数字,表示的是符合要求的样本个数。比如主对角线上的三个值分别是 47 , 33 , 37 47,33,37 47,33,37,他们的和就是整个模型对于 t e s t test test 数据集合做的预测中 预测值和真实标签一致的情况,也就是预测正确的样本数的总和
from sklearn.metrics import confusion_matrix
import seaborn as sns
y_true = y_test
y_pred = forest.predict(x_test)
cm = confusion_matrix(y_true,y_pred)
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)
加上合适的标签
- 如果你觉得 0,1,2 这样看起来不够直观,也可以通过将 混淆矩阵转换成 dataframe,加了行列标签后再可视化;例如:
cm = pd.DataFrame(cm,columns=["cat","dog","lion"],index=["cat","dog","lion"])
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)
混淆矩阵传递出的信息
-
从这个图来看,我们可以发现在模型误判的样本中; 16 16 16 和 8 8 8 是较为突出的两组数
-
这就是说,有 8 8 8 个样本的真实标签是 d o g dog dog 的却被误判成了 l i o n lion lion,而有 16 16 16 个 l i o n lion lion 的样本被误判成了 d o g dog dog
-
而 c a t cat cat 被误判成 d o g dog dog 和 l i o n lion lion 的样本数量是很小的;因此我们知道应该在 l i o n lion lion 和 d o g dog dog 的判断上进行更多工作