sklearn.impute
.SimpleImputer 中fit和transform方法的简介
SimpleImputer 简介
通过SimpleImputer ,可以将现实数据中缺失的值通过同一列的均值、中值、或者众数补充起来,这里用均值举例。
fit方法
通过fit方法可以计算矩阵缺失的相关值的大小,以便填充其他缺失数据矩阵时进行使用。
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
对于数组
\[ \begin{matrix}
1 & 2 \\
null & 3 \\
7 & 6 \\
\end{matrix}
\]
1 & 2 \\
null & 3 \\
7 & 6 \\
\end{matrix}
\]
经过imp.fit
之后,第一列的均值为(1+7)/2=4
,第二列的均值为(2+3+6)/3=3.6667
。
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))
transform 方法
之后给定一个X矩阵,通过transform
方法进行转换。
\[\begin{matrix}
null & 2 \\
6 & null \\
7 & 6 \\
\end{matrix}
\]
null & 2 \\
6 & null \\
7 & 6 \\
\end{matrix}
\]
填充第一个null
为之前算的均值4
,第二null
为第二列均值3.6667
fit_transform 方法
一般我们实际使用时,对于给定的数据,直接使用fit_transform
方法进行计算以及填充。