缺失值处理
删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列
插补:填补列的平均值,中位数
numpy数组中的缺失值 nan/NaN 属于float类型
代码示例
from sklearn.preprocessing import Imputer import numpy as np # 缺失值处理 data = [ [1, 1, 3], [np.nan, 4, 6], [7, 3, 5] ] im = Imputer(missing_values="NaN", strategy="mean", axis=0) result = im.fit_transform(data) print(result) """ [[1. 1. 3.] [4. 4. 6.] [7. 3. 5.]] """