机器学习:数据特征预处理缺失值处理

缺失值处理

删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列

插补:填补列的平均值,中位数

numpy数组中的缺失值 nan/NaN 属于float类型

代码示例

from sklearn.preprocessing import Imputer
import numpy as np

# 缺失值处理
data = [
    [1, 1, 3],
    [np.nan, 4, 6],
    [7, 3, 5]
]

im = Imputer(missing_values="NaN", strategy="mean", axis=0)
result = im.fit_transform(data)
print(result)
"""
[[1. 1. 3.]
 [4. 4. 6.]
 [7. 3. 5.]]
"""


上一篇:[喵咪BELK实战(3)] logstash+filebeat搭建


下一篇:Kubernetes(四) - Pod和Deployment