Pandas_one-hot encoding与dummy encoding

Pandas_特征提取

one-hot encoding

基本思想是将离散型特征的每一种取值都看成一种状态,保证每一个取值只会使得一种状态处于激活状态。

编码函数pd.get_dummies()

dummy encoding

哑变量编码的基本思想是任意的将一个状态位去除,其他的状态位都不激活时,自然就表示被去除的状态位。

注意:

  • Series 里的整数会被one-hot编码,但是DataFrame里则不会。
上一篇:python编程之sklearn.preprocessing.LabelBinarizer()的用法解析


下一篇:ELSTICSEARCH 将数据从热节点转到冷节点