5 个pandas神级操作，最后一个长见识了！

2021-09-05 10:27:23

1、df.groupby().iter()分析数据样本

在Jupyter Notebook中通常很难像使用Excel一样难逐行或逐个组地浏览数据集。一个非常有用的技巧是使用 generator 生成器和Ctrl + Enter组合，而不是我们常规的Shift + Enter运行整个单元格。这样做就可以很方便地迭代查看同一单元格中的不同样本了。

首先在单元格中使用.groupby()（或.iterrows()）和.__iter __()创建一个生成器：

generator = df.groupby(['identifier']).__iter__()

然后，根据自己需要运行的次数，使用键盘快捷键Ctrl + Enter逐个查看数据。

group_id, grouped_data = generator.__next__()
print(group_id) 
grouped_data

下面是taitanic数据集的示例。正常分析的时候，所有乘客都混在一起，我们是不能单独地隔离每组乘客的，使用这种方法就可以非常简单地分析一组乘客。

5 个pandas神级操作，最后一个长见识了！

2、特征重要性/参数的可视化

如果我们做机器学习，那么模型的参数或者特征的重要性是必不可少的一环。通常我们会像下面这样查看参数，但小数点太多了，真的容易花眼，这样非常不便于分析和比较。

5 个pandas神级操作，最后一个长见识了！

所以，我们对上面代码稍加改造，用链式操作首先round保留小数点后两位数字，然后sort_values进行从大到小的排序，最后用style.bar进行可视化，颜色可随意设置，这样不但可以区分大小，也可区分正负。

pd.DataFrame({
    'variable': variables,
    'coefficient': model.coef_[0]
}) \
    .round(decimals=2) \
    .sort_values('coefficient', ascending=False) \
    .style.bar(color=['grey', 'lightblue'], align='zero')

上面这段代码是可以复用的，之后每次展示参数或者特征重要性的时候，直接替换字段名就ok了。下面是可视化效果。

5 个pandas神级操作，最后一个长见识了！

3、sklearn_pandas

时间长了我们会发现sklearn和pandas搭配有时候代码并不是十分整洁，中间的操作环节比较多。推荐一个连接sklearn和pandas的库包，它叫sklearn_pandas。它将sklearn的ColumnTransformer替换为pandas的DataFrameMapper。用起来无缝连接，和直接使用sklearn的ColumnTransformer毫无区别。

imputer_Pclass = SimpleImputer(strategy='most_frequent', add_indicator=True)
imputer_Age = SimpleImputer(strategy='median', add_indicator=True)
imputer_SibSp = SimpleImputer(strategy='constant', fill_value=0, add_indicator=True)
imputer_Parch = SimpleImputer(strategy='constant', fill_value=0, add_indicator=True)
imputer_Fare = SimpleImputer(strategy='median', add_indicator=True)
imputer_Embarked = SimpleImputer(strategy='most_frequent')
scaler_Age = MinMaxScaler()
scaler_Fare = StandardScaler()
onehotencoder_Sex = OneHotEncoder(drop=['male'], handle_unknown='error')
onehotencoder_Embarked = OneHotEncoder(handle_unknown='error')
leaveoneout_encoder = LeaveOneOutEncoder(sigma=.1, random_state=2020)
mapper = DataFrameMapper([
    (['Age'], [imputer_Age, scaler_Age], {'alias':'Age_scaled'}),
    (['Pclass'], [imputer_Pclass]),
    (['SibSp'], [imputer_SibSp]),
    (['Parch'], [imputer_Parch]),
    (['Fare'], [imputer_Fare, scaler_Fare], {'alias': 'Fare_scaled'}),
    (['Sex'], [onehotencoder_Sex], {'alias': 'is_female'}),
    (['Embarked'], [imputer_Embarked, onehotencoder_Embarked]), 
    (['Embarked_Pclass_Sex'], [leaveoneout_encoder])
], df_out=True) 
mapper.fit(X=train, y=train['Survived'])