分组分析方法与实现

分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

离散属性的分组比较容易,而连续属性的分组,分组前要进行离散化

分组分析方法与实现

分组分析方法与实现

分组分析方法与实现
image.png

分组分析方法与实现
离散值基尼系数的计算

分组分析方法与实现
连续值的基尼系数的计算




代码实现

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
分组分析方法与实现
未去除异常值,因此图像比较模糊
sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
分组分析方法与实现
图中有两个明显的拐弯的界限,可以根据界限来对满意度分组
上一篇:leetcode算法题学习Java版(1)


下一篇:图神经网络个人笔记