分析某公司的人员变动情况。
二、数据解读
数字来源于人事系统和手工表
1.数据概述;
员工基本信息表
员工在公司的信息表
员工薪资情况表
员工工时表
2.数据详细概述:
(1)员工基本信息表:姓名、年龄、学历、籍贯、工龄、婚姻情况、有无子女。
(2)员工在公司的信息表:员工号,姓名,司龄,BusinessUnit,Budget Unit,上级,是否离职,离职理由,通勤时间,上次升职时间,对公司的满意度
(3)员工薪资情况表:员工号,姓名,基本薪资,奖金
(4)员工工时表:员工上下班时间,请假、调休、旷工,应工作时间
三、数据预处理
A.缺失值:
对于是否离职字段为空的记录直接删除
其余缺失值用众数填充
B.重复值:
对于员工号相同的记录进行核实,视情况保留。(可能会有再次入职的情况)
C.数据预处理:
将员工基本信息表与员工在公司的信息表进行右联,再将右联后的表与剩下的两张表进行左联
四、特征选择
字段有:员工号、姓名、BusinessUnit、Budget Unit、上级、是否离职、离职理由、通勤时间、上次升职时间、对公司的满意度、学历、籍贯、工龄、婚姻情况、有无子女、基本薪资、奖金、员工上下班时间、请假、调休、旷工。
可以去除上级这个字段、将婚姻情况和有无子女合并为家庭成员。将基本薪资与奖金合并为月总收入,将员工上下班时间、请假、调休、旷工合并为工作时长,工作时长-员工上下班时间为额外工作时间。将BusinessUnit去掉,范围太广,将上级去掉,保留Budget Unit。
剩下的字段有:员工号、姓名、Budget Unit 、是否离职、离职理由、通勤时间、上次升职时间、对公司的满意程度、学历、籍贯、工龄、家庭情况、月总收入、工作时长、额外工作时长。
数据不平衡,评估方法采用roc。
我们采取两种特征选择方法:filter法和Wrapper法,再用交叉验证判断哪种方法好具体描述见此链接
五、数据建模
k折检验。采用决策树里的CART法。
模型评估查看精确率,召回率,f1_score,进行调参。
相关文章
- 08-05python数据分析与应用
- 08-05Python数据分析(4)-numpy数组的属性操作1. ndarray的属性2. ndarray元素的属性3. ndarray元素的类型
- 08-05python可视化文本分析(2)—snownlp+jieba分析QQ群成员发言情况
- 08-05【python数据分析】pandas库之文本处理
- 08-05Python数据分析中 DataFrame axis=0与axis=1的理解
- 08-05python数据分析
- 08-05使用python进行数据清洗及ols回归分析
- 08-05Python数据分析中对重复值、缺失值、空格的处理
- 08-05风控数据分析学习笔记(二)Python建立信用评分卡
- 08-05python数据分析-06DataFrame继续深入