而剩下的几个类别型变量皆为无序变量,可以将其转化为哑变量,再进一步转化为虚拟变量。相比于sklearn中的API,pandas自带的方法看起来更加简洁。
#哑变量编码 dummy_df = pd.get_dummies(data1.iloc[:,6:10])
如果你感觉这种方式简单,并没有懂哑变量编码的意思和过程,可以试着了解一下下面这个函数,同样是实现哑变量编码。
def dummy_code(var): #获取特征中所有变量 var_unique = var.unique() #新建一个DataFrame dummy = pd.DataFrame() for val in var_unique: #利用一个布尔型数组存储编码后的变量 bo = (val==var) #命名,并将True转为1,False转为0 dummy[var.name+"_"+str(val)] = bo.astype(int) return dummy
将哑变量进一步转化为虚拟变量合并至数据集中,代码如下:
#每个特征删去一个类别,得到虚拟变量 dummy_df1 = dummy_df.drop(['land_condition_S','foundation_type_O','roof_type_H','ground_floor_type_T'],axis = 1) #删去原特征,合并虚拟变量 data1 = data1.drop(['land_condition','foundation_type','roof_type','ground_floor_type'],axis = 1) data1 = pd.concat([data1,dummy_df1],axis = 1)
可能很多伙伴不太了解为什么虚拟变量可以这样转换,虚拟变量与哑变量相比,减少了特征的维度,本质是类似的,以"roof_type"这一特征举例,经过哑变量转换形成三个新特征:["roof_type_H","roof_type_L","roof_type_R"],如果在"roof_type"为"R"的样本,在哑变量的表达方式应该是[0,0,1],但是如果从哑变量中删去"roof_type_R"这一特征,表达方式就可以变成[0,0],通过唯一性就可以利用前两个特征推出第三个特征的值,所以减少了不必要的特征以实现降维。当然这里还可以做一下方差过滤、相关性分析等操作进一步实现特征降维,各位在实操的时候可以自己试一下。
建模工作
前面说过了这个是一个多元分类项目,所以在建模的时候可以有两种选择,一是利用多元分类器,比如随机森林、朴素贝叶斯,二就是利用二元分类器实现多元分类任务,比如逻辑回归、SVM。后面文章会写一篇关于二元分类器实现多元分类的文章,本文就集中于多元分类器的实现,主要用到的两个分类器是随机森林和LGBM。一般建模的流程大致是在训练集上切分训练集和测试集,有的数据需要标准化处理,然后训练模型,利用测试集进行预测,获取模型的准确率或其他衡量模型好坏的指标,下面以随机森林分类器模拟一下该流程。首先进行数据切分,可以选择控制训练集和测试集的比例:
from sklearn.model_selection import train_test_split features = data2.iloc[:,0:-1].values label = data2.iloc[:,-1].values X_train,X_test,y_train,y_test = train_test_split(features,label,test_size = 0.3)
这里介绍一下可以减少代码量的管道流,如果正常来说,我们可能要分别实例化标准化和PCA的API,然后再传入训练集和测试集,这些操作可以利用管道流封装到一起,让代码看起来更加简洁。
from sklearn.ensemble import RandomForestClassifier from sklearn.decomposition import PCA from sklearn.pipeline import make_pipeline,Pipeline #管道流简化工作流 pipe_rf = make_pipeline(StandardScaler(), PCA(n_components=10), RandomForestClassifier()) pipe_rf.fit(X_train,y_train) #得到每个类别的概率 pred_y_rf = pipe_rf.predict_prob(X_test)
利用predict_prob计算出标签变量得到每个类别的概率,然后利用索引排序可以得到概率最大的两个类别:
pred_df = pd.DataFrame(data=pred_y_rf.argsort()[:, -2:][:, ::-1], columns=['y1', 'y2']) pred_df.to_csv("eq_submission.csv",index=False)
由于数据量比较大,调参比较费时,在没有调参的情况下,随机森林模型的概率大致为68%,LGBM模型的准确率大致为70%,准确率并不是太好,除准确率外还可以通过查全率、查准率、F1-score衡量一下模型的好坏,上文大体上提供了一个建模前及建模的思路而已,伙伴们可以利用自己的思路,再加上调参应该会得到一个不错的模型。
这幅图是关于特征重要度的饼图,可以根据饼图再调节特征,其中area占比是比最大的,然后"distict_id"占比也是不小的,但是上文关系矩阵中与标签变量的相关性又很小,所以分析要相互结合、更加全面一些才好。
说在最后
上面的一系列操作都是为了最后的模型,但如果作为一个竞赛,你需要提交一份文件,而这份文件从何来?竞赛会给出一个不含标签变量的测试集!注意与测试集中分割出的测试集不同。我们同样需要对测试集做一些数据处理,操作和训练集类似,然后将训练出的模型应用在测试集上,会得出最后的结果保存成一个新的csv文件,这就是你最后需要提交的文件啦。