文章目录
1.实验目的
1、建立决策树模型以根据某些参数预测泰坦尼克号人是否得以生存
2、在泰坦尼克数据中,使用以下各列构建一个模型来预测人是否可以生存
(1)Pclass
(2)Sex
(3)Age
(4)Fare
3、计算模型得分
泰坦尼克数据
密码:8azq
2.数据预处理
import pandas as pd
df = pd.read_csv('titanic.csv') #读取数据
df.head() #打印前5条数据检查是否读取成功
df.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin','Embarked'],axis='columns',inplace=True) #删除不要的特征
inputs = df.drop('Survived',axis='columns') #特征
target = df.Survived #标签
inputs.Sex = inputs.Sex.map({'male':1,'female':2}) #特征数字化
inputs.Age = inputs.Age.fillna(inputs.Age.mean()) #Nan值转化为平均值
3.导入必要模块
from sklearn.model_selection import train_test_split #train_test_split用以拆分训练集与测试集
from sklearn import tree
4.训练+计算模型得分
x_train,x_test,y_train,y_test = train_test_split(inputs, target,test_size=0.2)
model = tree.DecisionTreeClassifier() #调用决策树分类器
model.fit(x_train, y_train) #用训练集训练模型
model.score(x_test, y_test) #用测试集计算模型预测准确率
得分如下: