2.2 赛题数据探索
2.2.1 导入工具包
先要导入一些Python 工具包,用于数据计算和可视化显示。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline
2.2.2 读取数据
使用Pandas 的read_csv()函数进行数据读取,由于读取的是文本文件(.txt),因此需要设置分割符为'\t'。
train_data_file = "./zhengqi_train.txt"
test_data_file = "./zhengqi_test.txt"
train_data = pd.read_csv(train_data_file, sep='\t',encoding='utf8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')
2.2.3 查看数据
查看训练集的基本信息:
train_data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2888 entries, 0 to 2887
Data columns (total 39 columns):
V0 2888 non-null float64
...
target 2888 non-null float64
dtypes: float64(39)
memory usage: 880.1 KB
可以发现:①此训练集数据共有2888 个样本,数据中有V0~V37 共38 个特征变量,变量类型都为数值型,所有数据特征没有缺失值。②数据字段采用了脱敏处理,删除了特征数据的具体含义。③target 字段为标签变量。
查看测试集的基本信息:
test_data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1925 entries, 0 to 1924
Data columns (total 38 columns):
V0 1925 non-null float64
...
V37 1925 non-null float64
dtypes: float64(38)
memory usage: 571.6 KB
可以发现:①测试集数据共有1925 个样本,数据中有V0~V37 共38 个特征变量,变量类型都为数值型。②测试集中没有target 字段(标签变量),需要我们预测并提交。
查看训练集的统计信息:
train_data.describe()
查看测试集的统计信息:
test_data.describe()
上面结果显示了数据的统计信息,如样本数、数据的均值(mean)、标准差(std)、最小值、最大值等。
查看训练集的字段信息:
train_data.head()
查看测试集的字段信息:
test_data.head()
上面分别显示了训练集和测试集的前5 条数据,可以看到数据都是浮点型,变量为数值型和连续型。