阿里云天池大赛赛题解析——机器学习篇-赛题一(6)

2.2 赛题数据探索

2.2.1 导入工具包

先要导入一些Python 工具包,用于数据计算和可视化显示。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from scipy import stats

import warnings

warnings.filterwarnings("ignore")

%matplotlib inline

2.2.2 读取数据

使用Pandas 的read_csv()函数进行数据读取,由于读取的是文本文件(.txt),因此需要设置分割符为'\t'。

train_data_file = "./zhengqi_train.txt"

test_data_file = "./zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t',encoding='utf8')

test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

2.2.3 查看数据

查看训练集的基本信息:

train_data.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 2888 entries, 0 to 2887

Data columns (total 39 columns):

V0 2888 non-null float64

...

target 2888 non-null float64

dtypes: float64(39)

memory usage: 880.1 KB

可以发现:①此训练集数据共有2888 个样本,数据中有V0~V37 共38 个特征变量,变量类型都为数值型,所有数据特征没有缺失值。②数据字段采用了脱敏处理,删除了特征数据的具体含义。③target 字段为标签变量。

查看测试集的基本信息:

test_data.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 1925 entries, 0 to 1924

Data columns (total 38 columns):

V0 1925 non-null float64

...

V37 1925 non-null float64

dtypes: float64(38)

memory usage: 571.6 KB

可以发现:①测试集数据共有1925 个样本,数据中有V0~V37 共38 个特征变量,变量类型都为数值型。②测试集中没有target 字段(标签变量),需要我们预测并提交。

查看训练集的统计信息:

train_data.describe()

阿里云天池大赛赛题解析——机器学习篇-赛题一(6)

查看测试集的统计信息:

test_data.describe()

阿里云天池大赛赛题解析——机器学习篇-赛题一(6)

上面结果显示了数据的统计信息,如样本数、数据的均值(mean)、标准差(std)、最小值、最大值等。

查看训练集的字段信息:

train_data.head()

阿里云天池大赛赛题解析——机器学习篇-赛题一(6)

查看测试集的字段信息:

test_data.head()

阿里云天池大赛赛题解析——机器学习篇-赛题一(6)

上面分别显示了训练集和测试集的前5 条数据,可以看到数据都是浮点型,变量为数值型和连续型。



上一篇:阿里云天池大赛赛题解析——机器学习篇-赛题一(5)


下一篇:阿里云天池大赛赛题解析——机器学习篇-赛题一(7)