CDA数据分析师 出品
作者:Andrew Lombarti
编译:Mika
Kaggle是一个很流行的数据科学竞赛平台。在上面,你不仅可以参加各种数据分析题竞赛,还可以通过各行业的真实数据集来实践自己的技能。
在本文中我们将介绍10个数据集,从适合新手小白到高级进阶人群的都有。这些数据集非常有趣,而且还很适合在面试前练习技能。
下面让我们一起来看看吧!
01、泰坦尼克号数据集(初级)
泰坦尼克号数据集是Kaggle上最热门的数据集之一。这是一个很好的入门数据集,当中涉及到13个变量和超过1500个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。
目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集,你可以看到已婚女性比单身男性有更高的存活概率。
该数据集中的变量有:
年龄
性别
已婚或单身
船票等级(一等、二等、三等)
上船地点(伦敦、南安普敦)
乘客票号
……
关于如何处理这个数据集,网上已经有很多教程了。如果你想挑战一下自己,不妨试着预测乘客在不同地点登船的存活率。
泰坦尼克号数据集链接:
https://www.kaggle.com/c/titanic
02、鸢尾花数据集(初级)
这个数据集是一个经典的二进制分类问题。目的是通过花萼长度,花萼宽度等属性预测鸢尾花属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
例如,山鸢尾的花瓣较短,萼片较宽。假如花瓣长度大于3厘米,萼片小于6厘米,那么这种花很可能属于山鸢尾。
此数据集中的变量如下:
花瓣长度
萼片宽度
花瓣长度
……
同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit Learn”。对于初学者来说,这是一个非常好的教程,当中因展示了如何使用scikit learn,还具有预构建的功能,能帮你轻松地训练模型。
鸢尾花数据集链接:
https://www.kaggle.com/uciml/iris
03、列车数据集(初级)
列车数据集也是Kaggle上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。
目的是预测乘客是否会在某站下车。根据数据集,可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。
数据集中的变量如下:
年龄
轨道类型(公路、货运)
周末或节假日
……
根据这些变量,有多种方法可以预测某人是否会在某站下车。
列车数据集链接:
https://www.kaggle.com/c/train-occupancy-prediction/data
04、波士顿住房数据集(初级)
波士顿住房数据集包含波士顿市住房的信息。当中有超过20万条记录和18个变量,目标是预测房价是否昂贵。数据集有三个不同的类别,分别是:昂贵、正常以及便宜。
当中的变量包括:
卧室数量
浴室数量
平均房间数
……
如果你对数据科学领域感兴趣,这个数据集是一个很好的尝试。内容有趣而且不是太难。
波士顿住房数据集链接:
https://www.kaggle.com/c/boston-housing
05、酒精与药物关系(中级)
酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。
该数据集的目标是根据两种药物的化学结构,从而预测它们是否会相互作用。例如,数据集中表示布洛芬和扑热息痛可以相互作用,因为它们都是抗炎药(NSAIDs)。
数据集中的变量包括:
药物A结构(化合物)
药物B结构(化合物)
药物A和B活性(是/否)
……
这是一个很好的数据集,可以用来练习数据可视化技能。你可以在当中试着创建图表,显示不同药物之间的相互作用。
酒精与药物数据集链接:
https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
06、威斯康辛州乳腺癌(中级)
对于那些在数据科学方面比较有经验的人来说,威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。
该数据集的目标是根据病人的特征来预测是否患有癌症。
例如,你可以从数据集中看到,肿瘤大小若小于0.50厘米,患者有98%的生存机会,而肿瘤大小大于或等于0.80厘米,患者只有15%的生存机会。
数据集中的变量有:
肿瘤大小
肿瘤的等级
影响到的淋巴结
……
网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己,可以尝试预测不同肿瘤大小的生存率。
威斯康星州乳腺癌数据集链接:
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
07、印第安人糖尿病(中级)
这个数据集是关于预测糖尿病的。这个比赛有超过15万个例子,你需要预测病人是否会患糖尿病(二元分类)。
变量相当简单,因为只有一个特征:
糖尿病
这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。
印第安人糖尿病数据集链接:
https://www.kaggle.com/uciml/pima-indians-diabetes-database
08、亚马逊评论数据集(中级)
亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。
这个数据集很有趣,当中有正面和负面评论,数据集的目标是预测评论是正面还是负面的。
变量有:
评论文本(一个字符串)
关于如何处理这个数据集,也有很多教程。如果想加大难度,你可以尝试预测情感分析,然后在此基础上建立模型。
亚马逊评论数据集链接:
https://www.kaggle.com/bittlingmayer/amazonreviews
09、MNIST手写数字图像识别(高级)
该数据集包含了很多手写体数字图像,当中由大小为28x28像素的图像组成,有6万个训练实例和1万个测试实例。
该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题,通常要使用卷积神经网络(CNN)。
网上有很多关于如何处理这类问题的教程,所以我建议你先从基础知识开始,然后再继续学习更高级的方法。
MNIST手写数字数据集链接:
https://www.kaggle.com/c/digit-recognizer
10、CIFAR-100(高级)
CIFAR-100数据集非常适合练习机器学习的技能。该数据集包含了100张物体的图像,分为六个类别:飞机、汽车、猫、鹿、狗和船。每张图片是32x32像素,有三个颜色通道(红、绿、蓝)。
该数据的目标是预测每张图片属于这六类中的哪一类。
数据集中的变量有:
像素
红色通道
绿色通道
蓝色通道
……
有很多关于如何应对这一挑战的教程。想加大难度的话,尝试预测以某种方式扭曲或变换的图像标签。
CIFAR-100数据集链接:
https://www.kaggle.com/fedesoriano/cifar100
结语:
本文中列出的10个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门,可以先试着做一些比较简单的数据集,由浅到难,不断深入进阶。