Kaggle
什么是Kaggle?
kaggle
是全球最先也是目前规模最大的数据科学竞赛组织了。之所以这么受欢迎,是因为很多大的公司奉献出自家真实的数据给kaggle,提出真实业务场景面临的痛点,需要数据科学上的解决方案。
我个人觉得是非常有意思的,因为很多人苦学理论,正愁着没有真实数据去实践,有了这个机会,不论方案是否可以排上名次,都是宝贵的实践经验啊。
当然,作为方案最优的前三名可以得到一笔丰厚的报酬,几千美元到几万美元不等,这更加刺激广大数据爱好者了。竞赛已经有上百场了,各种场景和需求,并且随着需求增多,竞赛也在不断增加。
Kaggle上有什么?
原来的kaggle只有单一的竞赛,现在的kaggle已经不只是竞赛这么简单了。它还有丰富的社区
、免费的学习课程
、在线实操的环境
。
下面是一在线操作提交模型的环境,非常奈斯。
各路神仙在社区共享自己的kernels
和源代码,是个非常好的交流学习机会,有兴趣可以自己去看。这里主要说下免费的学习课程,下面是地址。
学习列表中有python
、机器学习
、深度学习
、可视化
、pandas数据处理
、SqL入门和进阶
等14门课程。虽是英文,我相信对于有心的人都不是问题了。
Coursera
Coursera
很多朋友应该熟悉,吴恩达的机器学习课程最早就是从这里开始分享的。里面有各个名校大学的公开课,很多都是免费公开的课程,听课是免费的,但学完后认证证书需要付费。
这里分享几个东哥收藏的宝藏课程,每一个都很经典,好评无数。
1.机器学习 (Andrew Ng / 斯坦福大学)
2.专业数据科学(10门课/JHU)
3.数据科学实战(5门课/JHU)
https://www.coursera.org/specializations/executive-data-science
4.专业数据挖掘(6门课/伊利诺伊大学)
5.数据科学硕士(8门课/伊利诺伊大学圣巴巴拉分校)
https://www.coursera.org/degrees/master-of-computer-science-illinois/data-science
6.数据科学应用硕士(密歇根大学)
https://www.coursera.org/degrees/master-of-applied-data-science-umich
Udacity
Udacity(优达学成)是个美国的付费类培训机构,内容涉及所有编程和计算机类的课程,是歪果仁拍的视频课程,质量很高,但收费很贵。
仔细观察,其实也有很多免费的课程供学习的,东哥把收藏的存货也拿出来分享下。
1.数据科学导论
总共10个章节,以titanic
和NewYork Subway data
项目为例介绍数据分析、可视化、数据处理、Mapreduce
大数据。
2.数据分析导论
https://www.udacity.com/course/intro-to-data-analysis--ud170
3.数据可视化分析
这个课程是基于R语言的,介绍了R语言基础、逻辑回归、线性回归、正则化等内容。
https://www.udacity.com/course/data-analysis-and-visualization--ud404
4.使用SQL做数据分析
5. 统计推理入门
主要介绍推断性统计的知识,比如各种检验,假设检验、t检验、卡方检验、ANOVA方差分析、回归等等。
https://www.udacity.com/course/intro-to-inferential-statistics--ud201
当然,除了这些还有很多付费的,感兴趣可自行查找,本篇只谈免费。
其它社区和博客
下面是几个很好的国外数据科学社区和个人博客,内容不如前面三个学习网站有组织和条条理,但是有很多优秀的文章分享也可以作为参考学习。
1. 面向数据科学
这里着重说下这个社区,专门的数据科学学习平台,里面都是一些国外爱好者的分享,涵盖了data science
、machine learning
、deep learning
、visualization
、programming
等,缺点是需要特殊工具才能上去,用谷歌访问助手也可以。
2. 方差解释
3. 成为一名数据科学家
4. Mark Meloon
5. Julia Silge
以上就是东哥分享的一些免费课程资源,资源多少不是关键,关键的是迈开第一步,深入进去开始学习。