本文讲的是书单推荐 | 数据挖掘和统计科学自学十大必备读物
还有什么比免费的机器学习和数据科学读物更适合用来享受秋天的呢?
下面的免费书单中从统计学基础知识,到机器学习的基本概念,再到更重点的大框架内容,对于高深的话题也有所涉猎,最后以一本总结性的书结尾。既有经典名著,也有当代的作品,希望你能在其中找到一些有趣的新内容。
1.用统计学的方式思考
Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey
《用统计学的方式思考》是为python的程序员设计的一本概率论和数理统计知识的入门书籍。
本书主要介绍了剖析真实数据集和解决有趣问题的简单方法。这本书的案例使用的是美国国家卫生研究院的数据,并鼓励读者使用真实的数据集做项目。
地址:
http://www.greenteapress.com/thinkstats/
2.概率编程与贝叶斯方法
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon
一本介绍贝叶斯方法和概率编程的入门教程,主要是从对编程的理解出发,数学知识其次。
贝叶斯方法是概率推理中一种很实用的方法,在这本书当中,贝叶斯方法一直隐藏在一章章慢慢的数学分析的背后。贝叶斯推理的典型内容包含两到三章概率论知识,然后再介绍贝叶斯推理。可惜的是,由于大多数贝叶斯模型的数学难度太高,这本书中只为读者介绍了简单和虚构的例子。这会让读者小看贝叶斯推理。而事实上,这是因为作者自己的偏好导致的。
来源:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
3.理解机器学习
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz and Shai Ben-David
机器学习是计算机科学中发展最快的领域之一,有着深远的实际应用。这本书有条理的介绍了机器学习,以及相关的典型算法。这本书既介绍了机器学习的一些基本概念,也介绍了将这些概念转化为实际算法的数学推导。在介绍了基本概念之后,这本书也覆盖了一些之前的教科书中所没有涉及过的重要主题,包括模型算法的复杂度和凸性,稳定性的概念;重要的算法范例包括随机梯度下降法,神经网络模型,和机构化预测法;还有新兴的理论概念比如PAC-贝叶斯法和compression-based bounds(压缩界限法)。
来源:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
4.统计学习精要
The Elements of Statistical Learning
作者:Trevor Hastie,Robert Tibshirani,etc
这本书用常用的概念框架解释了统计领域中的重要概念。虽然是用的统计学方法,但是重点在概念的解读而不是数学运算。书中给出了很多例子,也用了很多彩图。对数据挖掘感兴趣的人和统计学家来说都会是很有价值的资源。这本书涵盖的知识很广,从监督学习到非监督学习都有涉猎。众多的话题中包括神经网络模型,支持向量机,以及最全面关于分类树及推算话题的介绍。
来源:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf
5.统计学习及其在R中的应用
An Introduction to Statistical Learning with Applications in R
作者:GarethJames,DanielaWitten,etc
这本书介绍了一些统计学习的方法,是为非数学专业高水平的本科生,研究生和博士生设计的。这本书也包含了一些R语言的练习题和如何在现实中应用统计模型的详细说明,对于新入行的数学科学家来说是非常有价值的资源。
来源:
http://www-bcf.usc.edu/~gareth/ISL/
6.数据科学基础
Foundations of Data Science
作者:Avrim Blum, John Hopcroft,etc
虽然计算机科学的传统领域依然很重要,未来,更多的研究者会集中于用电脑从应用的大量数据中提取有用信息,而不是只是解决一些确定的问题。考虑到这一点,我们在这本书中涵盖了未来40年可能会有用的理论,就像自动控制原理,算法和相关主题在过去的40年给予学生的巨大帮助一样。
来源:
https://www.cs.cornell.edu/jeh/book.pdf
7.给程序员的数据挖掘指南:
数字迷宫的艺术
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski
这本书奉行的是边干边学的方法论。我希望你能用我提供过的Python代码实践书中的练习和实验,而不仅仅是被动的阅读。我希望你会积极主动的尝试不同的数据挖掘方法。这本书由一系列互相贯通的小分支组成,当你读完这本书的时候,你就为理解数据挖掘技术奠定了夯实的基础。
来源:
http://guidetodatamining.com
8.大数据·互联网大规模
数据完觉与分布式处理
Mining of Massive Datasets
作者:Jure Leskovec, etc
这本书是基于斯坦福大学的计算机科学课程 cs246(海量数据挖掘)和 CS345A (数据挖掘)而撰写的。
这本书,正如这门课程一样,是为计算机科学的本科生设计的,并没有任何先修课程的要求。为了鼓励读者进行更深的探索,绝大部分的章节后面都补充了参考文献以供深层次的阅读。
9.深度学习
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio and Aaron Courville
《深度学习》这本书是为了帮助学生和相关从业人员进入一般而言的机器学习领域,尤其是深度学习而设计的。这本书的在线版本现已完结,并会长期免费开发。
来源:
http://www.deeplearningbook.org
10.对机器学习的渴望
Machine Learning Yearning
作者:Andrew Ng
人工智能,机器学习和深度学习正在改变着数不胜数的行业。但是建立一个机器学习系统需要你在实际中做出下面的决定:
应该要收集更多的训练数据吗?
应该使用端对端的深度学习吗?
如何处理与测试集不对应的训练集?
……
在以前,做出上述战略性决定的唯一方法是花几年时间去读研究生或者去公司里学习。我写这本书的目的是帮助你快速掌握做上述决定的能力,使你可以在人工智能系统方面做得更好。
原文发布时间为:2017-09-25
作者:Matthew Mayo
编译:keiko,万如苑,松清波
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号