每一位数据科学家都应掌握的理论是什么?

【导语】Jean-Nicholas Hould是就职于英特尔的数据科学家。针对热门议题——《检测真假数据科学家之二十问》,他认为,还有一问亦不可少,那就是:什么是中心极限定理?它为什么重要?你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?善于考究的,请阅读原文,不爱折腾的,请看编译文章(80%+内容为译者独立编写)

真假数据科学家检验之二十问

早在2009年,Google首席经济学家Hal Varian就给出了一个非常著名的论断:“在未来10年,统计学家将是最性感的职业”。那个时候,大数据还没有热炒起来,因此,对于这个职业,很多人也就是“不明觉历”而已。

之后,大数据时代来临,“数”万“树”梨花开,各种数据概念扑面而来。在2012 年,Babson商学院资深教授Thomas H. Davenport等人在文字上小做修饰,在《哈佛商业周刊》刊文指出“在21 世纪,数据科学家是最性感的职业”(如图1所示)。在本质上,Davenport提出“数据科学家”,基本等同于Varian所说的“统计学家”

一时间,很多人都“数据科学家”身份自居,粉墨登场于各种场所。

每一位数据科学家都应掌握的理论是什么?

1  商业周刊网站截图

于是,就有“好事者”(此处为褒义)不乐意了,说,那些自称数据科学家的人,来,来,来,先回答我20个问题再说,合格了,再说自己为数据科学家。于是,就有了业内非常有名的《检测真假数据科学家之二十问》,该文20161月发表于Kdnuggets网站,作者是Andrew FoggImport.io网站创始人。文章发表后,在当月的Kdnuggets阅读量,排行第一,可见引起的共鸣不小。

我们抽取20问其中的几问,让读者感受一下:

1.        请解释一下正则化(regularization)是什么,它为什么非常有用?

2.        请解释一下查准率(Precision)和查全率(recall)的概念。它们与ROC曲线有什么关系?

3.        根本原因分析(root cause analysis, RCA)是什么?

4.        统计功效(statistical power)是什么?

5.        请解释一下重采样(resampling)方法是什么,它为什么很有用?它又有什么局限性。

6.        什么是选择性偏差(selection bias)?它为什么很重要,又该如何避免它?

7.        如何使用极值理论、蒙特卡洛模拟或数理统计(或其它理论),来正确估计一个非常罕见事件的发生几率呢?

……

不能不说,这些问题涉及范围广泛而又不失犀利,一些“伪”数据科学家,在这些问题的“拷”问下,很快就会原形毕露,“两股战战,几欲先走”。

英特尔数据科学家Jean-Nicholas Hould觉得这20问,还不够给力!至少还得加一问:什么是中心极限定理(CLT)?为什么它很重要?

这是每个数据科学家都应该懂的理论!为什么是这样?下面我们议议这个话题。

什么是中心极限定理(CLT)?

对数理统计知识有所了解的读者,可能会知道,在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,那么总的影响可以看作是服从正态分布的。中心极限定理,事实上,就是从数学上证明了这一现象。

为了说明中心极限定理的含义,假设研究对象为一个国家的啤酒饮客,现在我们就想弄明白一件非常简单的事儿:饮客的平均年龄是多少?很显然,直接解决这个问题,是非常困难的,因为我们不大可能有精力、有时间以将整个人口为研究对象,逐一去做问卷调查。

取代全国范围内的调查,更为合适的方法是,我们收集100啤酒饮客的数据,作为样本,通过这些样本,我们可以得出一个均值,然后据此推断全国啤酒饮客的平均年龄。对于第一组100位啤酒饮客,其均值年龄可能是35。下一组100位啤酒饮客,其均值可能是39。再下一组的均值可能是37。以此类推。当我们收集越来越多的样本均值时,这样均值点就构成了一个抽样分布(sampling distribution)。比如说,前面提到的353937,就是这个分布中的三个观察点。

随着样本均值点收集的数量越来越多,那么这些均值形成的分布,大致可形成一个钟形曲线的,也就是说为正态分布,这就是所谓的中心极限定理的形象解释。

比较学术化中心极限定理点的描述是:设从均值为μ、方差为σ^2。(有限的)任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布,近似服从均值为μ、方差为σ^2/n 的正态分布。

针对这个定理,我们需要注意两点:(1)如果我们收集的样本数量足够大,样本的均值趋近于总体的均值。(2中心极限定理并不是说原始总体(比如说一个国家的啤酒饮客)是符合正态分布的,而是说它的一组组抽样的均值,是符合正态分布的

当样本的容量越大(比如说,啤酒饮客抽样数从100变成1000),那么这个抽样均值的分布,就越像正态分布,如图2所示。换句话说,大量相互独立的随机变量,其均值的分布,是以正态分布为极限的。

每一位数据科学家都应掌握的理论是什么?

抽样分布之中心极限定理

中心极限定理最牛的地方在于,不管原始随机变量遵循的是什么分布,这个定理都是成立的。这个形式对数理统计特别有用!

 

中心极限定理在计量经济学中有着广泛的应用。应用案例之一,就是保险公司的保费确定。根据中心极限定理,含有n个风险单位的随机样本的平均损失(样本的均值),是符合正态分布,这个结论对保险费率的厘定极为重要。保险公司不需要针对某一个人制定保险标准,而是拿某个阶层的群体(可视为一个个抽样集合),来作为研究对象,并参照同期银行利率,经过精算后,来照制定保费。倘若没有中心极限定理作为理论依据,保险公司采纳的各种精算模型是无法建立的。

为什么这个定理如此重要?

我们知道,统计学最本质的作用就是,用样本估计总体

中心极限定理作为统计学中一个非常重要的概念,它核心作用在于,可以让每个数据科学家能对数据做出统计推断。甚至在不需要特征化原来总体信息的情况下(也就是说,原始总体遵循何种分布是无关紧要的),数据科学家依然能够借助样本,来量化评估它所代表的总体。

比如说,在数理统计中,有两个常用的概念:置信区间(confidence interval)与假设检验(Hypothesis Testing)。前者说的是,由样本统计量所构造的总体参数的估计区间,它可以告诉我们,总体值很可能落在相对于估计值的什么位置。而后者说的是,根据一定假设条件,由样本推断总体的一种方法。这两个概念背后的理论基础,事实上,就是中心极限定理。

 

当然,中心极限定理的作用,并不仅仅局限于从样本推断整体。事实上,它的作用可以细分为如下4种类型:

(1)如果我们有一个样本的有效信息,那么我们可以准确地推断整体(常规作用)。

(2)如果我们有总体的信息,那么我们可以对某个有效样本,来做较为准确的有关这个总体的假设。

(3)如果我们有总体的信息和一个有效的样本,那么我们可以准确地推断这个样本是否来自这个总体。

(4)如果我们有两个不同样本的有效信息,那么我们还可以准确地推断出两个样本是否来自相同的总体。

因此,作为一个合格的数据科学家,应该深入理解这个定理。只有这样,才能在“数据科技(Data TechnologyDT”时代,游刃有余地处理样本和总体之间的关系,这就是它为什么这么重要的原因。

 

延伸思考与阅读

迈尔-舍恩伯格在其著作《大数据时代》中,有一个非常重要的观点:大数据可以做到“n=all(这里n代表采集的数据量),也就是“样本=总体”。

我们知道,统计学的核心目的在于,利用小样本,评估大总体。如果大数据时代真能做到“n=all”,的确,统计学的意义将大打折扣。

但梦想很丰满,现实很骨感!n=all”常常仅是对数据的一种假设,往往不过是一个颇有诱惑力的假象而已。笔者曾撰写过一篇文章:来自大数据的反思:需要你读懂的10个小故事》,对该论断有所讨论,请感兴趣的读者,可以移步阅读。

如果在大多数情况下,我们都无法做到“样本=总体”,那么依据样本,评估总体的需求,依然会迫切存在。于是,作为统计学里非常重要的定理——中心极限定理,还是值得每一位数据科学家掌握的。

 

译者介绍:张玉宏,著有《品味大数据》一书

 

上一篇:ML之MaL: 流形学习MaL的概念认知、算法分类、案例应用、代码实现之详细攻略


下一篇:空无达摩院——机器智能技术的发展