每个试图进入强大的数据科学世界的人都会遇到正态分布。在这篇文章中将以一种非常清晰的方式解释它到底是什么,我们如何解释他,以及为什么它作为一个每个数据科学家都必须意识到的概念具有巨大的重要性。
什么是正态分布?
正态分布也被称为高斯分布或者钟形曲线(因为它看起来像一个钟),这是统计学中最重要的概率分布,就像我们在大自然中经常看到的那样,它有点神奇。例如,身高、体重、血压、测量误差、智商得分等都服从正态分布。
还有一个跟它相关的,并且非常重要的概念,叫做中心极限定理,以后再说。
现在,参考上面的图像,并了解一个正常变量的值是如何分布的。这是一个对称分布,其中大多数观测值聚集在具有最高发生概率的中心峰(均值/平均值)附近,并且当我们在两个方向上都偏离中心峰时,我们看到曲线尾部出现值的可能性越来越小。此图描绘了一个群体的智商水平,可以理解为,智商水平非常低或者智商水平非常高的人都很少见,并且大多数人都处于平均智商得分范围内。
我们周围的很多的变量都可以用这个正态分布来描述。想想所有同事到达办公室所需要的时间,只有少数人会住在5分钟(首部)或者2个多小时的距离内(尾部)。大多数人将在20分钟-70分钟的距离(即峰值附近的区域)。当你研究越来越多的正态分布的变量时,你会发现正态分布无处不在。
正态分布的参数
正态分布总是以平均值为中心,而曲线的宽度则由标准差(SD)决定。
注:1英寸等于2.54厘米,12英寸为1英尺,36英寸为1码。
这是两个正态分布,x轴上的高度单位是英寸,y轴上是特定高度对应的人数。
- 婴儿的平均身高为20英寸,标准差为0.6英寸
- 成年人的身高为70英寸,标准差为4英寸
了解正态分布标准差的意义在于,它遵循一个经验法则,即大约95%的测量值落在均值附近的+/-2倍个标准差之间。
推论:95%的人口落在平均值+/-2*SD之间
即: 95%的婴儿身高在 20 + / - 1.2 英寸之间。
95%的成年人身高测量值在 70 + / - 8 英寸之间。
正态分布的第一个参数是均值
均值或平均值是正态分布的集中趋势,它决定了曲线峰值的位置。平均值的变化导致曲线沿着x轴水平方向移动。
正态分布的第二个参数是标准差SD
标准差是正态分布变异性的量度,它决定了曲线的宽度。SD值的变化导致曲线变得更窄或者更宽。并对曲线高度产生反比例的影响。
- 更紧的曲线(较小的宽度)-> 更高的高度
- 更宽的曲线(较大的宽度)-> 更低的高度
现在,你应该了解了正态分布曲线的所有基础知识,让我们继续学习与之相关的其他重要知识。
所有正态分布的共同特征
- 它们都是对称的
- 平均数 = 中位数
- 根据经验法则,我们可以确定正态分布曲线离均值标准差范围内的数据百分比。
通过一个示例,这一点将变得更加清楚。
让我们来看一个披萨外面的例子。假设一家披萨餐厅的平均配送时间为30分钟,标准偏差为5分钟。根据经验法则,我们可以确定68%的交付时间在25 – 35(30 + / - 5)之间,95%在20 – 40分钟(30 + / -(2 *5))之间,99.7%在15-45分钟(30 + / - (3*5))之间。
在这篇文章的最后,提供一个正态分布的特例。
标准正态分布:正态分布的特例
如前所述,正态分布根据参数值(平均值和标准差)有许多不同的形状。标准正态分布是正态分布的一个特例,均值为0,标准差为1。这个分布也称为Z分布。
标准正态分布上的值称为标准分数或Z分数。标准分数表示某一特定观测值高于或低于平均数的SD值。
例如:标准得分为1.5 ,表示观察到的结果比平均值高1.5个标准差。另一方面,负分数表示低于平均值的值,平均值的Z分数为 0 。