变异程度变量:即离散程度的度量
1 : 极差:最简单的变异程度度量
极差=最大值-最小值
2 : 四分位数 间距 第三四分位数Q3与第一四分位数Q的差值,也就是说,四分位数间距是中 间50%数据的极差。
IQR=Q3-Q1
3 :方差
方差=∑(观测值-平均值)2/N
4:标准差:方差的平方根
5:标准差系数 -1 0 1 绝对值越接近1表示离散程度越小
标准差系数=(标准差/平均数)*100%
6:形态度量
样本偏移程度计算
import pandas as pd x = [53, 61, 49, 66, 78, 47] s = pd.Series(x) print(s.skew())
7:相对位置的度量值能帮我们确定一个特殊的数值距平均数有多远
z=(样本值-样本平均数)/标准差
--------------------------
切比雪夫定理:与平均数的距离在z个标准差之内的数据值所占的比例至少为(1-1/z2),其中z是大于1的实数。
切比雪夫定理可应用于任何数据集,并能够估计与平均数的距离在一定个数的标准差之间内的最少数量的数据值。如果已知数据集近似呈现钟型分布,则有更多的数据值在范围之内。
异常值检测方法:
下限=Q1-1.5*IQR。 IQR=Q3-Q1
上限=Q1+1.5*IQR
用于第一和第三四分位数以及四分位数间距确定一场值的方法,不必与依据z-分数小于-3或大于3的方法相同。可以选用一种或来两种方法。