集中趋势:数据聚拢的一种衡量
- 均值:衡量分布规律的连续值
- 中位数:衡量异常值情况
- 众数:衡量离散值
- 分位数:与上诉三类共同作用
离中趋势:数据离散程度衡量
- 标准差: σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2} σ=N1∑i=1N(xi−μ)2
- 方差: σ 2 \sigma^2 σ2
数据分布:正态分布、卡方分布、F分布、t分布等
- 偏态系数:数据平均值偏离状态的一种衡量
S = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 3 2 S=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^{\frac{3}{2}}} S=(n1∑i=1n(xi−x)2)23n1∑i=1n(xi−x)3 - 峰态系数:数据分布集中强度分衡量
K = 1 n ∑ i = 1 n ( x i − x ‾ ) 4 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 2 K=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^2} K=(n1∑i=1n(xi−x)2)2n1∑i=1n(xi−x)4
抽样误差
- 抽样平均误差公式如下:
重 复 抽 样 : μ x = σ 2 n 重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}} 重复抽样:μx=nσ2
不 重 复 抽 样 : μ x = σ 2 n ( N − n N − 1 ) 不重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}(\frac{N-n}{N-1})} 不重复抽样:μx=nσ2(N−1N−n)
其中 N N N 为总体数量, n n n 为抽样数量。 - 估计总体时抽样数目的确定如下:
重 复 抽 样 : n = Z α / 2 δ 2 Δ 2 重复抽样:n=\frac{Z_{\alpha/2}\delta^2}{\Delta^2} 重复抽样:n=Δ2Zα/2δ2
不 重 复 抽 样 : n = N Z α / 2 δ 2 N Δ 2 + Z α / 2 δ 2 不重复抽样:n=\frac{NZ_{\alpha/2}\delta^2}{N\Delta^2+Z_{\alpha/2}\delta^2} 不重复抽样:n=NΔ2+Zα/2δ2NZα/2δ2
其中 Δ 2 \Delta^2 Δ2 为抽样方差, δ 2 \delta^2 δ2 为总体方差。
数据分类
- 定类(类别):根据事物离散、无差别属性进行分类。
- 定序(顺序):可以界定数据的大小,但不能测定差值。
- 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点。
- 定比(比率):可以界定数据大小,可测定差值,有绝对零点。
单属性分析
- 异常值分析:连续异常值、离散异常值、知识异常值
- 对比分析:包括绝对数比较、相对数比较。常见的比较的角度有时间维度、空间维度、计算与经验维度进行对比等。
- 结构分析:部分/总体、静态结构分析、动态结构分析。
- 分布分析:极大似然、直接获得概率分布、是否正态分布。