数据分析-单因子探索分析

集中趋势:数据聚拢的一种衡量

  • 均值:衡量分布规律的连续值
  • 中位数:衡量异常值情况
  • 众数:衡量离散值
  • 分位数:与上诉三类共同作用

离中趋势:数据离散程度衡量

  • 标准差: σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2} σ=N1​∑i=1N​(xi​−μ)2
  • 方差: σ 2 \sigma^2 σ2

数据分布:正态分布、卡方分布、F分布、t分布等

  • 偏态系数:数据平均值偏离状态的一种衡量
    S = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 3 2 S=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^{\frac{3}{2}}} S=(n1​∑i=1n​(xi​−x)2)23​n1​∑i=1n​(xi​−x)3​
  • 峰态系数:数据分布集中强度分衡量
    K = 1 n ∑ i = 1 n ( x i − x ‾ ) 4 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 2 K=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^2} K=(n1​∑i=1n​(xi​−x)2)2n1​∑i=1n​(xi​−x)4​

抽样误差

  • 抽样平均误差公式如下:
    重 复 抽 样 : μ x = σ 2 n 重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}} 重复抽样:μx​=nσ2​
    不 重 复 抽 样 : μ x = σ 2 n ( N − n N − 1 ) 不重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}(\frac{N-n}{N-1})} 不重复抽样:μx​=nσ2​(N−1N−n​)
    其中 N N N 为总体数量, n n n 为抽样数量。
  • 估计总体时抽样数目的确定如下:
    重 复 抽 样 : n = Z α / 2 δ 2 Δ 2 重复抽样:n=\frac{Z_{\alpha/2}\delta^2}{\Delta^2} 重复抽样:n=Δ2Zα/2​δ2​
    不 重 复 抽 样 : n = N Z α / 2 δ 2 N Δ 2 + Z α / 2 δ 2 不重复抽样:n=\frac{NZ_{\alpha/2}\delta^2}{N\Delta^2+Z_{\alpha/2}\delta^2} 不重复抽样:n=NΔ2+Zα/2​δ2NZα/2​δ2​
    其中 Δ 2 \Delta^2 Δ2 为抽样方差, δ 2 \delta^2 δ2 为总体方差。

数据分类

  • 定类(类别):根据事物离散、无差别属性进行分类。
  • 定序(顺序):可以界定数据的大小,但不能测定差值。
  • 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点。
  • 定比(比率):可以界定数据大小,可测定差值,有绝对零点。

单属性分析

  • 异常值分析:连续异常值、离散异常值、知识异常值
    数据分析-单因子探索分析
  • 对比分析:包括绝对数比较、相对数比较。常见的比较的角度有时间维度、空间维度、计算与经验维度进行对比等。
  • 结构分析:部分/总体、静态结构分析、动态结构分析。
  • 分布分析:极大似然、直接获得概率分布、是否正态分布。
上一篇:系统介绍


下一篇:JSOI 2008 一本通1549:最大数