Statistics概念学习-第二章

第二章 data and sampling distributions

抽样和分布

random sampling and sample bias 随机抽样和抽样偏倚

  • key terms
  1. sample : 抽样集
    • subset from a larger dataset
  2. population:
    • the larger data set of a dataset 众集
  3. random sampling:随机抽样
    • draw elements into a sample at random
    • 其中随机抽样里面还有又放回和无放回的抽样
    • data quality > data quantity
  4. stratified sampling: 分层抽样,strata层
    • devide the population into strata and randomly sample from each strata
  5. simple random sample: 不是分层抽样
    • random sampling without stratifying the population
  6. sample bias: 坏的样本,无法描述整体的样本
    • sample that misrepresents the population
  7. self-selection sampling bias
    • 举的例子是:商品的评论reviews一般来说这个不能反应商品的真实水平,是因为大家写商品评论的动力比起商品多么多么好而言,更多的是因为收到的瑕疵品而对于商品有不满
  8. statistical bias: 可以等同于理解为“系统误差”
    • systematic measurements/sampling errors 测量/抽样误差
  9. 分层抽样的例子:
    • 政客调查支持率的时候会分人种:white,black,hispanics(西班牙裔的)
  10. sample mean vs. population mean
    • 抽样平均和众集平均是两个不同的概念

selection bias 选择产生的bias

  • key term
  1. regression to the mean: 连续观测会导致极端观测值之后的观测值会更偏向于mean
    • involving successive measurements, extreme observations tend to be followed by more central ones
    • 举例:rookie of the year, sophomore slump 年度最佳球员,第二年打回原形

sampling distribution of a statistic 随机值的抽样分布

  • key term
  1. sampling distribution 抽样分布
    • 是抽样结果的频率分布
  2. central limit theorem
    • 抽样数越多,抽样分布就约接近正态分布
  3. standard error:
    • 抽样value 的std
    • 计算方法:SE = std/sqrt(n) ---> n:sample size

The Bootstrap:

  • key term
  1. bootstrap: 有放回抽样
    • 从已知的抽样sample set中,对自己再进行有放回的抽样,重新组成一个的抽样集
    • 其中有放回的抽样还可以等效理解为:将自己sample set 自我复制几百万次然后无放回抽样
  2. bootstrap 算法:
    1. 抽样,记录,放回
    2. 重复n次
    3. 记录这n次的mean,std,median等参数
    4. 重复1-3 R次
    5. 用R 来:
      • 计算这R个数据的std ----> 就是抽样过程的error/bias
      • boxplot/histiogram
      • 找confidence interval
  3. resampling vs. bootstrapping
    • 可以理解为同义词,只不过resampling多一个permutation procedures
    • 好处1是可以不用拟合复杂的模型就可以得到std
    • 好处2是多个bootstrap集合(bagging)可以比单个模型效果好
      Statistics概念学习-第二章

confidence intervals 置信区间

  • key term:
  1. bootstrap来计算置信区间:
    1. 有放回的的取n个data
    2. 计算这些data的特征数据:mean/std
    3. 重复1-2 R次
    4. 对于一个x%的置信区间,我们从两边减掉[(1-[x/100])/2]%的sample
    5. 剪枝点就是置信区间的两端点
  2. 置信区间的目的:
    • 用区间来描述估计
    • 看我们能tolerate多少
    • 来判断我们estimate有没有可能的error
    • 看看是不是需要larger sample

normal distribution 正态分布

  • key term
  1. standardize: 正则化
    • (x-x_mean)/x_std
  2. z-score:
    • 正则一个点的结果
  3. standard normal:
    • mean=0,std=1的normal distribution
  4. 95% confidence interval:
    • 2std

long-tailed distribution长尾分布

  • key term
  1. tail:
    • extreme values occur at low frequency 极值很少,大多都集中在某个区域
  2. skew
    • one tail is longer than the other 一个tail比另一个要长

student t-distribution学生t分布

  • key term
  1. 90%的confidence interval在:
    • x±t_(n-1)(.05)*(s/n) ----> s:std,n:sample size,t_(n-1):t-statistic

binomial distribution二项分布/伯努利分布

如果事件是要么是或者否,那么可以被Model成二项分布

poisson distribution 泊松分布

  • key term
  1. exponential distribution:指数分布
    • 时间/地点距离的分布,从一点到另一点,one event to the next event
  2. weibull distribution
    • generalized version of exponential, event rate is allowed to shift over time
  3. lambda
    • the rate at which events occur 事件发生的速率

小结:

  • 很多工作都是将数据拟合到分布上,但是不是每个数据都是正态的,有一些规则来明确哪些数据适合那些分布。
  • 如果事件发生间隔固定:poisson distribution
  • 如果事件间隔在变化:weibull distribution(比如飞机硬件故障率)
上一篇:第七章:抽样与抽样分布(Sampling and sampling distribution)


下一篇:大数据开发之Hive优化篇4-Hive的数据抽样-Sampling