统计功效计算

样本 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1​,x2​,…,xn​来自正态分布 N ( μ x , σ x 2 ) N(\mu_x,\sigma_x^2) N(μx​,σx2​),样本 y 1 , y 2 , … , y m y_1,y_2,\dots,y_m y1​,y2​,…,ym​来自正态分布 N ( μ y , σ y 2 ) N(\mu_y,\sigma_y^2) N(μy​,σy2​)。

检验假设: H 0 : μ x = μ y , H 1 : μ x < μ y H_0 :\mu_x = \mu_y,H_1:\mu_x < \mu_y H0​:μx​=μy​,H1​:μx​<μy​

正常情况下会构造统计量 x ‾ − y ‾ s x 2 n + s y 2 m \frac {\overline x - \overline y} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}} nsx2​​+msy2​​ ​x−y​​,当样本量足够大时,在原假设成立的情况下近似服从分布 N ( 0 , 1 ) N(0,1) N(0,1),也就是标准正态分布。

简单介绍一下两类错误:

  • H0为真但由于随机性使样本观测值落在了拒绝域中,从而拒绝原假设H0,这种错误称为第一类错误,也称为α错误。(拒真)
  • H0不为真,但由于随机性使样本观测值落入接受域中,从而接受假设H0,这种错误称为第二类错误,也称为β错误。(存伪)

先推导一下第二类错误的计算公式,以单边检验为例:
β = P ( x ‾ − y ‾ s x 2 n + s y 2 m ≤ Z 1 − α ∣ H 0 为 假 ) = P ( x ‾ − y ‾ − δ s x 2 n + s y 2 m ≤ Z 1 − α − δ s x 2 n + s y 2 m ) \beta = P(\frac {\overline x - \overline y} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}}\leq Z_{1-\alpha}|H_0为假) = P(\frac {\overline x - \overline y-\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}}\leq Z_{1-\alpha}-\frac {\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}}) β=P(nsx2​​+msy2​​ ​x−y​​≤Z1−α​∣H0​为假)=P(nsx2​​+msy2​​ ​x−y​−δ​≤Z1−α​−nsx2​​+msy2​​ ​δ​)
= P ( x ‾ − y ‾ − δ s x 2 n + s y 2 m ≤ Z 1 − α − Z ) , 其 中 Z = δ s x 2 n + s y 2 m , δ = μ x − μ y =P(\frac {\overline x - \overline y-\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}}\leq Z_{1-\alpha}-Z),其中Z =\frac {\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}},\delta = \mu_x-\mu_y =P(nsx2​​+msy2​​ ​x−y​−δ​≤Z1−α​−Z),其中Z=nsx2​​+msy2​​ ​δ​,δ=μx​−μy​
在 H 0 H_0 H0​为真的情况下, x ‾ − y ‾ s x 2 n + s y 2 m \frac {\overline x - \overline y} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}} nsx2​​+msy2​​ ​x−y​​近似服从正态分布,当 H 0 H_0 H0​为假的情况下, x ‾ − y ‾ − δ s x 2 n + s y 2 m \frac {\overline x - \overline y-\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over m}}} nsx2​​+msy2​​ ​x−y​−δ​近似服从正态分布,上式可改写为: β = Φ ( Z 1 − α − Z ) \beta = \Phi(Z_{1-\alpha}-Z) β=Φ(Z1−α​−Z)

统计功效(statistical power)是指,当H0为假拒绝H0的概率。也就是1-β的概率。
因此统计功效计算方式为: P o w e r = 1 − β = 1 − Φ ( Z 1 − α − Z ) = Φ ( Z − Z 1 − α ) Power = 1-\beta = 1-\Phi(Z_{1-\alpha}-Z) = \Phi(Z-Z_{1-\alpha}) Power=1−β=1−Φ(Z1−α​−Z)=Φ(Z−Z1−α​)

接下来计算样本量问题,要同时满足 α 和 P o w e r \alpha和Power α和Power需要一定的样本量,具体推导公式为:
1 − β = Φ ( Z − Z 1 − α ) → Z 1 − β = Z − Z 1 − α → Z 1 − β + Z 1 − α = Z → Z 1 − β + Z 1 − α = δ s x 2 n + s y 2 n 这 里 假 设 样 本 数 相 同 都 是 n → n = ( Z 1 − β + Z 1 − α ) 2 + ( s x 2 + s y 2 ) δ 2 1-\beta = \Phi(Z-Z_{1-\alpha}) \rightarrow Z_{1-\beta} = Z-Z_{1-\alpha} \rightarrow Z_{1-\beta}+Z_{1-\alpha} = Z \rightarrow Z_{1-\beta}+Z_{1-\alpha} =\frac {\delta} {\sqrt{{s_x^2 \over n}+{s_y^2 \over n}}} 这里假设样本数相同都是n\rightarrow n =\frac{(Z_{1-\beta}+Z_{1-\alpha})^2+(s_x^2+s_y^2)} {\delta^2} 1−β=Φ(Z−Z1−α​)→Z1−β​=Z−Z1−α​→Z1−β​+Z1−α​=Z→Z1−β​+Z1−α​=nsx2​​+nsy2​​ ​δ​这里假设样本数相同都是n→n=δ2(Z1−β​+Z1−α​)2+(sx2​+sy2​)​

对于双边检验也是类似情况:
P o w e r = 1 − β = Φ ( Z − Z 1 − α 2 ) Power = 1-\beta = \Phi(Z-Z_{1-\frac \alpha 2}) Power=1−β=Φ(Z−Z1−2α​​)

n = ( Z 1 − β + Z 1 − α 2 ) 2 + ( s x 2 + s y 2 ) δ 2 n =\frac{(Z_{1-\beta}+Z_{1-\frac \alpha 2})^2+(s_x^2+s_y^2)} {\delta^2} n=δ2(Z1−β​+Z1−2α​​)2+(sx2​+sy2​)​

上一篇:Counting Triangles(逆向思维)2021牛客暑期多校训练营3


下一篇:设备树 - compatible 属性