Hotelling T2检验和多元方差分析

1.1 Hotelling T2检验
  Hotelling T2检验是一种常用多变量检验方法,是单变量检验的自然推广,常用于两组均向量的比较。
  设两个含量分析为n,m的样本来自具有公共协方差阵的q维正态分布N(μ1,∑),N(μ2,∑),欲检验
  H012  H11≠μ2
  分别计算出两样本每个变量的均值构成的均向量X、Y及合并的组内协方差阵S,则统计量T2
  Hotelling T2检验和多元方差分析
  其中,S=(Lx+Ly)/(n+m-2),为合并协方差矩阵,分别为两样本的离差阵,即:
  Hotelling T2检验和多元方差分析
  求得T2后,可查相应界值表得到P值,从而作出结论。但通常将其转换为统计量F再由F分布得到P值。
  Hotelling T2检验和多元方差分析
1.2 多元方差分析
  多元方差分析(multivariate analysis of variance, MANOVA)是单变量方差分析和Hotelling T2检验的推广,用于多组均向量间的比较。
  设含量为n1,n2,…,ng的g个样本分别来自q维多元正态分布,Nq1,∑),Nq2,∑),…,Nqg,∑),则可根据交并原则或极大似然比原则推出多个统计量用于判断多个均向量是否来自同一总体。常用的统计量有Wilks λ, Pillai迹,Hotelling-Lawley迹和Roy的最大特征根。他们都以组内和组间离差阵有关,且其推断结论一般都一致,故这里仅介绍最常用的Wilks统计量:
  Hotelling T2检验和多元方差分析
  式中E为合并的组内离差阵,B为组间离差阵,T为总离差阵。λ满足于*度分别为q、n(=n1+n2+…+ng)、g的Wilks分布,可查其相应界值表得到P值,但通常也是转换为F分布后再得到P值。

http://blog.sina.com.cn/s/blog_647fe1580101i84d.html

http://www.qnr.cn/med/data/lcyxzk/ylx/201003/376058.html

摘 要 介绍Hotelling T2检验和多元方差分析在吸毒者生命质量资料分析中的应用,并对有关的问题进行探讨。认为Hotelling T2检验和多元方差分析是适合生命质量资料的,不但可得出整体生命质量比较的结论,而且借助进一步的单变量分析尚可得到各领域的比较结果。
  关键词 Hotelling T2检验 多元方差分析 生命质量 吸毒

  生命质量(quality of life, QOL)包括多个领域(domain),每个领域又分为多个小方面(facet)和条目(item),因此,生命质量资料是一种多指标多终点的资料。随着生命质量研究的日益兴隆,生命质量资料的分析方法日益受到关注[1~3]。鉴于单变量检验法存在的问题[2,3],一种自然的想法就是将生命质量每一个分析指标当成一个变量,从而采用Hotelling T2检验和多元方差分析来处理。本文以吸毒者生命质量资料的处理为例,具体介绍了Hotelling T2检验和多元方差分析在生命质量资料分析中的应用,并对应用中的有关问题进行探讨。

1 方法
1.1 Hotelling T2检验

  Hotelling T2检验是一种常用多变量检验方法,是单变量检验的自然推广,常用于两组均向量的比较。
  设两个含量分析为n,m的样本来自具有公共协方差阵的q维正态分布N(μ1,∑),N(μ2,∑),欲检验
  H012  H11≠μ2
  分别计算出两样本每个变量的均值构成的均向量X、Y及合并的组内协方差阵S,则统计量T2
  Hotelling T2检验和多元方差分析
  其中,S=(Lx+Ly)/(n+m-2),为合并协方差矩阵,分别为两样本的离差阵,即:
  Hotelling T2检验和多元方差分析
  求得T2后,可查相应界值表得到P值,从而作出结论。但通常将其转换为统计量F再由F分布得到P值。
  Hotelling T2检验和多元方差分析
1.2 多元方差分析
  多元方差分析(multivariate analysis of variance, MANOVA)是单变量方差分析和Hotelling T2检验的推广,用于多组均向量间的比较。
  设含量为n1,n2,…,ng的g个样本分别来自q维多元正态分布,Nq1,∑),Nq2,∑),…,Nqg,∑),则可根据交并原则或极大似然比原则推出多个统计量用于判断多个均向量是否来自同一总体。常用的统计量有Wilks λ, Pillai迹,Hotelling-Lawley迹和Roy的最大特征根。他们都以组内和组间离差阵有关,且其推断结论一般都一致,故这里仅介绍最常用的Wilks统计量:
  Hotelling T2检验和多元方差分析
  式中E为合并的组内离差阵,B为组间离差阵,T为总离差阵。λ满足于*度分别为q、n(=n1+n2+…+ng)、g的Wilks分布,可查其相应界值表得到P值,但通常也是转换为F分布后再得到P值。

2 实例分析
  我们研制的吸毒者生命质量测定量表QOL-DA[4]由4个领域构成,即躯体功能(PH)、心理功能(PS)、戒断症状及副作用(ST)和社会功能(SO)。用此量表在戒毒所随机抽取强制戒毒者158例和自愿戒毒者54例进行测定。将上述4个方面的得分分别作为4个分析变量,对两组的生命质量进行比较(因其服从正态分布且方差齐,故直接采用t检验处理),结果见附表。

附表 强制与自原戒毒者入所时的生命质量比较

分析指标 强制组 自愿组 t P
均数 标准差 均数 标准差
躯体功能 24.48 7.50 23.50 7.39 0.81 0.42
心理功能 26.91 8.52 27.98 8.45 -0.80 0.43
戒断症状/副作用 30.64 11.37 31.29 12.18 -0.36 0.72
社会功能 32.08 9.68 35.83 10.13 -2.04 0.042
从附表可知,两戒毒组仅有社会功能领域差异有显著性。
  显然,单变量t检验仅能对生命质量的每个领域进行单独的分析,缺乏对生命质量的总体评价。因此,这里再用本文方法进行处理。
  因各变量都服从正态分布,可视为满足多元正态分布,又系两组的比较,故采用Hotelling T2检验,求得:
  强制组均向量(PH,PS,ST,SO)为X=(24.48 26.91 30.64 32.68)
  自愿组均向量(PH,PS,ST,SO)为Y=(23.50 27.98 31.29 35.83)
  协差阵齐性检验: F=9.34 P=0.499
  Hotelling T2检验: F=2.48 P=0.045
  协差阵检验的P值较大,可认为满足齐性,因此可采用Hotelling T2检验的结果。从生命质量的四个领域综合来看,可认为两戒毒组生命质量有统计学显著性差异。

3 讨论
3.1 本文方法理论上要求两组或多组来自多元正态分布,且协方差矩阵相等(齐性)。多元正态性检验问题至今仍无很好的方法解决,通常的做法是如每个变量都为正态分布,则将其视为多元正态分布。此外,检验对于不同分布具有一定的稳健性,也就是说无论其分布如何,当样本含量大时其检验结论一般不变。因此在实际问题中,常根据专业知识来判断是否多元正态,而且往往可视为多元正态处理。尤其在生命质量评价中,各层次的指标得分往往均是中间者较多,两端的逐渐减少,可认为是正态分布。相比之下,协差阵齐性与否对结果影响较大,而且协差阵不等的情形会经常遇到。为此,在比较前一般需先对协差阵进行检验。多组协差阵齐性检验可参阅方开泰的文献[5]
3.2 经检验方差阵不齐时,多组比较可采用一些非参数方法[6];两组比较,若∑1,∑2相差不大可采用Carter等[7]提出的方法解决,相差大时采用Yao[8]提出的近似Hotelling T2检验法,即:
  Hotelling T2检验和多元方差分析
式中Sx和Sy分别为两样本的协差阵。
  令Hotelling T2检验和多元方差分析
  Hotelling T2检验和多元方差分析
  则有:Hotelling T2检验和多元方差分析
3.3 类似于单变量分析中t检验与方差分析的关系,Hotelling T2检验仅用于两组间的比较,而多元方差分析可用于多组或两组间的比较,用于两组时与Hotelling T2检验等价。
3.4 当差异有统计学显著性时,仅能认为各变量综合来看有差异,而不断认为每个变量间均有差异。此时往往再进一步作每个单变量间的比较,从而既得到综合比较的结果又可看出各变量的变化情况及作用。一般说来,Hotelling T2检验和多变量方差分析均较敏感,只要有一个变量有显著性差异,往往导致整个均向量也有差异。在一些多指标综合评价中可能认为这种结果不太合理,此时可换用其它方法,如O’Brien的非参数法[6]
3.5 一些学者[6,9]认为Hotelling T2检验或多变量方差分析仅能说明两组或多组间的不同,但不能区分是有利的还是不利的改变,尤其是各变量间的变化不一致时,难以说明各组的优劣,因而不适合临床试验资料及生命质量资料的分析。但笔者认为不能就此否认其价值,只要得到了差异有统计学意义的结论,就可判断为各组不同,至于怎样不同可通过单变量检验结果进一步判断,而且这也是很有实际意义的。以生命质量评价来说,有的组可能是躯体功能好,有的可能是心理功能好,只要能区别出这种差异就可以了,不一定非要说明哪组为优。倒是前述的“过于敏感”可能对其在生命质量分析中的应用有一定影响。
3.6 应用本文方法的另一个关键问题是计算较难,这可通过一些软件包来实现。如在SAS和SPSS软件包中,ANOVA(或MANOVA)、GLM等均输出前述四个多变量方差分析的统计量值,因此可方便地解决计算问题。虽然没有专门的Hotelling T2检验统计量,但其中的Hoteling-Lawley迹在两组比较时与T2等价,两者仅相差一个常数(n+m-2)。
3.7 类似于单变量方差分析,如果还有其它计量变量对生命质量有影响,可将其作为协变量而用多变量的协方差分析处理。

作者单位:中山医科大学卫生统计学教研室 广州510089
*昆明戒毒所

参考文献

 [1]Cox DR, Fitzpatirick R, Fletcher AE et al. Quality-of-life assessment:can we keep it simple? J.R.Statist. Soc.A. 1992,155:353.
 [2]Olschewski M, Schumacher M. Statistical analysis of quality of life data in cancer clinical trials. Statistics in Medicine 1990,9:749.
 [3]万崇华,方积乾.生命质量资料的统计分析方法.中华预防医学1996,30(3):172.
 [4]万崇华,方积乾,陈丽影,等.海洛因成瘾者生存质量测定量表的制定及其考评.中国行为医学科学杂志,1997,6(3):169.
 [5]方开泰编著.实用多元统计分析.上海:华东师范大学出版社,1989,132~136.
 [6]O?Brien P. C. Procedures for comparing samples with multiple endpoints. Biometrics 1985,40:1079.
 [7]Carter EM, Khatri CG, Srivastava MS. The effect of inequality of variances on t-test. Sankhya, Ser. B41 1979,216~225.
 [8]Yao Y. An approximatte degrees of freedom solution to the multivariate Behrens-Fisher problem. Biometrika 1965,52:139~147.
 [9]汤旦林,王松柏.生命质量测定及其在临床试验中的应用.中华医学杂志,1994,74(3):175.

收稿日期:1998-08-10

上一篇:mybatis传入List实现批量更新的坑


下一篇:数据分析三剑客之numpy