Logistic 回归

如果所有的变量之间有主次之分,有解释变量,有反应变量,且反应变量是类别变量。则用逻辑回归。

如果变量全是解释变量,而且是类别变量,则用对数线性模型。PROC CATMOD;

CMH方法只是adjust类别性变量,而且还忽略顺序。

用于疾病危险因素探索或疾病判别和预测。

1. 介绍

Logistic 回归

 

 

 这是逻辑函数,通过模型把值映射到0-1之间。

Logistic 回归

 

 事件发生概率的模型。

Logistic 回归

Logistic 回归

 

 等号左边是odd。

Logistic 回归

 

 第i个协变量的Odd Ratio.

Logistic 回归

 

这个是说Xi每变化一单位,事件Odd增加的百分比。

2.

Logistic 回归

 

 模型是对relapse = YES求解。

Logistic 回归

  1.  加了协变量后,AIC SC -2LogL都降低,模型改善。
  2. BETA = 0是模型整体检验,模型总体来讲有意义。包含与不包含协变量。

Logistic 回归

 

协变量的系数。

 

Logistic 回归

OR值,e-1.1191 = 0.327,100·(0.327–1) = –67.3%,ACT相比于PBO组,odd of event 减少67%. 或者ACT风险是PBO的0.3倍。

 

data aml; 
 input pat group $ x relapse $ @@; 
 datalines; 
 1 ACT 3 NO 2 ACT 3 YES 4 ACT 3 YES
 6 ACT 6 YES 7 ACT 15 NO 10 ACT 6 YES
 11 ACT 6 YES 14 ACT 6 YES 15 ACT 15 NO
 17 ACT 15 NO 20 ACT 12 NO 21 ACT 18 NO
 22 ACT 6 YES 25 ACT 15 NO 26 ACT 6 YES
 28 ACT 15 NO 29 ACT 12 YES 32 ACT 9 NO
 33 ACT 6 YES 36 ACT 6 NO 39 ACT 6 NO
 42 ACT 6 NO 44 ACT 3 YES 46 ACT 18 NO
 49 ACT 9 NO 50 ACT 12 YES 52 ACT 6 NO
 54 ACT 9 YES 56 ACT 9 YES 58 ACT 3 NO
 60 ACT 9 YES 62 ACT 12 NO 63 ACT 12 NO
 66 ACT 3 NO 67 ACT 12 NO 69 ACT 12 NO
 71 ACT 12 NO 73 ACT 9 YES 74 ACT 6 YES
 77 ACT 12 NO 79 ACT 6 NO 81 ACT 15 YES
 83 ACT 9 NO 85 ACT 3 YES 88 ACT 9 NO
 90 ACT 9 NO 92 ACT 9 NO 94 ACT 9 NO
 95 ACT 9 YES 98 ACT 12 YES 99 ACT 3 YES
102 ACT 6 YES 3 PBO 9 YES 5 PBO 3 NO
 8 PBO 12 YES 9 PBO 3 YES 12 PBO 3 YES
 13 PBO 15 YES 16 PBO 9 YES 18 PBO 12 YES
 19 PBO 3 YES 23 PBO 9 YES 24 PBO 15 YES
 27 PBO 9 YES 30 PBO 6 YES 31 PBO 9 YES
 34 PBO 6 YES 35 PBO 12 NO 37 PBO 9 NO
 38 PBO 15 NO 40 PBO 15 YES 41 PBO 9 NO
 43 PBO 9 NO 45 PBO 12 YES 47 PBO 3 YES
 48 PBO 6 YES 51 PBO 6 YES 53 PBO 12 NO
 55 PBO 12 NO 57 PBO 12 YES 59 PBO 3 YES
 61 PBO 12 YES 64 PBO 3 YES 65 PBO 12 YES
 68 PBO 6 YES 70 PBO 6 YES 72 PBO 9 YES
 75 PBO 15 NO 76 PBO 15 NO 78 PBO 12 NO
 80 PBO 9 NO 82 PBO 12 NO 84 PBO 15 NO
 86 PBO 18 YES 87 PBO 12 NO 89 PBO 15 YES
 91 PBO 15 NO 93 PBO 15 NO 96 PBO 18 NO
 97 PBO 18 YES 100 PBO 18 NO 101 PBO 18 NO
;

ods graphics on; 
proc logistic data=aml plots(only)=(effect oddsratio);
 class group(ref='PBO') / param=ref; 
 model relapse(event='YES')= group x; 
 oddsratio group; 
 oddsratio x; 
run; 
ods graphics off; 

 

class group(ref='PBO') / param=ref; 

 

  1. param = ref 是显示参照组均值和其他组与参照组的差值
  2. param = effect则显示的是每类的均值
  3. 如果指定 ref = ,一定指定param = ref
  4. ref就是用来作哑变量

 

class rx(ref=’B’) / param = ref;
 model resp(descending) = rx hist; 

这是多个分类,写了descending,就是会从最高向最低分,例如共四类,4,4 3,4 3 2. 如果是5类,就是5,5 4,5 4 3,5 4 3 2.

Intercept4    是4 VS 1,2,3

Intercept3    是4 ,3 VS 1,2

Intercept2    是4 3,2VS 1

反映的是P(y<=k)和P(y>K的比值)

Logistic 回归

Logistic 回归

 

 

3. "重复测量"

例如:

要求患者记录服药后每次头疼,在2 hour内有没有好转。patient之间是福独立的,但每个patient会有自己的特质,即数据不是完全独立。

model succ/attpt = trt age / scale = williams; 

succ是好转次数,attpt是发生头痛次数。

指定scale = williams是To correct for overdispersion or underdispersion,在among the clusters中很好用。

  1. 下图高亮是调整variance-covariance matrix,。就是SCALE 指定离群点的检验方法。
  2. 指定SCALE后,协方差矩阵会乘以指定的那个参数,那个参数系统自动计算。目的是为了调整过度离散。Specifies the method to correct overdispersion

 Logistic 回归

 Logistic 回归

  1. 指定scale = williams后,这两个检验就不再适用。这两种方法是判断离群点,当 value值大于2时认为有离群点。
  2. 这两个指标也可以衡量模型拟合,当不显著时候,认为拟合较好。
  3. Pearson是通过比较模型预测和实际差距来判断模型
  4. Deviance是通过判断饱和模型和和当前模型之间的差异度。

RSQUARE可以输出R2,表示解释变量对因变量的解释比例。

 

上一篇:Linux下编译tinyxml生成动态库


下一篇:开博近一年的感想 by 程序员小白