一.判别分析和分类分析
例子
贷款人申请贷款,要评估是否能够成功偿还贷款
二.区别
判别分析-寻找判别规则,利用判别函数来描述-主要是区分不同的群体-找规律
分类分析-给出分类结果-预测新对象的类别,找到最优可能属于的类别-贴标签
目标通常都是分类
两群体Fisher线性判别分析
目标寻找最合适的平面,将样本投影到上面,使得组内间距最小,组间间距最大
假设
\(两个群体的均值向量\mu_1\ne \mu_2,但具有相同的协方差矩阵\Sigma\)
随机样本
\(第一个p维群体y_{11},...,y_{1n}的样本均值向量\bar y_1 则协方差矩阵为 \Sigma/n_1\)
\(第二个p维群体y_{21},...,y_{2n}的样本均值向量\bar y_2 则协方差矩阵为 \Sigma/n_2\)
Fisher 线性判别分析
用来寻找两个群体间“最好”的线性判别法则,来最大限度地区分两个群体
\(找到\bar y_1 ,\bar y_2,投影到平面a上,就是和平面a做內积,然后找到\bar Z_1,\bar Z_2\)
不看欧式距离,会受到量纲影响
\(Fisher线性判别分析寻找一个投影方向a,使得两均值向量投影之后\bar Z_1 = a' \bar y_1和\bar Z_2 = a' \bar y_2的"标准化距离"最大\)
"标准化距离"怎么算?
\(推演\)
\(d=\bar Z_1 - \bar Z_2 = a^T(\bar y_1 - \bar y_2)\)
\(Cov(\bar y_1)=\Sigma/n_1\)
\(Cov(\bar y_2)=\Sigma/n_2\)
\(Cov(\bar y_1) -\bar y_2)=\Sigma(\frac{1}{n_1}+\frac{1}{n_2}),注意!等号后面是加号,虽然前面Cov里面是-号\)
\(var(d)=(\frac{1}{n_1}+\frac{1}{n_2}), a^T\Sigma a\)
\(标准差 s_d=\sqrt{(\frac{1}{n_1}+\frac{1}{n_2}), a^TS_{pl} a},这里实际的\Sigma没法求,用样本的S_{pl}表示\)
\(最后结论:不用d判断距离,而用d/s_d,然后可能有负号,所以一般求平方(d/s_d)^2\)
\(即\)
\(t^2(a) = \frac{(a^T(\bar y_1 -\bar y_2))^2}{(1/n_1+1/n_2)a^TS_{pl}a}\)
\(Fisher线性判别分析寻找a,使得t^2(a)最大\)
\(上面是內积,下是是二次型形式\)
\(有点像柯西不等式\)
\((a^Tb)^2 \le (a^Ta)(b^Tb),等号当且仅当a=b成立\)
\(柯西不等式变形\)
\((a^Ta) \le (a^TWa)(b^TWb),或者\)
\(\frac{(a^Tb)^2}{a^TWa} \le b^TW^{-1}b,等号成立当且仅当 a= W^{-1}b\)
\(变形公式通过令a=W^{-\frac{1}{2}}a,b=W^{-\frac{1}{2}}b推导得到\)
观察两组公式
\(t^2(a) = \frac{(a^T(\bar y_1 -\bar y_2))^2}{(1/n_1+1/n_2)a^TS_{pl}a}\)
\(\frac{(a^Tb)^2}{a^TWa} \le b^TW^{-1}b\)
\(可以直观看出\)
\(抛开 (1/n_1+1/n_2) 这个常数项,两个公式是等价的,那么t^2(a)取到最大值的时候就是 变形公式当且仅当条件成立的时候\)
\(即\)
\(\color{red}{a=S_{pl}^{-1}(\bar y_1 -\bar y_2)}\)
\(称为判别函数系数\)
\(\color{red}{z=a^Ty}\)
\(称为Fisher判别函数\)