转载自:http://www.pinzhi.org/thread-7762-1-1.html
Minitab中相关系数R-Sq和修正的相关系数R-Sq(adj)的意思,计算公式和区别
在Minitab做回归方程,或类似的运算中,经常会碰到多元相关系数R-Sq和修正的多元相关系数R-Sq(adj),那么,这2个是什么意思?具体的计算公式和区别是什么?
拟合的总效果多元全相关系数(Multiple correlation coefficient) R²(即R=Sq)和修正的多元相关系数(Adjusted multiple correlation coefficient)R²adj(即R-Sq(adj))
由回归方程中的平方和分解公式可知:
SSTotal = SSModel + SSError
考虑到SSModel在SSTotal中的比例,定义R平方(R-Square,简记R-Sq):
R² = SSModel/SSTotal
显然,此数值越接近于1就越好,意味着SSError就越小,同样,上面的公式可以写成
R² = 1- (SSError/SSTotal)
如果将自变量的这种可控的普通变量数据也堪称随机变量,则可以求出二者间的相关系数(Correlation coefficient)。而R-sq恰好就是相关系数的平方。因此,它的含义是很好理解的。对于多个自变量的情况,定义不变,它被推广为“多元决定系数”,仍然表示SSModel在SSTotal中的比例。但他也有一个缺点:当自变量个数增加时,例如只增加一个新自变量,不管增加的这个自变量是否显著,R²(R-Sq)都会增加一些,因而在评价是否该增加此变量进入回归方程时,使用R²就没有价值了。为此,我们引入修正的R²,即R²adj,它的定义是:
上式中,n为观测值的总个数,p为回归方程中的总项数(包括常数项在内)。也就是说,R²adj(即R-Sq(adj))是扣除了回归方程中所受到的包含项数的影响的相关系数,因而可以更准确地反映模型的好坏,同样,它也是越接近于1就越好,而且在实际应用中,由于回归方程所含项数p总会大于等于1,因而容易看出,R²adj总比R²要稍小一些。
因此,要判断两个模型的优劣可以从R-Sq(adj)和R-Sq的接近程度来判断:二者之差越小则说明模型越好,我们常常比较包含所有自变量有关项的“全模型”与删去所有影响不显著的项后的“缩减模型”,看看究竟哪个更好,如果将影响不显著地项删去之后,二者更接近,则说明删去这些项确实使模型得到改进。