多元统计中的一些方法

  这几天老师在讲授建模的知识,说白了就是将数学东西和实际问题结合起来而建立的一个解决问题的模型,这是我的理解不知道正确不。
     涉及到了好多数学方法,尤其是多元的,因为世界本来就是复杂的,而且一个事物也是用多个属性所描述的,多元,其实也就是多维,多个变量,无所谓,只要你能理解,在Spss中这些常见的都可以完成,不置一次的说过数据的组织是描述的关键,而描述也来源于认识的程度,但是在这些统计软件中,我们不用考虑的很多,因为他们设计的时候就考虑了,一例一变量,一行一个体,也叫做随即向量,而记录的多少就是一个样本,也就是随机向量的观测次数,或者对象的观测次数,而随机变量的你个统计。

简单相关系数又称皮尔逊相关系数,它描述了两个定距变量间联系的紧密程度。样本的简单相关系数一般用r表示,计算公式为:
  其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
  利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。

PCA(主成分分析)略

FA(因子分析)略

        偏相关系数(partial correlationcoefficient)就是3个变量中,去掉一个变量后剩下的2变量之间的相关系数,一般来说,偏相关系数只是一个形式上的相关系数,它的值其实没有太大的意义。比如在某个地区银行和饮食店的相关系数很强,饮食店多的地方,银行也多。但其是银行和饮食店之间没有直接的关系。但当我们引入第3个变量,比如白天的人口时,就会发现。白天人口和银行以及饮食店之间有很强的正相关的关系,所以白天人口分别和银行和饮食店之间是正的相关,而银行和饮食店之间则是偏相关,用偏相关计算的话,银行和饮食店之间就会发现两者之间的相关关系并不是很强。

在多变量情况下要表示其中某两个变量之间线性关系的密切程度必须在除去其他变量的影响之后计算它们之间的线性相关系数这样的相关系数称为偏相关系数.Rx1yx2为除去变量x2的影响后x1与y对x2的偏相关系数。

要确切地表示两个变量的相关关系就必须在消除其它变量的影响(即使与这两个变量有联系的其它变量都保持不变)的情况下来计算它们的相关系数这种相关系数称为偏相关系数。

可以这样说,你本来要研究X,Y之间的关系,但是由于C的存在,而C可能会影响X,Y,所以我们要剔除掉这个C的影响。

      典型相关分析的基本思想典型相关分析是主成分分析和因子分析的进一步发展,是研究两组变量间的相互依赖关系,把两组变量之间的相互关系变为研究两个新的变量之间的相关,而且又不抛弃原来变量的信息,这两个新的变量分别由第一组变量和第二组变量的线性组合构成,并且两组变量的个数可以是不同的,两组变量所代表的内容也可以是不同的。

两组变量之间的关系

对应分析:觉得是一个交叉表,R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。

聚类分析和判别分析:略。
上一篇:JavaWeb学习之路(44)–CSS之透明


下一篇:全部文字教程、视频教程、源代码