第一章 绪论

1.1统计学(statistics,数据的科学)

掌握总体和样本的概念与区别
传统的数据库技术无法高效处理这些海量数据,那么就需要统计学结合以革命性的新处理模式,比如分布式文件系统GFS、HDFS;并行处理架构MapReduce和分布式数据存储系统Bigtable等。
两个部分:描述统计学和推断统计学
描述统计学(descriptive statistics)以某种信息化的方式组织、概括和展示数据的方法(表格、图形或数字特征,频数分布与统计图)
推断统计学(inferential statistics)是在样本的基础上确定总体的某些特征的方法(利用样本数据的信息,对总体的情况作出估计、推断、预测或其他归纳)

统计研究过程的起点是统计数据,终点是客观现象内在的数量规律性。 

1.2 数据和变量
重点:变量的定义
           变量的类型
           定量变量的分类
难点:定性变量定量变量区别
变量(variable)是一个可以取两个或更多可能值的特征或属性。在做研究之前,对变量必须要有一个清晰的定义。
如果研究的变量是非数值型的,称作定性变量(qualitative variable),也称为分类变量(categorical variable),属性变量(attributives variable),名义变量 (nominal variable)等等
定性变量的取值称为水平(level)或者类(class)。比如,姓名。
如果研究的变量可用数值表示,称作定量变量(quantitative variable),相应的总体就称为定量总体。比如,年龄。
定量变量有连续型变量(continuous variable)和离散型变量(discrete variable),以及既有连续成份、也有离散成份的混合型变量。
离散型变量只能取某些特定的值,并且不同取值之间通常都存在间距。
连续型变量的观测值可以遍取某一区间中的任何值。
1.2.2数据定义
重点:数据的定义
           观测值的定义
难点:数据的测量水平及其特征
           数据的计量尺度
数据是变量(举例身高,年龄等)的观测值或者是试验结果。可观测到一次试验结果,即观测值。
数据的测量水平一共有4个:定类或分类(没有数量关系,没 有顺序关系)、定序或有序(有顺序关系)、定距或区间(有数量关系,可比较大小,可排序、 可计算差异)、定比或比例(有数量关系,可以比较大小,可排序, 可计算差异,具有绝对零点)。
数据的测量水平制约着在数据概括或显示时可以选用的计算方法,还决定了应使用何种统计检验方法。
最””或者最粗糙的测量是定类水平的测量;最“”或者能够提供有关观测对象最多信息的测量是定比水平的测量。
同类事物用不同的尺度量化,会得到不同的类别数据。
例如,收入数据按实际填写就是区间数据;按高、中、低收入水平划分就是有序数据;按有无收入计量则是分类数据;而说某人的收入是另一个人的2倍,则是比例数据。
再如,学生成绩按及格、不及格评定是分类;按优、良、中、及格、不及格评定是有序数据;按具体分数评定就是区间数据;而平均成绩评定则是比例数据。
对统计学的态度是定序数据,每一个类别都比其下一个类别“更高”或者“更好”。如“非常喜欢 ”要比“喜欢”更好。
成绩是定距数据,成绩不仅可以排序,还可以确定不同成绩之间的差异。
身高、体重就是定比数据。定比水平与定距水平唯一区别在于定比水平具有绝对零点。定比数据的两个数值之比具有实际含义。
1.2.3数据 采集方法
重点:随机抽样以及随机样本的定义
           观测值的定义
           如何使用R软件中的sample()函数模拟无放回和有放回抽样
难点:bootstrap重抽样法
收集数据 四种方法:(1)从公开发表资料(2)进行实验设计(3)调查(4)观察
统计推断需要有代表性的样本,最简单的获取有代表性的样本的方法就是选择随机样本。
在R中可以进行有放回、无放回抽样。
sample函数。默认是无放回抽样,并且size不能超过被抽样向量的长度。如果想有放回抽样,那么需要加上参数replace=TRUE。
bootstrap重抽样法。在原始数据的范围内做有放回抽样,样本量仍为n,原始数据中每个观测值每次被抽到的概率相等,为1/n,所得的样本为bootstrap。
sample(x,size) 第一个参数(x)是一个被抽样的值向量,第二个参数( size)是抽样大小。从1~100中随机取10个数字 >sample(1:100,10)
有放回抽样适用于扔硬币或掷骰子模型。
可以通过使用 sample()函数中的prob参数模拟那种结果不具有相等概率的数据,如成功的可能性是85%,可使用如下命令:
>sample(c("成功","失败"),10, replace=T, prob=c(0.85,0.15))
[1] "成功" "成功" "成功" "成功" "失败" "成功" "成功" "成功" "成功" "成功"
正如《大数据时代》书所说:“在大数据时代进行抽样分析就像在汽车时代骑马一样。”在互联网行业,样本几乎就是总体,谷歌、苹果和淘宝这些公司甚至不需要刻意的搜集数据,只需要利用互联网软件记录下人们在手机和计算机上的每一次触碰和点击,便完成了数据采集。但很多数据并不能从互联网上搜集,比如试吃体验数据。所以,在互联网力所不及的领域,采用抽样的方法搜集数据仍是必要的
1.3统计软件
Excel,数据处理、统计分析和图表绘制,适合对少量数据做简单的统计分析。
R网站(http://www.R-project.org)提供不断更新的统计学家所编写的各种最新方法和有关数据的统计软件包和程序。
Python并不是用于统计分析的编程语言,但 它拥有异常强大和丰富的函数库,借助 Numpy、 Scipy、 Matplotlib等函数库,可以实现大多数统计分析和绘图功能。

 

 

上一篇:JS函数--函数提升与变量提升


下一篇:Pytorch随笔--Tensor与Variable