1、不同的行业对数据集(即表格)的行和列称谓不同,统计学家称其为观测(observation)和变量(variable);
2、R语言存储数据的结构:
①向量:类似于C语言里的一位数组,执行组合功能的函数c()可用来创建向量:
a <- c(1,2,3,4,5)
b <- c("one","two","three")
c <- c(TRUE,FALSE,TRUE)
以上,a是数值型向量,b是字符型,c是逻辑型;注意,单个向量中元素类型必须一样(不像python,想来什么就写什么);标量是只含有一个元素的向量,一般用于保存常量。向量元素的访问也很简单:
a[3] : 3
a[c(1,3,5)] : 1 3 5
a[2:5] : 2 3 4 5
②矩阵:
矩阵是一个二维数组,只是每个元素拥有相同的模式,通过函数matrix()来创建:
创建一个5X4的矩阵:
创建一个按行填充的矩阵:
矩阵下标的使用和前面的向量类似,也比较直观:
3、数组(多维数据):
数组可通过array函数创建:myarray<-array(vec,dimensions,dimnames)
其中vec是数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,dimnames是名称标签列表;下面是一个数组创建的例子:
其中z[1,1,4]=19
4、数据框(每一列的元素类型都可以不同的矩阵):
创建一个数据框:
选取数据框中的元素:
$用来选取一个特定的variable