《R语言数据挖掘》----1.10 数据属性与描述

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.10节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.10 数据属性与描述

属性(attribute)是代表数据对象的某些特征、特性或者维度的字段。

在大多数情况下,数据可以用矩阵建模或者以矩阵形式表示,其中列表示数据属性,行表示数据集中的某些数据记录。对于其他情况,数据不能用矩阵表示,比如文本、时间序列、图像、音频以及视频等。数据可以通过适当的方法,如特征提取,变换成矩阵。

数据属性的类型来自它的语境、域或者语义,有数值、非数值、分类数据类型以及文本数据。有两种适用于数据属性与描述的视角,它们在数据挖掘与R语言中被广泛使用,如下所述:

基于代数或者几何视角的数据(data in algebraic or geometric view):整个数据集可以建模为一个矩阵。线性代数和抽象代数在这里起着很重要的作用。

基于概率视角的数据(data in probability view):将观测数据视为多维随机变量。每一个数值属性就是一个随机变量,维度就是数据的维度。不论数值是离散的还是连续的,这里都可以运用概率论。

为了帮助读者更自然地学习R语言,我们将采用几何、代数以及概率视角的数据。

这里有一个矩阵的例子。列数由m确定,m就是数据的维度;行数由n确定,n就是数据集的大小。
《R语言数据挖掘》----1.10 数据属性与描述

其中,xi表示第i行,表示一个m元组,如下所示:
《R语言数据挖掘》----1.10 数据属性与描述

Xj表示第j列,表示一个n元组,如下所示:
《R语言数据挖掘》----1.10 数据属性与描述

1.10.1 数值属性

因为数值数据是定量的且允许任意计算,所以它易于处理。数值数据与整数或者浮点数的性质是一样的。

来自有限集或者可数无限集的数值属性称为是离散的(discrete),例如一个人的年龄,它是从1150开始的整数值。来自任何实数值的其他属性称为是连续的(continuous)。主要有两种数值类型:

定距尺度(interval-scaled):这是以相同单位尺度测量的定量值,例如某些特定鱼类的重量,以国际度量标准,如克或者千克。

定比尺度(ratio-scaled):除了值之间的差值之外,该值可以通过值之间的比率进行计算。这是一个具有固定零点的数值属性,因此可以说一个值是另一个值的多少倍。

1.10.2 分类属性

分类属性的值来自一组符号构成的集域(集合),例如人类服装的大小被分类为{S, M, L}。分类属性可以划分为两种类型:

名义(nominal):该集合中的值是无序的且不是定量的,这里只有相等运算是有意义的。

定序(ordinal):与定类类型相反,这里的数据是有序的。这里除了相等运算外,也可以进行不相等运算。

1.10.3 数据描述

基本描述可以用来识别数据的特征,区分噪声或者异常值。两种基本的统计描述如下所示:

集中趋势的度量(measures of central tendency):它测量数据分布的中间或中心位置:均值、中位数、众数、值域中点等。

数据的离散程度的度量(measures of dispersion of the data):它包括全距、四分位数、四分位数间距等。

1.10.4 数据测量

数据测量用于聚类、异常值检测和分类。它指的是近似性、相似性和差异性的度量。两个元组或数据记录之间的相似值的取值范围是0~1的一个实数值,数值越大,元组之间的相似度就越高。差异性的原理相反,差异性值越大,两个元组就越不相似。

对于一个数据集,数据矩阵在n×m阶矩阵(n个元组和m个属性)中存储了n个数据元组:
《R语言数据挖掘》----1.10 数据属性与描述

相异度矩阵存储了数据集中的所有n个元组的近似度集合,通常为一个n×n阶的矩阵。在下面的矩阵中,d(i,?j)是两个元组之间的差异性。0表示彼此之间高度相似或者高度接近,同样,1表示完全不相同。数值越大,相异度就越高。
《R语言数据挖掘》----1.10 数据属性与描述

大多数时候,相异度和相似度是相关的概念。相似性度量通常可以使用一个函数来定义,可以用相异性的度量来构建相似性,反之亦然。
这里有一张表,它列出了不同类型属性值常用的度量方法。
《R语言数据挖掘》----1.10 数据属性与描述

上一篇:《R语言数据分析》——2.4 从其他在线来源获取数据


下一篇:Yarn REST API 使用指南