《R语言数据挖掘》----1.10 数据属性与描述

2022-06-17 23:25:53

属性（attribute）是代表数据对象的某些特征、特性或者维度的字段。

在大多数情况下，数据可以用矩阵建模或者以矩阵形式表示，其中列表示数据属性，行表示数据集中的某些数据记录。对于其他情况，数据不能用矩阵表示，比如文本、时间序列、图像、音频以及视频等。数据可以通过适当的方法，如特征提取，变换成矩阵。

数据属性的类型来自它的语境、域或者语义，有数值、非数值、分类数据类型以及文本数据。有两种适用于数据属性与描述的视角，它们在数据挖掘与R语言中被广泛使用，如下所述：

基于代数或者几何视角的数据（data in algebraic or geometric view）：整个数据集可以建模为一个矩阵。线性代数和抽象代数在这里起着很重要的作用。

基于概率视角的数据（data in probability view）：将观测数据视为多维随机变量。每一个数值属性就是一个随机变量，维度就是数据的维度。不论数值是离散的还是连续的，这里都可以运用概率论。

为了帮助读者更自然地学习R语言，我们将采用几何、代数以及概率视角的数据。

这里有一个矩阵的例子。列数由m确定，m就是数据的维度；行数由n确定，n就是数据集的大小。

其中，xi表示第i行，表示一个m元组，如下所示：

Xj表示第j列，表示一个n元组，如下所示：

因为数值数据是定量的且允许任意计算，所以它易于处理。数值数据与整数或者浮点数的性质是一样的。

来自有限集或者可数无限集的数值属性称为是离散的（discrete），例如一个人的年龄，它是从1150开始的整数值。来自任何实数值的其他属性称为是连续的（continuous）。主要有两种数值类型：

定距尺度（interval-scaled）：这是以相同单位尺度测量的定量值，例如某些特定鱼类的重量，以国际度量标准，如克或者千克。

定比尺度（ratio-scaled）：除了值之间的差值之外，该值可以通过值之间的比率进行计算。这是一个具有固定零点的数值属性，因此可以说一个值是另一个值的多少倍。

分类属性的值来自一组符号构成的集域（集合），例如人类服装的大小被分类为{S, M, L}。分类属性可以划分为两种类型：

名义（nominal）：该集合中的值是无序的且不是定量的，这里只有相等运算是有意义的。

定序（ordinal）：与定类类型相反，这里的数据是有序的。这里除了相等运算外，也可以进行不相等运算。

基本描述可以用来识别数据的特征，区分噪声或者异常值。两种基本的统计描述如下所示：

集中趋势的度量（measures of central tendency）：它测量数据分布的中间或中心位置：均值、中位数、众数、值域中点等。

数据的离散程度的度量（measures of dispersion of the data）：它包括全距、四分位数、四分位数间距等。

数据测量用于聚类、异常值检测和分类。它指的是近似性、相似性和差异性的度量。两个元组或数据记录之间的相似值的取值范围是0～1的一个实数值，数值越大，元组之间的相似度就越高。差异性的原理相反，差异性值越大，两个元组就越不相似。

对于一个数据集，数据矩阵在n×m阶矩阵（n个元组和m个属性）中存储了n个数据元组：

相异度矩阵存储了数据集中的所有n个元组的近似度集合，通常为一个n×n阶的矩阵。在下面的矩阵中，d(i,?j)是两个元组之间的差异性。0表示彼此之间高度相似或者高度接近，同样，1表示完全不相同。数值越大，相异度就越高。

大多数时候，相异度和相似度是相关的概念。相似性度量通常可以使用一个函数来定义，可以用相异性的度量来构建相似性，反之亦然。
这里有一张表，它列出了不同类型属性值常用的度量方法。

码农公寓