机器学习中的数据

以鸢尾花数据为例:

机器学习中的数据

 其中包含四个主要的信息(萼片(sepal)的长宽、花瓣(petal)的长宽)

机器学习中的数据

根据以上数据大致可以分为三个种类,Iris-Setosa、Iris-Versicolour、Iris-Virginica

其数据的结构大致如下:

机器学习中的数据

 现有以下数据为例:

机器学习中的数据

此处使用数字0,1,2在机器学习中分别简化表示三种类型。

上面示例的数据整体叫数据集(data set),

其中每一行数据都被称为一个样本(sample),

除最后一列,每列表达样本的一个特征(feature)(例子中有4个特征),

最后一列,称为标记(label)

现将所有的特征表示为矩阵X,将所有标记表示为向量y

机器学习中的数据

那么第i个样本行写作X ⁽ ⁱ ⁾(称作特征向量,一般为列向量)

机器学习中的数据

 现将所有特征向量转置即可得到整个数据集

机器学习中的数据

第i个样本的第j个特征值写作X ⁽ ⁱ ⁾ⱼ(i为上标,j为下标),

第i个样本的标记写作y⁽ ⁱ ⁾。

样本数据的本质就是在所有特征所组成的一个空间中的点,这个空间称为特征空间(feature space)

分类任务的本质就是在特征空间中的切分,下图为两维的示例,在高维空间同理。

机器学习中的数据

此外,特征也可以是抽象的,比如MNIST数据集中的手写数字,其中每个数字图像中的每一个像素点都是特征。

上一篇:计量(一):一元线性回归与多元线性回归分析【R语言】


下一篇:集成算法--sklearn