以鸢尾花数据为例:
其中包含四个主要的信息(萼片(sepal)的长宽、花瓣(petal)的长宽)
根据以上数据大致可以分为三个种类,Iris-Setosa、Iris-Versicolour、Iris-Virginica
其数据的结构大致如下:
现有以下数据为例:
此处使用数字0,1,2在机器学习中分别简化表示三种类型。
上面示例的数据整体叫数据集(data set),
其中每一行数据都被称为一个样本(sample),
除最后一列,每列表达样本的一个特征(feature)(例子中有4个特征),
最后一列,称为标记(label)
现将所有的特征表示为矩阵X,将所有标记表示为向量y
那么第i个样本行写作X ⁽ ⁱ ⁾(称作特征向量,一般为列向量),
现将所有特征向量转置即可得到整个数据集
第i个样本的第j个特征值写作X ⁽ ⁱ ⁾ⱼ(i为上标,j为下标),
第i个样本的标记写作y⁽ ⁱ ⁾。
样本数据的本质就是在所有特征所组成的一个空间中的点,这个空间称为特征空间(feature space)。
分类任务的本质就是在特征空间中的切分,下图为两维的示例,在高维空间同理。
此外,特征也可以是抽象的,比如MNIST数据集中的手写数字,其中每个数字图像中的每一个像素点都是特征。