机器学习基本概念
基本术语
-
样本(sample)/示例(instance): 对事物的抽象化描述
李明:(学号=“201610311”, 专业=“计算机”, 年龄=“23”)
xi: (xi1; xi2;xi3) -
属性(attribute)/特征(feature): 事物某方面的描述(一个样本可以有多种属性)
学号xi1, 专业xi2, 年龄xi3, xi = (xi2; xi2; xi2 )^t(t表示转置)
属性值: 属性上的取值。xi2 = 计算机, xi3= 23 -
特征向量(feature vector): 样本对应于属性空间/样本空间的某一个点(一个样本的属性向量)
xi = (xi2; xi2; xi2)t(t表示转置)
- 维数(dimensionality): 特征向量中分量的个数
xi=(xi1;xi2;⋅⋅⋅;xid)t,d 即为维数
- 数据集(Database/Data matrix): 所有数据样本/特征向量组成的集合
X=(x1;x2;⋅⋅⋅;xn),n 为数据样本个数
-
标签(label): 对某个样本的某种标记
xi→yi,yi = {−1; +1}/{0; 1}
X=(x1;x2;⋅⋅⋅;xn)→Y=(y1;y2;⋅⋅⋅;yn)
D=(x1;y1);(x2;y2);⋅⋅⋅;(xn;yn) -
(机器) 学习(machine learning): 从给定的数据集中学习出某种模型的算法
-
训练集(training set),Xt: 数据集中用来学习模型的部分数据
-
测试集(testing set),Xs: 数据集中用来测试学习到模型性能的部分数据,因此我们有:
X=Xt+Xs
X=Xt+Xv+Xs,Xv 为验证集, 常常用来调试学得的模型中某些参数
学习的分类
-
无监督学习(unsupervised learning): 学习过程中没有用到样本标签,即训练数据集Xt 不带标签
eg:聚类(clustering)
-
有监督学习(supervised learning):学习过程中用到样本标签
eg:分类(classification,离散)、回归(regression,连续)
-
半监督学习(semi-supervised learning):训练数据部分带标签,部分不带标签
-
强化学习(Reinforcement learning):强化学习的中心思想,就是让智能体在环境里学习。每个行动会对应各自的奖励,智能体通过分析数据来学习,怎样的情况下应该做怎样的事情。
模型的选择
拟合与误差
-
欠拟合(under-fitting):学得的模型不足以描述数据分布。训练数据误差较大。模型过于简单。
-
过拟合(over-fitting):学得的模型对训练数据过分匹配精确,导致无法适应新的数据测试。数据误差较大。
-
训练误差(training error,也叫经验误差,empirical error):学习器在训练集上的误差。
-
泛化误差(generalization error),在新样本上的误差。
评估方法
- 留出法(hold-out):直接将X分解为两个不相交的集合,其中一个作为训练集,另一个作为测试集。常常将32−54的样本用于训练,其余用于测试。
- 交叉验证(cross validation): 将数据集X分解为k个互补相交的子集,即X1∪X2∪⋅⋅⋅∪Xk=X。然后每次用k−1个子集训练,剩余一个做测试,最终返回k 个测试结果——k 折交叉验证。假定数据集X中包含m个样本若令k=m,则得到了交叉验证的一个特例留一法(Leave-One-Out,LOO)。
错误率与精度
在分类任务中,精度和错误率是最常用的模型性能度量。现在假设数据集D={(x1;y1);(x2;y2);⋅⋅⋅;(xn;yn)},学习得到的模型为f:x→y。
- 错误率(分类错误的样本数占样本总数的比例):E(f;D)=n1∑inΠ(f(xi=yi))
- 精度(分类正确的样本数占样本总数的比例): acc(f;D)=n1∑inΠ(f(xi=yi))=1−E(f;D)
其中,Π 代表一个指示函数。