机器学习基本概念

机器学习基本概念

基本术语

  • 样本(sample)/示例(instance): 对事物的抽象化描述

    李明:(学号=“201610311”, 专业=“计算机”, 年龄=“23”)
    xix_ixi​: (xi1x_{i1}xi1​; xi2x_{i2}xi2​;xi3x_{i3}xi3​)

  • 属性(attribute)/特征(feature): 事物某方面的描述(一个样本可以有多种属性)

    学号xi1x_{i1}xi1​, 专业xi2x_{i2}xi2​, 年龄xi3x_{i3}xi3​, xix_{i}xi​ = (xi2x_{i2}xi2​; xi2x_{i2}xi2​; xi2x_{i2}xi2​ )^t(t表示转置)
    属性值: 属性上的取值。xi2x_{i2}xi2​ = 计算机, xi3x_{i3}xi3​= 23

  • 特征向量(feature vector): 样本对应于属性空间/样本空间的某一个点(一个样本的属性向量)

xix_{i}xi​ = (xi2x_{i2}xi2​; xi2x_{i2}xi2​; xi2)tx_{i2} )^txi2​)t(t表示转置)

  • 维数(dimensionality): 特征向量中分量的个数

xi=(xi1;xi2;;xid)tx_i = (x_{i1}; x_{i2}; · · · ; x_{id})^txi​=(xi1​;xi2​;⋅⋅⋅;xid​)t,d 即为维数

  • 数据集(Database/Data matrix): 所有数据样本/特征向量组成的集合

X=(x1;x2;;xn)X = (x_1; x_2; · · · ; x_n)X=(x1​;x2​;⋅⋅⋅;xn​),n 为数据样本个数

  • 标签(label): 对某个样本的某种标记

    xiyiyix_i → y_i,y_ixi​→yi​,yi​ = {−1; +1}/{0; 1}
    X=(x1;x2;;xn)X = (x_1; x_2; · · · ; x_n)X=(x1​;x2​;⋅⋅⋅;xn​)→Y=(y1;y2;;yn)Y = (y_1; y_2; · · · ; y_n)Y=(y1​;y2​;⋅⋅⋅;yn​)
    D=(x1;y1);(x2;y2);;(xn;yn)D = {(x_1; y_1); (x_2; y_2); · · · ; (x_n; y_n)}D=(x1​;y1​);(x2​;y2​);⋅⋅⋅;(xn​;yn​)

  • (机器) 学习(machine learning): 从给定的数据集中学习出某种模型的算法

  • 训练集(training set),XtX_tXt​: 数据集中用来学习模型的部分数据

  • 测试集(testing set),XsX_sXs​: 数据集中用来测试学习到模型性能的部分数据,因此我们有:

    X=Xt+XsX = X_t + X_sX=Xt​+Xs​
    X=Xt+Xv+XsX = X_t + X_v + X_sX=Xt​+Xv​+Xs​,Xv 为验证集, 常常用来调试学得的模型中某些参数

学习的分类

  1. 无监督学习(unsupervised learning): 学习过程中没有用到样本标签,即训练数据集XtX_tXt​ 不带标签

    eg:聚类(clustering)

  2. 有监督学习(supervised learning):学习过程中用到样本标签

    eg:分类(classification,离散)、回归(regression,连续)

  3. 半监督学习(semi-supervised learning):训练数据部分带标签,部分不带标签

  4. 强化学习(Reinforcement learning):强化学习的中心思想,就是让智能体在环境里学习。每个行动会对应各自的奖励,智能体通过分析数据来学习,怎样的情况下应该做怎样的事情。

模型的选择

拟合与误差

  • 欠拟合(under-fitting):学得的模型不足以描述数据分布。训练数据误差较大。模型过于简单。

  • 过拟合(over-fitting):学得的模型对训练数据过分匹配精确,导致无法适应新的数据测试。数据误差较大。

  • 训练误差(training error,也叫经验误差,empirical error):学习器在训练集上的误差。

  • 泛化误差(generalization error),在新样本上的误差。

评估方法

  • 留出法(hold-out):直接将XXX分解为两个不相交的集合,其中一个作为训练集,另一个作为测试集。常常将2345\frac23-\frac4532​−54​的样本用于训练,其余用于测试。
  • 交叉验证(cross validation): 将数据集XXX分解为kkk个互补相交的子集,即X1X2Xk=XX1 ∪X2∪· · ·∪Xk = XX1∪X2∪⋅⋅⋅∪Xk=X。然后每次用k1k − 1k−1个子集训练,剩余一个做测试,最终返回k 个测试结果——kkk 折交叉验证。假定数据集XXX中包含mmm个样本若令k=mk=mk=m,则得到了交叉验证的一个特例留一法(Leave-One-Out,LOO)

错误率与精度

在分类任务中,精度和错误率是最常用的模型性能度量。现在假设数据集D={(x1;y1);(x2;y2);;(xn;yn)}D =\{(x1; y1); (x2; y2); · · · ; (xn; yn)\}D={(x1;y1);(x2;y2);⋅⋅⋅;(xn;yn)},学习得到的模型为f:xyf : x → yf:x→y。

  • 错误率(分类错误的样本数占样本总数的比例):E(f;D)=1ninΠ(f(xiyi))E(f; D) = \frac1n\sum^n_i\varPi(f(xi\neq yi))E(f;D)=n1​∑in​Π(f(xi​=yi))
  • 精度(分类正确的样本数占样本总数的比例): acc(f;D)=1ninΠ(f(xiyi))=1E(f;D)acc(f; D) = \frac1n \sum^n_i\varPi(f(xi\neq yi)) = 1 − E(f; D)acc(f;D)=n1​∑in​Π(f(xi​=yi))=1−E(f;D)
    其中,Π\varPiΠ 代表一个指示函数。
上一篇:最小二乘法


下一篇:【机器学习实战】朴素贝叶斯