第一章 绪论
基本术语
机器学习定义: 假设用P来评估计算机程序在某一个任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
属性: 反映事件或对象在某方向的表现或性质,也称为特征。如西瓜的“色泽”、“敲声”等。
属性值: 顾名思义,属性的取值就称为属性值,如“青绿”、“乌黑”等。
属性空间: 属性张成的空间称为属性空间,也称为样本空间或者“输入空间”。如把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则他们张成一个描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中每个点都对应一个坐标向量,所以我们也在一个实例称为一个“特征向量”。
数据集: 一组记录的集合称为数据集。
样本: 其中每一条记录是关于一个事件或对象的描述,称为示例或样本,例如:(色泽=青绿;根蒂=稍蜷;敲声=沉闷)
学习: 从数据中学得模型的过程称为学习,这个过程一般通过执行某个学习算法来完成,也称为训练。
训练数据: 训练过程中使用的数据称为训练数据。
训练样本: 训练过程的每个样本称为训练样本。
训练集: 由训练样本组成的集合称为训练集。
假设: 学得模型对应了关于数据的某种潜在的规律,即hypothesis,这个英文名我们会在后续文章中继续用到。
学习器: 其实学习的过程是为了找出或者逼近真相,所以我们有时候也把模型称为“学习器”,可看作学习算法在给定数据和参数空间上的实例化。
标记(label): 想要学得一个模型,仅有已有的示例数据是不够的。要建立一个关于预测的模型,需要获得训练样本的“结果”信息。例如“((色泽=青绿;根蒂=稍蜷;敲声=浊响),好瓜)”。这里关于示例结果的信息“好瓜”,就称为标记。
分类: 如果我们预测的值是离散值,如“好瓜”、“坏瓜”,这一类学习任务就称为分类。
回归: 如果我们预测的值是连续值,例如西瓜的成熟度0.78,0.37,则我们称此类学习任务为回归。
监督学习(supervised learning): 训练的数据既有特征又有标签(,通过训练,典型代表是分类和回归。
无监督学习(unsupervised learning): 训练的数据没有标签存在,通过数据之间的内在联系和相似性将他们分成若干类。典型代表为聚类。
泛化能力: 我们学的模型可以适用于新样本的能力称为泛化能力,具有强泛化能力的模型可以很好的适用于整个样本空间。
独立同分布: 假设样本空间中全体样本服从一个未知的“分布”D,我们获得的每个样本都是独地从这个分布上采样获得的,即“独立同分布”。
奥卡姆剃刀
奥卡姆剃刀为我们提供了一种常用的,自然科学研究种最基本的法则,可以用来引导算法确立“正确”的偏好。即“若有多个假设与观察一致,则选择最简单的那个”。
根据“奥卡姆剃刀”法则,对于如下两个算法A和B,我们根据平滑曲线的某种“描述简单性”希望算法A的性能比算法B更好。左图的结果显示:与B相比,A与训练集外的样本更一致,换言之,A的泛化能力比B强。但是右图的结果显示算法B的性能更好,这种情况也有可能出现。