【学习笔记】机器学习(西瓜书)- 周志华

第一章 绪论

1.1 什么是机器学习

  1. 通过计算的手段,从“数据”产生“模型”的“算法”

  2. 我们将新“数据”提供给“算法”,能产生关于这些“数据”的“模型”,“模型”能给我们提供相应的判断

  3. tips:本书模型指机器学习的结果

1.2 基本术语

  1. 数据集(data set):一组样本(sample)的集合

  2. 样本(sample):样本是针对实际个体的数据描述

  3. 属性(attribute):反映样本某方面的特点的事项分类

  4. 属性值(attribute value):属性的值

  5. 样本空间(sample space)/属性空间(attribute space):属性张成的空间

    例如把色泽根蒂敲声三个属性作为三个坐标轴,可以张成一个用于描述西瓜的三维空间,每个西瓜对应空间里的一个点,点就是坐标向量,所以我们也可以把样本称为“特征向量”(feature vector)

  6. 数据集的公式含义
    令\(D=\{x_1,x_2...,x_m\}\)表示包含m个样本的数据集,每个样本有\(d\)个属性,则每个样本\(x_i=\{x_{i1},x-{i2},...,x_{id}\}\)是d维样本空间\(\chi\)的一个向量,\(x_i\in\chi\),\(X_{ij}\)是\(x_i\)在第j个属性上的取值,d是样本\(x_i\)的维数

  7. 训练与假设(hypothesis)
    通过学习(leaning) 训练(training)数据得到模型,过程中使用的数据称为训练数据,每个样本为训练样本,训练样本组成训练集学得的模型对应关于数据的某种规律,被称为假设

  8. 预测与样例
    通过已有的信息,判断一个瓜的好坏就是预测,这里瓜的好或坏就是标记(label)样本标记组合在一起就是样例
    用\((x_{ij},y_i)\)表示第i个样例,其中\(y_i\in \mathcal{Y}\)是样本\(x_i\)的标记,\(\mathcal{Y}\)是所有标记的集合,称为标记空间输出空间

  9. 分类与预测

上一篇:js中字符串转换为日期和比较大小


下一篇:error: only position independent executables (PIE) are supported