机器学习笔记(1-3章)

目录

第一章 基本概念

1.1 什么是模式识别

1 什么是模式识别

模式识别应用实例:CV(字符识别、交通标志、动作识别)、人机交互(语音识别)、医学、网络、金融、机器人、无人车……

2 模式识别基本概念

1)根据任务,模式识别可以划分为“分类”和“回归”两种形式

  • 分类
    • 输出量是离散的类别表达,即输出待识别模式所属的类别
    • 二类/多类分类
  • 回归
    • 输出量是连续的信号表达(回归值)
    • 输出量维度:单个/多个维度
    • 回归是分类的基础:离散的类别值是由回归值做判别决策得到的,先通过回归器得到回归值,根据回归值进行分类
      机器学习笔记(1-3章)

2)模式识别本质上是一种推理(inference)过程。根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
机器学习笔记(1-3章)

3)什么是模式
样本的一种抽象

1.2 模式识别数学表达

1 模式识别数学解释

1)模式识别可以看作一种函数映射f(x),将待识别模式x从输入空间映射到输出空间

  • f(x):
    • 模型,关于已有知识的表达
    • 形式:可解析表达的(可以用数学公式表达)、难以解析表达的
    • 输出:确定值、概率值
    • 不能解析表达的也是模型:深度网络基本很难用公式完整表达
  • 输入空间
    • 输入x是样本特征的集合
  • 输出空间
    • 二类分类下输出空间是一维

2)模型的概念

  • 模型:关于已有知识的一种表达方式,即函数f(x)
  • 模型的组成
    • 用于回归
      • 特征提取(feature extraction):从原始输入数据提取更有效的信息。
      • 回归器(regressor):将特征映射到回归值
      • 机器学习笔记(1-3章)
    • 用于分类
      • 机器学习笔记(1-3章)
  • 判别函数
    • 二类分类:sign
    • 多类分类:max
  • 决策边界
    • 用于分类
    • 线、面、超平面

3)特征与特征空间

  • 特征
    • 特征个数:不是越多越好,过多可能会过拟合
    • 特征向量:多个特征构成的(列)向量
    • 鲁棒性:针对不同的观测条件,仍能够有效表达类别之间的差异性

机器学习笔记(1-3章)

1.3 特征向量的相关性:识别模式之间是否相似

  • 特征向量点积
    • 代数定义
      机器学习笔记(1-3章)
      • 点积结果是一个标量表达
      • 点积具备对称性。
      • 点积是一个线性变换。
    • 几何定义
      机器学习笔记(1-3章)
      机器学习笔记(1-3章)
      • 点积可以表征两个特征向量的共线性,即方向上的相似程度
      • 点积为0,说明两个向量是正交的(orthogonal)
        机器学习笔记(1-3章)
  • 特征向量投影
    • 投影:向量x到y的投影:将向量x垂直投射到向量y方向上的长度(标量)。
      机器学习笔记(1-3章)
    • 投影的含义:向量x分解到向量y方向上的程度。能够分解的越多,说明两个向量方向上越相似。
      • 当θ= 0°时,完全等同
      • 当θ = 90°时,分解量为0
    • 向量投影不具备对称性。
    • 投影向量:机器学习笔记(1-3章)
  • 点积与投影的区别
    • 点积具有对称性(x·y=y·x),投影不具有对称性
    • 点积考虑了2个向量的模长,投影只考虑了一个向量的模长。
    • 他们的本质区别,是在计算向量差异性的时候,衡量的方式不同
    • 卷积与点积:卷积运算本质上就是在滤波器和输入数据的局部区域间做点积
  • 残差向量
    机器学习笔记(1-3章)
  • 欧式距离
    机器学习笔记(1-3章)

1.4 机器学习基本概念

1 机器学习流程概述

  • 训练样本
  • 模型的参数和结构
    机器学习笔记(1-3章)
    • 线性模型
      机器学习笔记(1-3章)
    • 非线性模型
      机器学习笔记(1-3章)
  • 样本量与模型参数量
    机器学习笔记(1-3章)
  • 目标函数
    • 机器学习算法为什么要设计目标函数?是因为参数可能没有准确的解。要通过最大化或最小化目标函数得到参数的近似解
    • 对于over-determined的情况,需要额外添加一个标准,通过优化该标准来确定一个近似解。该标准就叫目标函数(Objective function),也称作代价函数(cost function)或损失函数(loss function)
    • 目标函数以待学习的模型参数作为自变量、以训练样本作为给定量
    • 对于under-determined的情况,还需要在目标函数中加入能够体现对于参数解的约束条件,据此从无数个解中选出最优的一个解
  • 优化算法
    • 优化算法:最小化或最大化目标函数的技术。通过优化算法,最终得到模型参数{
上一篇:深度学习之数据划分-1


下一篇:机器学习进度(二)—— 特征工程