【AI】_00_基础番外篇

【一】P-R 曲线
  • 定义 ( Y轴 P:Precision 准确率,X轴 R:Recall 召回率 )
    【AI】_00_基础番外篇
  • F1-score =(2 * P * R)/(P + R)
  • 正负样本比例 影响大,当正负样本发生变化时,P-R曲线的形状容易发生剧烈变化,与 ROC 相反

【二】ROC 曲线
  • Y轴:真阳性率 =(真阳性的数量)/(真阳性的数量 + 伪阴性的数量)
    X轴:伪阳性率 =(伪阳性的数量)/(伪阳性的数量 + 真阴性的数量)
    【AI】_00_基础番外篇
  • AUC (Area Under Curve,曲线(ROC曲线)下的区域)Logloss 可以避免把预测概率转换成类别
  • 简单来说,AUC 就是从所有 1 样本中随机选取一个样本,从所有 0 样本中随机选取一个样本,然后根据分类器对这样两个随机样本进行预测,把 1 样本预测为 1的概率为 p1,把 0 样本预测为 1 的概率为 p0p1>p0 的概率就等于 AUC
  • AUC反应的是分类器 对样本的排序能力,如果完全随机对样本进行分类,AUC应接近 0.5,但此时模型无分辨能力

【三】防止过拟合

【AI】_00_基础番外篇

  • Decision Tree 剪枝
  1. Reduced-Error Pruning(REP,错误率降低剪枝)
     
    搞一个测试数据集 来纠正过拟合。
    对于完全决策树中的每一个非叶子节点的子树,尝试着把它 替换 成一个叶子节点,该叶子节点的类别用子树所覆盖训练样本中存在最多的那个类来代替,这样就产生了一个简化决策树,然后 比较 这两个决策树在测试数据集中的表现。
    如果简化决策树在测试数据集中的 错误 比较少,那么该子树就可以替换成叶子节点。
    该算法以 bottom-up 的方式遍历所有的子树,直至没有任何子树可以替换使得测试数据集的表现得以改进时,算法就可以终止。
     
  2. Pessimistic Error Pruning(PEP,悲观剪枝)- C4.5 算法中提出
     
    把一颗子树(具有多个叶子节点)用一个叶子节点来替代(我研究了很多文章貌似就是用子树的 来代替)的话,比起REP剪枝法,它不需要一个单独的测试数据集。
  • SVM松弛变量 - 个别点线性不可分
    【AI】_00_基础番外篇
    【AI】_00_基础番外篇
    引入松弛变量 ξ 后的限制条件
    【AI】_00_基础番外篇
上一篇:分类器的评价指标-ROC&AUC


下一篇:$2020.11.21$ 模拟赛