论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)

0. Abstract

提出了与具体应用和网络结构无关的两阶段的loss矫正,并说明如何估计NTM,提出了端到端的框架,用实验证明了框架的鲁棒性。

1. Introduction

将目前的LNL(label noise learning,标签噪声学习)分为两部分:专为问题设计的架构(没有理论框架,需要干净数据辅助),理论研究(但是通常需要噪声率,很难事先可知),本文针对loss,对NN的loss进行校正,将噪声估计和loss校正结合,实现标签噪声下的网络的学习。
Contribution:

  1. 提出了前后向校正
  2. 与结构和应用领域无关
  3. 可用于多类
  4. 全ReLU的网络的Hessian矩阵独立于噪声。
    且在MNIST, CIFAR-10, CIFAR-100,IMDB上测试了算法的有效性;前向矫正会更好一些(可能是从计算量角度出发的,后向矫正需要计算噪声传输矩阵(NTM)的逆);估计噪声率是瓶颈问题。

2. Related work

从4各方面展开:噪声鲁棒性,代理损失,(标签)噪声率估计,带有标签噪声的深度学习。此部分略过。本文受 [28,39] 的启发。
[39](线性层):将NTM estiamtion和loss correction同时进行,本文分别进行。
[28](噪声修正的loss):没有人将噪声修正的loss应用到NN上,本文进行了尝试(主要是针对有限样本训练的网络,因为loss修正对于深层的大容量网络可能不是必须的,因为网络有容量裕量记忆效应提到过[1])

3. Preliminaries

进行符号说明,LNL和NN训练过程的数学抽象。

4. Label noise and loss robustness

本文关注非对称噪声。

1. 后向校正

  1. 参考文献有[28,Theorem 1], [40, Theorem 3.2]
    定理1:
    校正之后的loss的期望和干净标签loss的期望相等
    论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
    证明看不懂。

2. 前向校正

  1. 定理2:
    参考文献
    [33] Section 4

论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
这个看不懂
关键是这个 ψ \psi ψ看不懂是什么,前向矫正就看不懂了。
前向校正不需要求逆,链接函数是关键。

5. 整体算法

两个假设:
(1)论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
完美样本,意思我理解是 p ( x ˉ j ) = 1 p(\bar{x}^j)=1 p(xˉj)=1,换言之就是clean样本。
(2)论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
建立在(1)的基础上,如下式所示:
论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
当完美样本 x ˉ i \bar{x}^i xˉi找到时, x ˉ i \bar{x}^i xˉi的存在本身就代表 y = e i y=e^i y=ei,所以(2)就存在。

在实际操作时, T T T可以事先给定,也可以通过网络自己学习,从数据中学习依靠上面两个假设,改写为下面两个公式:
论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
用算法1
论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
思想从噪声标签训练的网络的softmax中取最大的作为完美样本,取其对于其它各个类的概率作为 T ^ i j \hat T_{ij} T^ij​(感觉这样做不太靠谱啊…)

结果上看不太好,等明天再看看[33]等参考文献吧。
论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)


Reference for this blog
[1] Arpit, Devansh et al. “A Closer Look at Memorization in Deep Networks.” ArXiv abs/1706.05394
(2017): n. pag.
[2]

上一篇:Hive环境搭建


下一篇:数据预处理方法总结