【论文】解决长尾数据、正负样本不均衡问题

1 数据增强

 采用数据增强,扩充少样本、正样本类别的数量

缺点:实验效果并不好,对少样本的数据增强在某种程度上加了过量噪声。

2 Focal Loss for Dense Object Detection(ICCV2017)

论文:https://arxiv.org/pdf/1708.02002.pdf

ICCV2017 RBG和Kaiming大神的新作

类别不均衡会带来什么后果呢?引用原文讲的两个后果:

(1) training is inefficient as most locations are easy negatives that contribute no useful learning signal;

(2) en masse, the easy negatives can overwhelm training and lead to degenerate models.

意思是负样本数量太大,占总的loss的大部分,而且多是容易分类的,因此使得模型的优化方向并不是我们所希望的那样

针对类别不均衡问题,作者提出一种新的损失函数:focal loss,这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。

介绍focal loss之前,先来看看交叉熵损失,这里以二分类为例,原来的分类loss是各个训练样

上一篇:寒假特训——I - Fair


下一篇:多分类任务中不同隐藏单元个数对实验结果的影响