简介:
本文介绍了一个数据增强技术,名为SamplePairing。SamplePairing的实现方式,只需将两张随机选取的图像混合后再送入分类器进行训练即可。这种技术通过避免过拟合,特别是当可用于训练的样本数量有限时,分类精度得到了显著的提高。所以该技术对于数量有限的任务很有价值,故可以参考用于医学影像
方法概述:
本文从训练集中随机选取的两张图像合成一张新的图像,为了合成一张新的图像,采取对两张图像的每个像素进行平均。
具体方法:
训练图像 A 是随机的,从训练集随机抓取图像 B,(A 和 B 都是 ILSVRC2012 的图像,分辨率 256x256)两者都经过基本的数据增强(随机翻转,萃取),分辨率变为 224x224,对两幅图像求平均值,但是 label采用的是 A,之后送入训练模型。
训练过程:
先采用普通数据增强训练,完成一定轮数之后加入samplepairing,同时间歇性调用该增强,直到loss比较稳定后停止samplepairing的使用。实验来看效果肯定没的说,确实可以,有意思的是这个增强和其他方法一样,会造成loss很大的波动,但是整体趋势是下降的,同时在最终fine-tune会有稳定的收敛loss,其他方法如果最后取消augmentation效果应该也类似。
同期类似的论文 mixup:BEYOND EMPIRICAL RISK MINIMIZATION