长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。
针对该问题:
- 重采样 ? 过采样增加了来自小类别的重复样本,可能导致模型过拟合。为解决这个问题,可以从相邻的样本中插入新的样本,或者对辅类合成新的样本。然而,由于新样本中的噪声,模型仍然容易出错。(简单的数据扩增会引入噪声)
- 每个Batch对不同类样本设置选取比例,保证在一个Batch里数据相对均衡。
2023-10-24 15:40:46
长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。
针对该问题:
下一篇:JZ65 矩阵中的路径