研究型论文_基于变分自编码器的不平衡样本异常流量检测

文章目录

基于变分自编码器的不平衡样本异常流量检测

论文摘要

随着机器学习技术的快速发展,越来越多的机器学习算法被用于攻击流量的检测与分析,然而攻击流量往往只占网络流量中极小的一部分,在训练机器学习模型时存在训练集正负样本不平衡的问题,从而影响模型训练效果。

针对不平衡样本问题,文中提出了一种基于变分自编码器的不平衡样本生成方法,其核心思想是在对少数样本进行扩充时,不是对全部进行扩充,而是分析这些少数样本,对其中最容易对机器学习产生混淆效果的少数边界样本进行扩充。

  1. 首先,利用 KNN 算法筛选出少数类样本中与多数类样本最近的样本;
  2. 其次,使用 DBSCAN 算法对 KNN 算法筛选出的部分样本进行聚类处理,生成一个或多个子簇;
  3. 然后,设计变分自编码网络模型,对 DBSCAN 算法区分出的一个或多个子簇中的少数类样本进行学习扩充,并将扩充后的样本加入原有样本中用于构建新的训练集;
  4. 最后,利用新构建的训练集来训练决策树分类器,从而实现异常流量的检测。

选择召回率和F1分数作为评价指标,分别以原始样本、SMOTE生成样本、SMOTE改进方法生成样本和文中所提方法生成样本为训练集进行对比实验.实验结果表明,在4种异常类型中,采用所提算法构造训练集训练的决策树分类器在召回率和F1分数上都有提升,F1分数相比原始样本及SMOTE方法最高提升了20.9%.

论文解决的问题

利用变分自编码器来生成数据,解决了数据集不平衡的问题。

1.KNN少量样本选择算法

总的来说算法流程就是:正常样本集合为 S n S_n Sn​。找到一个类别,它的样本数量比较少,对于该样本集合 S a S_a Sa​中的每个样本计算该样本到 S n + S a S_n+S_a Sn​+Sa​这个集合中各个样本的距离,选出前K个距离最近的样本,统计这K个样本中的正常样本和异常样本的数目,如果正常样本数目大于异常样本数目(说明该样本不易被机器学习区别开),就把他加入集合D(用来存储需要被生成的样本)中。

研究型论文_基于变分自编码器的不平衡样本异常流量检测

2.DBSCAN类内聚类算法

在获得了集合D之后,我们需要对这个集合进行DBSCAN聚类,用于之后的变分自编码器的生成。

为什么要对同一类别的样本进行聚类呢?因为即使是同一类型的样本也会有比较大的差异性,如果将这些未聚类的样本直接放入变分自编码器中用于训练生成样本的概率密度分布,那么利用这一概率密度分布模型生成的新样本将无法很好地拟合原始样本,更多的合成样本将分布在原始样本的边缘。

3.变分自编码器少量样本生成算法

模型结构:
研究型论文_基于变分自编码器的不平衡样本异常流量检测
设计了一个包含隐变量层在内的4层全连接神经网络。

总结

  1. DBSCAN
  2. 变分自编码器
上一篇:三维点云中DBSCAN的使用


下一篇:Abp Vnext 微服务