目录
网络安全分析
本文将先为大家介绍一些常用于网络安全分析领域的数据集。
数据集
在网络安全领域有许多公开数据集可供使用,可以下载收集整理,按照业务场景的需要进行清洗处理,得到基础数据集。常用的应用于网络安全分析领域的公开数据集包括但不限于以下数据集:
KDD Cup 1999
网络安全领域经典数据集。这是用于第三届国际知识发现和数据挖掘工具竞赛的数据集,该竞赛与KDD-99第五届知识发现和数据挖掘国际会议同时举行。竞争任务是构建一个网络入侵检测器,能够区分“坏”连接(称为入侵或攻击)和“好”、正常连接的预测模型。该数据库包含一组待审计的标准数据,其中包括在军事网络环境中模拟的各种入侵。
攻击类型:back dos、buffer_overflow u2r、ftp_write r2l、guess_passwd r2l、imap r2l、ipsweep probe、land dos、loadmodule u2r、multihop r2l、neptune dos、nmap probe、perl u2r、phf r2l、pod dos、portsweep probe、rootkit u2r、satan probe、smurf dos、spy r2l、teardrop dos、warezclient r2l、warezmaster r2l。
NSL-KDD
NSL-KDD是一个基于KDD Cup 1999数据集,且用于解决KDD-99数据集中一些固有问题(例如数据冗余、重复)的数据集。尽管这个KDD数据集的新版本仍然存在一些问题,且缺乏基于网络的IDS的公共数据集,可能不是现有真实网络的完美代表。但它仍然可以作为一个有效的基准数据集来帮助研究人员比较不同的入侵检测方法。
下载地址
HTTP DATASET CSIC 2010
HTTP DATASET CSIC 2010是由CSIC(西班牙国家研究委员会)的“信息安全研究所”开发的。包含自动生成的数千个web请求。它可用于测试web攻击防护系统。HTTP DATASET CSIC 2010包含了针对电子商务web应用程序生成的流量。在这个web应用程序中,用户可以使用购物车购买商品,并通过提供一些个人信息进行注册。由于它是西班牙语的web应用程序,因此数据集包含一些拉丁字符。数据集是自动生成的,包含36000个正常请求和25000多个异常请求。
HTTP请求被标记为正常或异常,数据集包含SQL注入、缓冲区溢出、信息收集、文件泄漏、CRLF注入、XSS、服务器端包含、参数篡改等攻击。
下载地址
ADFA IDS Datasets
ADFA IDS Datasets 是澳大利亚国防学院发布的数据集。该数据集包括Linux和Windows系统;它们是为基于系统调用的HID进行评估而设计的。
下载地址
honeynet
该数据集包含赛博实验室从2019年5月至2020年2月在蜜网实验中收集的所有数据。这个实验是基于Cowrie 蜜罐(项目见链接)的,部署大约50个节点,分布在欧盟和美国的不同大学以及公司。由于扩展工作和目标节点的可用性,节点数在整个实验过程中都有所不同。数据集中的所有公共IP地址都使用假名,以保护目标节点的身份。
数据集中的每个文件都是从该日期午夜开始的所有连接的每日汇编,用“攻击会话”进行分组。此类会话中的每个事件都包括蜜罐软件报告的所有数据。
下载地址
CSE-CIC-IDS2018 on AWS
CSE-CIC-IDS2018 on AWS数据集时加拿大通信安全机构(CSE)和加拿大网络安全研究所(CIC)的合作项目开发的数据集。
该项目设计了一种系统化的方法来生成数据集以分析、测试和评估入侵检测系统,将重点放在基于网络的异常检测器。通过创建用户配置文件(其中包含网络上看到的事件和行为的抽象表示),生成用于入侵检测的各种综合基准数据集。这些基准数据集将被组合起来,以生成一组不同的数据集,每个数据集都具有一组独特的功能,涵盖评估领域的一部分。
最终的数据集包括七种不同的攻击场景:暴力、心血、僵尸网络、DoS、DDoS、Web攻击和从内部渗透网络。攻击基础设施包括50台机器,受害者组织有5个部门,包括420台机器和30台服务器。数据集包括捕获每台机器的网络流量和系统日志,以及使用CICFlower-V3从捕获的流量中提取的80个特征。
后续还会更新