Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换（五）

2023-03-17 15:41:28

　　不多说，直接上干货！

Weka介绍：

　　Weka是一个用Java编写的数据挖掘工具，能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件，还提供了src代码，使用者可以修改源代码，进行二次开发。但是，由于其使用了Java虚拟机，导致其不适合处理大型数据，运行缓慢。处理超过一定大小数据，还会溢出heap size，使程序崩溃。但作为初学者，很适合通过处理一些小型数据集，以直观地了解各种数据挖掘方法。它还自带一些典型的数据集，可以直接使用。在安装目录下的data子目录中。

　　Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件，但与传统CSV文件不同，Weka能识别的CSV文件要求第一行给各列的定义。因为CSV文件比较容易获得，excel表格文件可以直接另存为csv文件。推荐使用csv文件。

　　以著名数据挖掘数据集鸢尾花为例，该数据集对应的iris.csv文件应如下所示：

sepal-length,sepal-width,petal-length,petal-width,class

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

1、使用Weka工具，将ARFF文件转换成CSV文件