数据清洗笔记
CSV文件的抽取
一.打开Kettle工具,创建转换csv_extract
二.配置“CSV文件输入”控件
1.双击“CSV文件输入”控件进入界面,单击下图中“浏览”按钮,选择要抽取的文件csv_extract.csv。
2.单击下图中“获取字段”按钮自动检索CSV文件,单击“浏览”按钮,查看文件csv_extract.csv中的数据是否抽取到CSV文件输入流中。单击“关闭”按钮,完成“CSV文件输入”控件配置。
三.配置“表输出”控件
1.双击“表输入”控件进入界面,单击“新建”按钮,配置数据库连接,完成后单击“确认”按钮。
2.单击“浏览”按钮,选择输出的目标表csv_extract.csv,勾选“指定数据库字段”复选框,用于将数据表csv的字段与CSV文件中的字段进行匹配。
3.单击“输入字段映射”按钮,弹出“映射匹配”对话框,依次选中“源字段”中的字段和“目标字段”中的对应字段进行映射。完成后单击“确定”按钮完成配置。
四.运行转换csv_extract
JOSN文件的数据抽取
一.打开Kettle工具,创建转换json_extract
二.配置JOSN input控件
1.双击JOSN input控件进入“JOSN输入”界面。单击“浏览”按钮,选择要抽取的JOSN文件josn_extract.josn。单击“增加”按钮,将所选择的文件添加到“选中的文件”处。
2.单击“字段”界面,添加要抽取的数据字段,单击“确定”按钮,完成JOSN input控件的配置。
3.双击JOSN input2控件,进入“JOSN输入”界面,勾选“源定义在一个字段里?”复选框,在“从字段获取数据源”后的下拉列表中选择字段名data。
4.单击“字段”选项卡进入界面,添加从字段data中抽取的field和value字段,单击“确定”完成JOSN input2控件的配置。
三.配置“表输出”控件
1.双击“表输出”控件进入界面,单击“新建”按钮,配置数据库连接,完成后单击“确认”按钮。
2.单击“浏览”按钮,选择输出的目标表josn,勾选“指定数据库字段”复选框,用于将数据表josn的字段与JOSN文件中的字段进行匹配。
3.单击“输入字段映射”按钮,弹出“映射匹配”对话框,依次选中“源字段”中的字段和“目标字段”中的对应字段进行映射。完成后单击“确定”按钮完成配置。
四.运行转换josn_extract