试图解析固定宽度的文本文件.
我的文本文件如下所示,我需要一个行id,日期,字符串和整数:
00101292017you1234
00201302017 me5678
我可以使用sc.textFile(path)将文本文件读取到RDD.
我可以使用解析的RDD和模式createDataFrame.
这是在这两个步骤之间的解析.
解决方法:
Spark的substr功能可以处理固定宽度的列,例如:
df = spark.read.text("/tmp/sample.txt")
df.select(
df.value.substr(1,3).alias('id'),
df.value.substr(4,8).alias('date'),
df.value.substr(12,3).alias('string'),
df.value.substr(15,4).cast('integer').alias('integer')
).show()
将导致:
+---+--------+------+-------+
| id| date|string|integer|
+---+--------+------+-------+
|001|01292017| you| 1234|
|002|01302017| me| 5678|
+---+--------+------+-------+
拆分列后,您可以重新格式化并使用它们,就像在普通的火花数据帧中一样.