python – pyspark解析固定宽度的文本文件

试图解析固定宽度的文本文件.

我的文本文件如下所示,我需要一个行id,日期,字符串和整数:

00101292017you1234
00201302017 me5678

我可以使用sc.textFile(path)将文本文件读取到RDD.
我可以使用解析的RDD和模式createDataFrame.
这是在这两个步骤之间的解析.

解决方法:

Spark的substr功能可以处理固定宽度的列,例如:

df = spark.read.text("/tmp/sample.txt")
df.select(
    df.value.substr(1,3).alias('id'),
    df.value.substr(4,8).alias('date'),
    df.value.substr(12,3).alias('string'),
    df.value.substr(15,4).cast('integer').alias('integer')
).show()

将导致:

+---+--------+------+-------+
| id|    date|string|integer|
+---+--------+------+-------+
|001|01292017|   you|   1234|
|002|01302017|    me|   5678|
+---+--------+------+-------+

拆分列后,您可以重新格式化并使用它们,就像在普通的火花数据帧中一样.

上一篇:0485-如何在代码中指定PySpark的Python运行环境


下一篇:python – 将数据从Dataframe传递到现有ML VectorIndexerModel时出错