pyspark topandas的妙用

2024-04-13 09:06:33

topandas

笔者这几天在写hive查数，需要把数据拉到本地，无奈文本数据太长，excel存储受到了限制，csv分隔符乱的一批，总之我乱的一批。

此时直接跳过直接下载的格式自己写，反倒没有了这么多的事情，因此，笔者发现了从分布式爬取到本地的topandas()拯救了笔者的凌乱~

直接从数据库中取数，write.csv,这种方式存在的问题是找不到文件的路径，需要先做topandas转。