Pyspark 讀取 txt 文件並生成 DataFrame

網上找了很多資料,例如 textFile 和wholeTextFiles方法。但這兩個都是都是讀取txt文件,然後生成RDD的格式。

如果再從 RDD 轉爲 Pyspark 的 DataFrame格式,那麼就多此一舉了。


終於找到了直接讀取 txt 文件並生成 DataFrame的方法,那就是 spark 的 read.txt 方法。

實現代碼如下

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrame").getOrCreate()

df = spark.read.text("C:\\yourpath\\yourfile.txt")

最終生成結果(Pyspark DataFrame格式):

+------------+
|       value|
+------------+
|Date20191009|
|           1|
|           2|
|           3|
|Date20191010|
|           1|
|           4|
|           5|
+------------+

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章