網上找了很多資料,例如 textFile 和wholeTextFiles方法。但這兩個都是都是讀取txt文件,然後生成RDD的格式。
如果再從 RDD 轉爲 Pyspark 的 DataFrame格式,那麼就多此一舉了。
終於找到了直接讀取 txt 文件並生成 DataFrame的方法,那就是 spark 的 read.txt 方法。
實現代碼如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("DataFrame").getOrCreate()
df = spark.read.text("C:\\yourpath\\yourfile.txt")
最終生成結果(Pyspark DataFrame格式):
+------------+
| value|
+------------+
|Date20191009|
| 1|
| 2|
| 3|
|Date20191010|
| 1|
| 4|
| 5|
+------------+