在Hadoop集羣上配置的Spark如果直接讀取文件默認的是讀取HDFS上的文件,那麼如果想要讀取本地的文件就不能直接寫還需要說明如下:
from pyspark.sql import SparkSession
def CreateSparkContext():
# 構建SparkSession實例對象
spark = SparkSession.builder \
.appName("SparkSessionExample") \
.master("local") \
.getOrCreate()
# 獲取SparkContext實例對象
sc = spark.sparkContext
return sc
if __name__ == "__main__":
# 獲取SparkContext實例對象
sc = CreateSparkContext()
# 讀取本地數據到RDD
raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")
那麼如果不加file://那麼讀取的就是hdfs上的文件。