Spark讀取文件如何區分HDFS文件和本地文件

在Hadoop集羣上配置的Spark如果直接讀取文件默認的是讀取HDFS上的文件,那麼如果想要讀取本地的文件就不能直接寫還需要說明如下:

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 構建SparkSession實例對象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 獲取SparkContext實例對象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 獲取SparkContext實例對象
    sc = CreateSparkContext()
    # 讀取本地數據到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那麼如果不加file://那麼讀取的就是hdfs上的文件。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章