Spark讀取文件如何區分HDFS文件和本地文件

原創

2019-06-24 02:14

在Hadoop集羣上配置的Spark如果直接讀取文件默認的是讀取HDFS上的文件，那麼如果想要讀取本地的文件就不能直接寫還需要說明如下：

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 構建SparkSession實例對象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 獲取SparkContext實例對象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 獲取SparkContext實例對象
    sc = CreateSparkContext()
    # 讀取本地數據到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那麼如果不加file://那麼讀取的就是hdfs上的文件。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

windows下使用maven編譯spark源碼

1.環境 jdk1.8 scala2.11.8 spark2.11 maven4.0 2.github客戶端官方給出的命令是在Linux上的 ./build/mvn -DskipTests clean package

2020-06-23 20:54:59

windows配置spark運行環境

1.java配置使用jdk1.8 配置略 2.下載、配置scala 官網下載scala，解壓放到自己的目錄下。目錄不要有空格把Scala的bin文件夾所在目錄配置到環境變量的path中（過程和jdk配置一樣）測試是有完成

2020-06-23 20:54:59

Scala關鍵字class和object

面向對象和Java一樣Scala面向對象類是對象的模板、抽象。定義一個類後，可以使用關鍵字new來創建一個類的對象。通過對象可以使用定義的類的所有功能。 class class表示類和Java不同，class不能運行

2020-06-23 13:53:05

spark程序提交集羣和監控

運行模式 Spark 應用在集羣上作爲獨立的進程組來運行，在 main 程序中通過 SparkContext 來協調（稱之爲 driver 程序） 1.每個應用獲取到它自己的 Executor 進程，它們會保持在整個應用的生命週

2020-06-23 13:53:03

整理一些Spark數據傾斜解決的思路

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-07-02 07:35:58

Spark學習筆記（RDD編程基礎）

1. RDD創建　 spark core 從文件讀取　 >>> lines = sc.textFile("file:///user/data_path") # local Scala> val lines = sc.textFile("

2020-06-26 05:05:56

Spark學習筆記（基本概念與環境部署）

21/08/2019 10.Spark概述 spark速度快的原因 1.內存計算 2.有向無環圖通用性很強：以前需要1.SQL查詢：spark SQL實現 2.流式計算：spark stremming 實

2020-06-26 05:05:56

spark RDD的5個重要內部屬性

RDDs 接口的五個屬性下表總結了 RDDs 的五個屬性：上述屬性可以概括爲幾個方面：一組分區，表示數據集包含的分片；一組依賴關係，指向其父 RDD；一個函數，基於父 RDD 進行計算；以及劃分策略和數據位置相關的元數據。

2020-06-23 09:23:51

IDEA中直接提交Spark任務

記錄下如何在Widows下的IDEA中直接提交Spark on yarn任務。由於項目使用的是Spring Boot，這裏提交任務指的是在IDEA中啓動Spring Boot工程，然後發送一個Rest請求，觸發Spark on y

淡定一生2333

2020-06-22 23:04:51

Spark數據傾斜如何解決

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-06-22 21:18:39

(七)Spark源碼理解之TaskScheduler----part6

恩。。。。由於最近這段時間都在實習以及找工作，因此就將博客給落下了，現在繼續將spark的部分"搬上"。。PS:雖然我自己也忘得差不多了。。 4.Executor Executor類完成任務的裝載，任務的運行等功能，它有個變量爲Exec

2020-06-22 07:57:58

(七)Spark源碼理解之TaskScheduler----part4

resourceOffers()：該方法是TaskSchedulerImpl的核心所在，實現將任務指定給對應的從節點中的executor，其主要思路可以概述爲：首先將獲取的每個executor的資源，組成組成WorkerOffer序列，

2020-06-22 07:57:58

SparkCore學習筆記（一）

2017/1/10 8:27 Spark架構原理 **概念詞彙：**Application，Application Jar，Driver program（驅動程序）、Cluster Manager（管理集羣資源的外部服務）、Dep

2020-06-22 07:19:00

spark中查詢PG數據庫老是報無法找到該列

最近學習spark的過程中，發現在使用spark中的sql語句查詢數據的時候老是報錯： 16/11/30 19:38:42 ERROR Executor: Exception in task 0.0 in stage 2.0 (

左左左左想

2020-06-16 07:09:10

Windows報Failed to locate the winutils binary in the hadoop binary path，java.io.IOException:

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ http://blog.csdn.net/xiaoduan_/article/details/79476815 Windows平臺上運行hadoop與spa

2020-06-16 06:40:21

24小時熱門文章

最新文章

最新評論文章