原创 我的友情鏈接

51CTO博客開發

原创 Spark CheckPoint徹底解密(41)

一、Checkpoint到底是什麼?1, Spark在生產環境下經常會面臨Tranformations的RDD非常多(例如一個Job中包含1萬個RDD)或者具體Tranformation產生的RDD本身計算特別複雜和耗時(例如計算時常超過1

原创 我的友情鏈接

51CTO博客開發

原创 Spark Broadcast運行機制解密(42)

 一、Broadcast徹底解密    1、Broadcast就是將數據從一個節點發送到其他節點。   2、Broadcast是分佈式的共享數據,默認情況下只要程序運行Broadcast變量就會存在,因爲Broadcast底層是由Block

原创 Spark Shuffle內幕解密(24)

  一、到底什麼是Shuffle?     Shuffle中文翻譯爲“洗牌”,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個     計算節點上進行計算。   二、Shuffle可能面臨的問題?1, 數據量非常大;

原创 從物理執行角度透視Spark Job(23)

  一、再次思考pipeline     即使採用pipeline的方式,函數f對依賴的RDD中的數據集合的操作也會有兩種方式:     1, f(record),f作用於集合的每一條記錄,每次只作用於一條記錄;     2, f(reco

原创 spark內核架構解密(13)

 本期主要介紹下spark的內核架構。spark的應用程序總體來說,主要包括兩部分,一部分是Driver,其包括了SparkConf和SparkContext,另一部分就是Executor,運行具體的業務邏輯。 應用程序的提交有兩種方式,