原创 我的友情鏈接
51CTO博客開發
原创 Spark CheckPoint徹底解密(41)
一、Checkpoint到底是什麼?1, Spark在生產環境下經常會面臨Tranformations的RDD非常多(例如一個Job中包含1萬個RDD)或者具體Tranformation產生的RDD本身計算特別複雜和耗時(例如計算時常超過1
原创 我的友情鏈接
51CTO博客開發
原创 Spark Broadcast運行機制解密(42)
一、Broadcast徹底解密 1、Broadcast就是將數據從一個節點發送到其他節點。 2、Broadcast是分佈式的共享數據,默認情況下只要程序運行Broadcast變量就會存在,因爲Broadcast底層是由Block
原创 Spark Shuffle內幕解密(24)
一、到底什麼是Shuffle? Shuffle中文翻譯爲“洗牌”,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個 計算節點上進行計算。 二、Shuffle可能面臨的問題?1, 數據量非常大;
原创 從物理執行角度透視Spark Job(23)
一、再次思考pipeline 即使採用pipeline的方式,函數f對依賴的RDD中的數據集合的操作也會有兩種方式: 1, f(record),f作用於集合的每一條記錄,每次只作用於一條記錄; 2, f(reco
原创 spark內核架構解密(13)
本期主要介紹下spark的內核架構。spark的應用程序總體來說,主要包括兩部分,一部分是Driver,其包括了SparkConf和SparkContext,另一部分就是Executor,運行具體的業務邏輯。 應用程序的提交有兩種方式,