Spark深入淺出之從源碼看Spark佈局

原創

全宇宙的骄傲

2020-05-23 19:16

RDD基於工作集的應用抽象（動態感知，容錯，負載均衡，彈性）

1、RDD（Resilient distributed Dataset）彈性體現

自動的進行內存和磁盤數據存儲的切換
基於lineage的高效容錯（第n個節點出錯，會從n-1個節點恢復，血統容錯）
Task如果失敗會自動進行特定次數的重試（默認4次）
Stage如果失敗會自動進行特定次數的重試（可以只運行計算失敗的階段），只計算失敗的數據分片
Checkpoint和persist
DAG,Task和資源管理無關
數據分片的高度彈性（eg:如果有100萬數據碎片要合成1萬個。要用coalesce(numpartitions: Int,shuffle: Boolean = false) .不能用repartition。Because : repartition調用了coalesce 但是shuffle默認爲true.這樣的話就會造成shuffle開銷很大，且行且珍惜~）

2、常用容錯方式

數據檢查點以及記錄數據的更新

3、RDD通過記錄數據更新的方式爲何很高效

RDD是不可變的且加lazy.構成鏈條。從後往前函數展開（函數開始會new mappartitionsRDD。第一個構造參數傳的是父RDD）。如果第101個分片失敗了。會從第100個分片重新開始計算
RDD的寫操作是粗粒度的但是RDD的讀操作既可以是粗粒度的也可以是細粒度的。爲了效率。

4、RDD缺陷

不支持細粒度的更新操作以及增量迭代計算。例如網絡爬蟲。

5、RDD創建的幾個方式

第一個RDD：代表了spark應用程序輸入數據的來源。通過Transformation來對RDD進行各種算子的轉換實現算法

使用程序中的集合創建RDD

意義：測試

使用本地文件系統創建RDD

意義：測試大量數據的文件

使用HDFS創建RDD

意義：生產環境最常用的RDD

基於DB創建RDD
基於NOSQL創建RDD 例如 HBase
基於啥s3創建RDD
基於數據流創建RDD

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark排序算法之二次排序

二次排序具體實現步驟：按照Ordered和serrializable接口實現自定義排序key 將要進行二次排序的文件假造進來生成<key,value>類型的RDD 使用sortbykey基於自定義的key進行二次排序去除掉排序的key

2020-07-07 21:46:09

Spark聚合操作combineByKey()

park中對鍵值對RDD(pairRDD)基於鍵的聚合函數中，都是通過combineByKey()實現的。它可以讓用戶返回與輸入數據類型不同的返回值（可以自己配置返回的參數，返回的類型）首先理解：combineByKey是一個聚合

2020-07-07 21:46:09

Spark深入淺出之剖析 Spark Shuffle 原理

Shuffle 一般被翻譯爲數據混洗，是類 MapReduce 分佈式計算框架獨有的機制，也是這類分佈式計算框架最重要的執行機制。本課時主要從兩個層面講解 Shuffle，主要分爲：邏輯層面、物理層面。邏輯層面主要從 RDD 的血統

2020-07-07 21:46:08

Scala高階之多線程

Runnable/Callable 入門級區別：Runnable無返回值，Callable線程執行完有返回值。深入源碼後面會詳解。 Runnable示例 import java.util.concurrent.{Executors,

2020-07-07 21:46:08

"Spark 1.6 + Alluxio 1.2 + OFF_HEAP" 的配置

我們知道，Spark + Tachyon 可以解決 Spark 在使用過程中的一些問題，可以總結爲數據共享和 GC 等問題。但是呢，Tachyon 在今年已經更名爲 Alluxio，並且其訪問schema也從tachyon

2020-06-24 03:36:12

Spark深入淺出之常用Transformation算子功能概述

map(func)：返回一個新的RDD，該RDD由每一個輸入元素經過func函數轉換後組成。 mapPartitions(func)：類似於map,但獨立地在RDD的每一個分片上運行，因此在類型爲T的RD上運行時，func的函數類型必須是

全宇宙的骄傲

2020-06-07 18:21:06

Spark深入淺出之Actor編程

package actor import akka.actor.{Actor, ActorSystem, Props} /** * 當繼承actor後，就是一個Actor,核心方法receive 方法重寫 */ class S

全宇宙的骄傲

2020-06-07 18:21:06

Scala加載外部配置文件速成教學，實時離線都可用。

全宇宙的骄傲

2020-05-25 15:01:50

Scala深入淺出之對象層級關係示意圖

全宇宙的骄傲

2020-05-25 15:01:50

Scala高階編程之協變、逆變和不變

全宇宙的骄傲

2020-05-23 19:16:13

Scala多線程

全宇宙的骄傲

2020-05-23 19:16:13

Spark深入淺出之從物理執行角度看Spark

全宇宙的骄傲

2020-05-23 19:16:13

Spark二次排序

全宇宙的骄傲

2020-05-23 19:16:13

Scala之Json4s解析json

全宇宙的骄傲

2020-05-23 19:16:13

Spark自定義Part-00001

全宇宙的骄傲

2020-05-23 19:16:13

24小時熱門文章

最新文章

最新評論文章