Spark 從零到開發（三）初識RDD

RDD（Resilient Distributed Dataset）叫做彈性分佈式數據集，是Spark中最基本的數據抽象，它代表一個不可變、可分區、裏面的元素可並行計算的集合。RDD具有數據流模型的特點：自動容錯、位置感知性調度和可伸縮性。RDD允許用戶在執行多個查詢時顯式地將工作集緩存在內存中，後續的查詢能夠重用工作集，這極大地提升了查詢速度。

RDD的屬性

（1）一組分片（Partition），即數據集的基本組成單位。對於RDD來說，每個分片都會被一個計算任務處理，並決定並行計算的粒度。用戶可以在創建RDD時指定RDD的分片個數，如果沒有指定，那麼就會採用默認值。默認值就是程序所分配到的CPU Core的數目。

（2）一個計算每個分區的函數。Spark中RDD的計算是以分片爲單位的，每個RDD都會實現compute函數以達到這個目的。compute函數會對迭代器進行復合，不需要保存每次計算的結果。

（3）RDD之間的依賴關係。RDD的每次轉換都會生成一個新的RDD，所以RDD之間就會形成類似於流水線一樣的前後依賴關係。在部分分區數據丟失時，Spark可以通過這個依賴關係重新計算丟失的分區數據，而不是對RDD的所有分區進行重新計算。

（4）一個Partitioner，即RDD的分片函數。當前Spark中實現了兩種類型的分片函數，一個是基於哈希的HashPartitioner，另外一個是基於範圍的RangePartitioner。只有對於於key-value的RDD，纔會有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函數不但決定了RDD本身的分片數量，也決定了parent RDD Shuffle輸出時的分片數量。

（5）一個列表，存儲存取每個Partition的優先位置（preferred location）。對於一個HDFS文件來說，這個列表保存的就是每個Partition所在的塊的位置。按照“移動數據不如移動計算”的理念，Spark在進行任務調度的時候，會儘可能地將計算任務分配到其所要處理數據塊的存儲位置。

基本操作

Spark裏的計算都是操作RDD進行，那麼學習RDD的第一個問題就是如何構建RDD，構建RDD從數據來源角度分爲兩類：第一類是從內存裏直接讀取數據，第二類就是從文件系統裏讀取，當然這裏的文件系統種類很多常見的就是HDFS以及本地文件系統了。

具體請參考：
http://spark.apache.org/docs/2.3.1/rdd-programming-guide.html
https://www.cnblogs.com/sharpxiajun/p/5506822.html
https://www.cnblogs.com/qingyunzong/p/8899715.html

官方文檔很清晰，但是很難看懂，畢竟是外文。參考那兩個文章，能更輕鬆的獲取RDD的知識。

Spark 從零到開發（三）初識RDD

RDD的屬性

基本操作

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

Spark本地/集羣執行wordcount程序

Spark 從零到開發（一）初識

Spark 從零到開發（五）初識Spark SQL

Spark 從零到開發（三）初識RDD

Spark 從零到開發（七）Spark SQL和DataFrame

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結