spark的靈魂:RDD和DataSet

spark建立在抽象的RDD上,把不同處理的數據的需求轉化爲RDD,然後對RDD進行一系列的算子運算,從而得到結果。
RDD是一個容錯的,並行的數據結構,可以將數據存儲到磁盤和內存中,並能控制數據分區,並提供了豐富的API來操作數據。

1:RDD的定義及五大特性剖析
RDD是分佈式內存的一個抽象概念,是一種高度受限的共享內存模型,即RDD時只讀的記錄分區的集合,能跨集羣所有節點並行計算,是一種基於工作集的抽象模型。
(1)分區列表
(2)每一個分區都有一個計算函數
(3)依賴於其它RDD的列表
(4)key-value數據類型的RDD分區器
(5)每一個分區都有一個優先位置列表
2:DataSet的定義及內部機制剖析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章