Spark數據本地化常用級別

原創

2020-06-11 02:30

Spark中數據的本地化常用方式分爲5種

1、PROCESS_LOCAL : 進程本地化，指task計算的數據在本進程（Executor）中

2、NODE_LOCAL：節點本地化，指task計算的數據在本節點（node）的磁盤上，當task在本進程中一直沒有執行（如果Driver分發task 3s後沒有執行，且重複5次後），此時Driver就把這個沒有執行的task發送到本節點的其他executor中執行

3、NO_PREF：沒有本地化這一說，無需本地化，如計算所需的數據在關係型數據中（MySQL或Oracle），node1節點中的MySQL，可以被node2或node3節點連接使用。

4、RACK_LOCAL:task計算的數據是在本機架的其他節點上

5、ANY:隨機，任何地方都可以

優先級依次是1到5，逐漸降低

參考 http://www.cnblogs.com/haozhengfei/p/65d3fa8fa3ba8c425ed448e8801fdb42.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.