checkpoint的意思就是建立檢查點,類似於快照,例如在spark計算裏面 計算流程DAG特別長,服務器需要將整個DAG計算完成得出結果,但是如果在這很長的計算流程中突然中間算出的數據丟失了,spark又會根據RDD的依賴關係從頭到尾計算一遍,這樣子就很費性能,當然我們可以將中間的計算結果通過cache或者persist放到內存或者磁盤中,但是這樣也不能保證數據完全不會丟失,存儲的這個內存出問題了或者磁盤壞了,也會導致spark從頭再根據RDD計算一遍,所以就有了checkpoint,其中checkpoint的作用就是將DAG中比較重要的中間數據做一個檢查點將結果存儲到一個高可用的地方(通常這個地方就是HDFS裏面)
一般我們先進行cache然後做checkpoint就會只走一次流程,checkpoint的時候就會從剛cache到內存中取數據寫入hdfs中
其中作者也說明了,在checkpoint的時候強烈建議先進行cache,並且當你checkpoint執行成功了,那麼前面所有的RDD依賴都會被銷燬
Spark中的checkpoint作用與用法
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
(第3篇)HDFS是什麼?HDFS適合做什麼?我們應該怎樣操作HDFS系統?
I加加
2019-02-23 00:38:18
(第2篇)一篇文章教你輕鬆安裝hadoop
I加加
2019-02-23 00:37:53
SQOOP可能會導致HDFS分片數量過多的總結
feiweihy
2019-02-23 00:13:33
Hadoop中的fsimage和edits(能力工場--Hadoop)
malijava
2019-02-22 23:38:05
Hadoop學習--AP讀取HDFS數據--day04
zhicx
2019-02-22 23:15:46
Hadoop學習--URL方法訪問HDFS數據--day04
zhicx
2019-02-22 23:15:45
開發人員學Linux(14):CentOS7安裝配置大數據平臺Hadoop2.9.0
周金橋
2019-02-22 22:55:26
深度理解HDFS架構
Lizikunn
2019-02-22 20:57:56
HDFS高可用環境搭建
Lizikunn
2019-02-22 20:57:49
HDFS(分佈式文件系統)知識點梳理
Lizikunn
2019-02-22 20:57:49
用於機器學習的Python和HDFS
螢火的螢
2019-02-22 19:42:28
利用QJM實現HDFS自動主從切換(HA Automatic Failover)源碼詳析
wangxucumt
2019-02-22 18:39:20
HDFS客戶端的權限錯誤:Permission denied
libangsen
2019-02-22 18:07:47