spark的rdd.saveastextfile可以追加寫入hdfs嗎

是不能的,現在我來說一下原因,首先spark的任務是並行的,如果你的所有的j任務都往一個文件中追加,那麼這些任務都必須去獲得會後一行的位置,但是最後一行的位置是隻能有一個任務獲得的,所以其他任務不可能同時獲得最後一行的位置,這個機制就決定了,多個任務不能追加寫入同一個文件。如果你把所有數據都聚合到一個節點上,是可以追加到同一個文件,這個場景用的極少。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章