spark的DataFrame數據保存到hdfs產生過多小文件

什麼是小文件?

小文件是指:每個block中的結果只有幾百K,這在機器學習算法的結果輸出中經常出現,這是一種很大的資源浪費。、

爲什麼會有小文件:

怎麼避免小文件:

有了小文件怎麼去除小文件:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章