什麼是小文件?
小文件是指:每個block中的結果只有幾百K,這在機器學習算法的結果輸出中經常出現,這是一種很大的資源浪費。、
爲什麼會有小文件:
怎麼避免小文件:
有了小文件怎麼去除小文件:
什麼是小文件?
小文件是指:每個block中的結果只有幾百K,這在機器學習算法的結果輸出中經常出現,這是一種很大的資源浪費。、
爲什麼會有小文件:
怎麼避免小文件:
有了小文件怎麼去除小文件:
1. pyspark 版本 2.3.0版本 2. 官網 reduce(f)[source] Reduces the elements of this RDD using the specified