HIVE如何處理大量小文件

原創

aaaaajiboke

2019-01-26 04:16

小文件是如何產生的：

動態分區插入數據的時候，會產生大量的小文件，從而導致map數量的暴增
數據源本身就包含有大量的小文件
reduce個數越多，生成的小文件也越多

小文件的危害：

從HIVE角度來看的話呢，小文件越多，map的個數也會越多，每一個map都會開啓一個JVM虛擬機，每個虛擬機都要創建任務，執行任務，這些流程都會造成大量的資源浪費，嚴重影響性能
在HDFS中，每個小文件約佔150byte，如果小文件過多則會佔用大量的內存。這樣namenode內存容量嚴重製約了集羣的發展

小文件的解決方案

從小文件的產生途徑解決：

使用sequencefile作爲表存儲形式，不要使用textfile，在一定程度上可以減少小文件
減少reduce的個數（減少生成分區數量）
少用動態分區，使用distribute by分區

對已經存在的小文件做出的解決方案：

使用Hadoop achieve把小文件進行歸檔
重建表，建表時減少reduce的數量

通過參數調節，設置map/reduce的數量

設置map輸入合併小文件的相關參數：

//每個Map最大輸入大小(這個值決定了合併後文件的數量)
set mapred.max.split.size=256000000;  
//一個節點上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合併)
set mapred.min.split.size.per.node=100000000;
//一個交換機下split的至少的大小(這個值決定了多個交換機上的文件是否需要合併)  
set mapred.min.split.size.per.rack=100000000;
//執行Map前進行小文件合併
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

設置map輸出和reduce輸出進行合併的相關參數：

//設置map端輸出進行合併，默認爲true
set hive.merge.mapfiles = true
//設置reduce端輸出進行合併，默認爲false
set hive.merge.mapredfiles = true
//設置合併文件的大小
set hive.merge.size.per.task = 256*1000*1000
//當輸出文件的平均大小小於該值時，啓動一個獨立的MapReduce任務進行文件merge。
set hive.merge.smallfiles.avgsize=16000000

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HIVE如何處理大量小文件

小文件是如何產生的：

小文件的危害：

小文件的解決方案

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

Flume安裝和實時讀取HIVE的日誌

MapReduce處理數據

使用MySQL進行日期的統計

HIVE的窗口函數

Linux解決ip ping不通百度的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結