Hive優化之小文件合併

原創

2019-10-26 01:46

問題背景:

公司集羣有個表, 執行一次insert overwrite table select * from table; 大概需要7000s.

源表是從pgsql抽上來的, 用了500個maptasks.

該表以月爲分區, 每個分區文件夾下面產生了大量的小文件, 有的都不到1M.

問題產生原因:

輸入表本身就有很多小文件, 插入的時候沒有限制reduce個數, 資源也沒有限制, 導致產生很多個ReduceTasks, 進而產生多個小文件.

解決方案:

1. 在Map輸入的時候, 把小文件合併.

-- 每個Map最大輸入大小，決定合併後的文件數
set mapred.max.split.size=256000000;

-- 一個節點上split的至少的大小 ，決定了多個data node上的文件是否需要合併
set mapred.min.split.size.per.node=100000000;

-- 一個交換機下split的至少的大小，決定了多個交換機上的文件是否需要合併
set mapred.min.split.size.per.rack=100000000;

-- 執行Map前進行小文件合併
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

2. 在Reduce輸出的時候, 把小文件合併.

-- 在map-only job後合併文件，默認true
set hive.merge.mapfiles = true;

-- 在map-reduce job後合併文件，默認false
set hive.merge.mapredfiles = true;

-- 合併後每個文件的大小，默認256000000
set hive.merge.size.per.task = 256000000;

-- 平均文件大小，是決定是否執行合併操作的閾值，默認16000000
set hive.merge.smallfiles.avgsize = 100000000;

參考文章:

https://blog.csdn.net/yycdaizi/article/details/43341239

http://shzhangji.com/cnblogs/2014/04/07/hive-small-files/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hbase環境搭建及使用

conf/hbase-env.sh export JAVA_HOME=/data/home/software/jdk1.8.0_202 export HBASE_MANAGES_ZK=false hbase-site.xml <con

fanghailiang2016

2020-07-08 10:12:20

kafka安裝與簡介

安裝Kafka 1.1 下載解壓下載地址：http://kafka.apache.org/downloads，如0.10.1.0版本的Kafka下載 wget http://apache.fayea.com/kafka/

2020-07-08 09:03:40

elasticsearch中IK分詞處理

嗯，弄完ANSJ分詞，今天上IK分詞。這裏elasticsearch是2.3.1，對應的IK爲1.9.1。 1.到https://github.com/medcl/elasticsearch-analysis-ik/releases?a

2020-07-07 11:21:08

elasticsearch安裝及使用示例

相關環境：centos6.6、jdk1.8_0_40、ES2.4.3 注意：ES的執行不能使用root用戶，需先新建一個用戶並授權 1.將下載好的elasticsearch-2.4.3.tar.gz上傳到Linux下 2.解壓：tar -

2020-07-07 11:21:06

ubuntu環境下搭建Hadoop集羣中必須需要注意的問題

博主安裝的hadoop是3.1.3這裏是按照廈門大學那個博客安裝的，在安裝與啓動過程中，費了不少事，特此記錄一下問題。安裝的連接：安裝環境：http://dblab.xmu.edu.cn/blog/install-hadoop

起个名字都这么男

2020-07-01 22:14:37

Hadoop+Hive+Sqoop 離線日誌分析公會女生打招呼數據

需求背景：我們將女生主動和男生建立聯繫定義爲女生打招呼，app中女生打招呼的方式有兩種：主動發起文字聊天和主動發起音視頻聊天。這些數據的採集通過在應用程序中增加埋點，最終成爲日誌文件保存在服務器上。日誌內容如下：文字聊天，日誌文件

fanghailiang2016

2020-06-30 04:13:31

利用logstash截取日誌中的數據並推送至Kafka

這裏寫自定義目錄標題前言logstash 安裝kafka 安裝關閉防火牆啓動zk與kafka配置logstash啓動logstash測試前言接到任務是，需要從web日誌中取出設備的操作信息，並推送kafka。領導要求使用log

2020-06-27 14:40:11

hive常用知識點彙總

1. desc extended/formated tablename 描述表結構，如： desc extended im; desc formatted im; 2. bin/hive -e -f -e 不進入hive命令行執行sql

fanghailiang2016

2020-06-25 00:35:59

Hadoop學習（三）：Zookeeper實現Hadoop集羣高可用

Hadoop集羣高可用 Hadoop 高可用 (High Availability) 分爲 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對數據存儲及其一致性的要求比 YARN Reso

有理想的番茄

2020-06-21 16:56:13

Hadoop學習（一）：分佈式文件系統HDFS

HDFS （Hadoop Distributed File System）是 Hadoop 下的分佈式文件系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬件上。 HDFS特性超大文件適合存放MB-PB級別的數據一次寫

有理想的番茄

2020-06-21 16:56:13

Hadoop學習（四）：資源調度管理系統YARN

YARN 簡介 YARN是Hadoop2.0引進的，前身是MapReduce本身的資源調度框架，Hadoop2.0後將MapReduce計算框架和YARN資源調度框架做了分離。 YARN 核心組件 Resources Mana

有理想的番茄

2020-06-21 16:56:13

hadoop jar class not found

比如你寫一個helloworld程序，結果hadoop jar xxx.jar放到集羣上執行一哈哈，出現classnotfound了，而且志向你自己的helloworld.class，打開jar包瞅一眼，這個hellworld.class

2020-06-20 21:03:16

storm分區，並行度筆記- Introducing parallelism in Storm

本文來自Book- 《Storm Blueprints.Patterns》：，個人覺得講的非常好，就在這做了一個筆記裏面的英語很簡單，個人感覺讀起來應該不是問題，也可以參考google在線翻譯，或者參考這本書的中文翻譯-《St

2020-06-16 03:31:11

java WordCount MapReduce實現源碼使用snappy壓縮

maven做如下配置 groupId:org.apache.hadoop artifactId:hadoop-client version:${hadoop.version} 類申明，繼承configured類，並實現Tool接口 pu

fanghailiang2016

2020-06-16 00:12:06

hive 3.1.2 環境搭建(使用mysql)以及示例運行

hive目前最新版本爲3.1.2，下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz hadoop安裝

fanghailiang2016

2020-06-16 00:12:06

24小時熱門文章

最新文章

最新評論文章