hadoop 壓縮技術

1. 概述

​ 隨着大數據時代的來臨,數據體量越來越大,處理這些數據會越來越受到網絡IO的限制,爲了儘可能多的處理更多的數據我們必須使用壓縮。

​ 壓縮技術能夠有效減少底層存儲系統(HDFS) 讀寫字節數。壓縮提高了網絡帶寬和磁盤空間的效率。在 Hadoop 下,尤其是數據規模很大和工作負載密集的情況下,使用數據壓縮顯得非常重要。在這種情況下, I/O 操作和網絡數據傳輸要花大量的時間。還有, Shuffle與 Merge 過程同樣也面臨着巨大的 I/O 壓力。

​ 鑑於磁盤 I/O 和網絡帶寬是 Hadoop 的寶貴資源,數據壓縮對於節省資源、最小化磁盤I/O 和網絡傳輸非常有幫助。不過, 儘管壓縮與解壓操作的 CPU 開銷不高,其性能的提升和資源的節省並非沒有代價。如果磁盤 I/O 和網絡帶寬影響了 MapReduce 作業性能,在任意 MapReduce 階段啓用壓縮都可以改善端到端處理時間並減少 I/O 和網絡流量。

2. 四種壓縮

1.gzip壓縮

優點:壓縮率比較高,而且壓縮/解壓速度也比較快;hadoop本身支持,在應用中處理gzip格式的文件就和直接處理文本一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。

缺點:不支持split。

應用場景:當每個文件壓縮之後在130M以內的(1個塊大小內),都可以考慮用gzip壓縮格式。譬如說一天或者一個小時的日誌壓縮成一個gzip 文件,運行mapreduce程序的時候通過多個gzip文件達到併發。hive程序,streaming程序,和java寫的mapreduce程序完 全和文本處理一樣,壓縮之後原來的程序不需要做任何修改。

2.lzo壓縮

優點:壓縮/解壓速度也比較快,合理的壓縮率;支持split,是hadoop中最流行的壓縮格式;支持hadoop native庫;可以在linux系統下安裝lzop命令,使用方便。

缺點:壓縮率比gzip要低一些;hadoop本身不支持,需要安裝;在應用中對lzo格式的文件需要做一些特殊處理(爲了支持split需要建索引,還需要指定inputformat爲lzo格式)。

應用場景:一個很大的文本文件,壓縮之後還大於200M以上的可以考慮,而且單個文件越大,lzo優點越越明顯。

3.snappy壓縮

優點:高速壓縮速度和合理的壓縮率;支持hadoop native庫。

缺點:不支持split;壓縮率比gzip要低;hadoop本身不支持,需要安裝;linux系統下沒有對應的命令。

應用場景:當mapreduce作業的map輸出的數據比較大的時候,作爲map到reduce的中間數據的壓縮格式;或者作爲一個mapreduce作業的輸出和另外一個mapreduce作業的輸入。

4.bzip2壓縮

優點:支持split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支持,但不支持native;在linux系統下自帶bzip2命令,使用方便。

缺點:壓縮/解壓速度慢;不支持native。

應用場景:適合對速度要求不高,但需要較高的壓縮率的時候,可以作爲mapreduce作業的輸出格式;或者輸出之後的數據比較大,處理之後的數據 需要壓縮存檔減少磁盤空間並且以後數據用得比較少的情況;或者對單個很大的文本文件想壓縮減少存儲空間,同時又需要支持split,而且兼容之前的應用程 序(即應用程序不需要修改)的情況。

叩丁狼教育.png

總結:壓縮比:bzip2 > gzip > lzo > snappy ,壓縮速度:snappy > lzo> gzip > bzip2

3. 常用的編碼器

 

Zlib:org.apache.hadoop.io.compress.DefaultCodec
Gzip:org.apache.hadoop.io.compress.GzioCodec
Bzip2:org.apache.hadoop.io.compress.Bzip2Codec
Lzo:com.apache.compression.lzo.LzoCodec
Lz4:org.apache.hadoop.io.compress.Lz4Codec
Snappy:org.apache.hadoop.io.compress.SnappyCodec

4. 壓縮實戰

4.1 hadoop的壓縮

1.修改core-site.xml配置文件

 

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

2.修改mapred-site.xml配置文件

 

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

3.修改mapred-site.xml配置文件

 

<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

4.2 MapReduce測試

 

[hadoop@hadoop01 ~]$ cd app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
[hadoop@hadoop01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /tmp/input.txt /tmp/compression-out/
...
[hadoop@hadoop01 mapreduce]$

查看結果,輸出結果的壓縮格式爲.bz2,與配置文件一致

 

[hadoop@hadoop01 mapreduce]$ hdfs dfs -ls /tmp/compression-out/
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-08-13 20:01 /tmp/compression-out/_SUCCESS
-rw-r--r--   1 hadoop supergroup         65 2018-08-13 20:01 /tmp/compression-out/part-r-00000.bz2
[hadoop@hadoop01 mapreduce]$ hdfs dfs -text /tmp/compression-out/part-r-00000.bz2
18/08/13 20:02:53 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
18/08/13 20:02:53 INFO compress.CodecPool: Got brand-new decompressor [.bz2]
data    1
is  2
sample  1
test    2
this    2
[hadoop@hadoop01 mapreduce]$ 

4.3 壓縮位置選擇

壓縮可以在 MapReduce 作用的任意階段啓用。

叩丁狼教育.png

4.4 hive的壓縮

​ Hive的建表語句裏面有一個STORED AS file_format結合使用的方法,指定hive的存儲格式。不僅能節省hive的存儲空間,還可以提高執行效率。

不壓縮

在hive創建一張不壓縮的表,把數據導進去

 

hive> create table test1(
    > c1 string,
    > c2 string,
    > c3 string,
    > c4 string,
    > c5 string)
    > row format delimited fields terminated by '||';
OK
Time taken: 0.716 seconds
hive> load data local inpath '/home/hadoop/data/20180813000203.txt' overwrite into table test1;
hive> select count(1) from test1;
OK
76241
Time taken: 20.67 seconds, Fetched: 1 row(s)
hive>

此時hdfs上查看一下文件的大小

 

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1
37.4 M  37.4 M  /user/hive/warehouse/test1

[hadoop@hadoop01 data]$

bzip2壓縮

在hive創建一張bzip2的表,把數據導進去(查看hive怎麼壓縮,打開hive官網,點擊compression)

查看hive當前的壓縮格式,默認是不壓縮的

 

hive> SET hive.exec.compress.output;
hive.exec.compress.output=false
hive> 

查看hive當前的codec,默認是bzip2

 

hive> SET mapreduce.output.fileoutputformat.compress.codec;
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
hive> 

設置一下壓縮格式爲bzip2,codec也爲bzip2,並且創建一張表

 

hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
hive> create table test1_bzip2
    > row format delimited fields terminated by '||'
    > as select * from test1;

去hdfs上查看文件的大小,文件大小由最初的37.4M變成了450.0K(這裏bzip2的壓縮比應該是30%左右,因爲我的數據本身有很多重複,所以壓縮後體積縮小非常大),hdfs上存儲的格式也變成了.bz2

 

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1_bzip2
450.0 K  450.0 K  /user/hive/warehouse/test1_bzip2
[hadoop@hadoop01 data]$ hdfs dfs -ls /user/hive/warehouse/test1_bzip2
Found 1 items
-rwxr-xr-x   1 hadoop supergroup     460749 2018-08-13 20:32 /user/hive/warehouse/test1_bzip


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章