1. 概述
隨着大數據時代的來臨,數據體量越來越大,處理這些數據會越來越受到網絡IO的限制,爲了儘可能多的處理更多的數據我們必須使用壓縮。
壓縮技術能夠有效減少底層存儲系統(HDFS) 讀寫字節數。壓縮提高了網絡帶寬和磁盤空間的效率。在 Hadoop 下,尤其是數據規模很大和工作負載密集的情況下,使用數據壓縮顯得非常重要。在這種情況下, I/O 操作和網絡數據傳輸要花大量的時間。還有, Shuffle與 Merge 過程同樣也面臨着巨大的 I/O 壓力。
鑑於磁盤 I/O 和網絡帶寬是 Hadoop 的寶貴資源,數據壓縮對於節省資源、最小化磁盤I/O 和網絡傳輸非常有幫助。不過, 儘管壓縮與解壓操作的 CPU 開銷不高,其性能的提升和資源的節省並非沒有代價。如果磁盤 I/O 和網絡帶寬影響了 MapReduce 作業性能,在任意 MapReduce 階段啓用壓縮都可以改善端到端處理時間並減少 I/O 和網絡流量。
2. 四種壓縮
1.gzip壓縮
優點:壓縮率比較高,而且壓縮/解壓速度也比較快;hadoop本身支持,在應用中處理gzip格式的文件就和直接處理文本一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。
缺點:不支持split。
應用場景:當每個文件壓縮之後在130M以內的(1個塊大小內),都可以考慮用gzip壓縮格式。譬如說一天或者一個小時的日誌壓縮成一個gzip 文件,運行mapreduce程序的時候通過多個gzip文件達到併發。hive程序,streaming程序,和java寫的mapreduce程序完 全和文本處理一樣,壓縮之後原來的程序不需要做任何修改。
2.lzo壓縮
優點:壓縮/解壓速度也比較快,合理的壓縮率;支持split,是hadoop中最流行的壓縮格式;支持hadoop native庫;可以在linux系統下安裝lzop命令,使用方便。
缺點:壓縮率比gzip要低一些;hadoop本身不支持,需要安裝;在應用中對lzo格式的文件需要做一些特殊處理(爲了支持split需要建索引,還需要指定inputformat爲lzo格式)。
應用場景:一個很大的文本文件,壓縮之後還大於200M以上的可以考慮,而且單個文件越大,lzo優點越越明顯。
3.snappy壓縮
優點:高速壓縮速度和合理的壓縮率;支持hadoop native庫。
缺點:不支持split;壓縮率比gzip要低;hadoop本身不支持,需要安裝;linux系統下沒有對應的命令。
應用場景:當mapreduce作業的map輸出的數據比較大的時候,作爲map到reduce的中間數據的壓縮格式;或者作爲一個mapreduce作業的輸出和另外一個mapreduce作業的輸入。
4.bzip2壓縮
優點:支持split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支持,但不支持native;在linux系統下自帶bzip2命令,使用方便。
缺點:壓縮/解壓速度慢;不支持native。
應用場景:適合對速度要求不高,但需要較高的壓縮率的時候,可以作爲mapreduce作業的輸出格式;或者輸出之後的數據比較大,處理之後的數據 需要壓縮存檔減少磁盤空間並且以後數據用得比較少的情況;或者對單個很大的文本文件想壓縮減少存儲空間,同時又需要支持split,而且兼容之前的應用程 序(即應用程序不需要修改)的情況。
叩丁狼教育.png
總結:壓縮比:bzip2 > gzip > lzo > snappy ,壓縮速度:snappy > lzo> gzip > bzip2
3. 常用的編碼器
Zlib:org.apache.hadoop.io.compress.DefaultCodec
Gzip:org.apache.hadoop.io.compress.GzioCodec
Bzip2:org.apache.hadoop.io.compress.Bzip2Codec
Lzo:com.apache.compression.lzo.LzoCodec
Lz4:org.apache.hadoop.io.compress.Lz4Codec
Snappy:org.apache.hadoop.io.compress.SnappyCodec
4. 壓縮實戰
4.1 hadoop的壓縮
1.修改core-site.xml配置文件
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
</value>
</property>
2.修改mapred-site.xml配置文件
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
</value>
</property>
3.修改mapred-site.xml配置文件
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
4.2 MapReduce測試
[hadoop@hadoop01 ~]$ cd app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
[hadoop@hadoop01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /tmp/input.txt /tmp/compression-out/
...
[hadoop@hadoop01 mapreduce]$
查看結果,輸出結果的壓縮格式爲.bz2,與配置文件一致
[hadoop@hadoop01 mapreduce]$ hdfs dfs -ls /tmp/compression-out/
Found 2 items
-rw-r--r-- 1 hadoop supergroup 0 2018-08-13 20:01 /tmp/compression-out/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 65 2018-08-13 20:01 /tmp/compression-out/part-r-00000.bz2
[hadoop@hadoop01 mapreduce]$ hdfs dfs -text /tmp/compression-out/part-r-00000.bz2
18/08/13 20:02:53 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
18/08/13 20:02:53 INFO compress.CodecPool: Got brand-new decompressor [.bz2]
data 1
is 2
sample 1
test 2
this 2
[hadoop@hadoop01 mapreduce]$
4.3 壓縮位置選擇
壓縮可以在 MapReduce 作用的任意階段啓用。
叩丁狼教育.png
4.4 hive的壓縮
Hive的建表語句裏面有一個STORED AS file_format結合使用的方法,指定hive的存儲格式。不僅能節省hive的存儲空間,還可以提高執行效率。
不壓縮
在hive創建一張不壓縮的表,把數據導進去
hive> create table test1(
> c1 string,
> c2 string,
> c3 string,
> c4 string,
> c5 string)
> row format delimited fields terminated by '||';
OK
Time taken: 0.716 seconds
hive> load data local inpath '/home/hadoop/data/20180813000203.txt' overwrite into table test1;
hive> select count(1) from test1;
OK
76241
Time taken: 20.67 seconds, Fetched: 1 row(s)
hive>
此時hdfs上查看一下文件的大小
[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1
37.4 M 37.4 M /user/hive/warehouse/test1
[hadoop@hadoop01 data]$
bzip2壓縮
在hive創建一張bzip2的表,把數據導進去(查看hive怎麼壓縮,打開hive官網,點擊compression)
查看hive當前的壓縮格式,默認是不壓縮的
hive> SET hive.exec.compress.output;
hive.exec.compress.output=false
hive>
查看hive當前的codec,默認是bzip2
hive> SET mapreduce.output.fileoutputformat.compress.codec;
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
hive>
設置一下壓縮格式爲bzip2,codec也爲bzip2,並且創建一張表
hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
hive> create table test1_bzip2
> row format delimited fields terminated by '||'
> as select * from test1;
去hdfs上查看文件的大小,文件大小由最初的37.4M變成了450.0K(這裏bzip2的壓縮比應該是30%左右,因爲我的數據本身有很多重複,所以壓縮後體積縮小非常大),hdfs上存儲的格式也變成了.bz2
[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1_bzip2
450.0 K 450.0 K /user/hive/warehouse/test1_bzip2
[hadoop@hadoop01 data]$ hdfs dfs -ls /user/hive/warehouse/test1_bzip2
Found 1 items
-rwxr-xr-x 1 hadoop supergroup 460749 2018-08-13 20:32 /user/hive/warehouse/test1_bzip