1. 概述

隨着大數據時代的來臨，數據體量越來越大，處理這些數據會越來越受到網絡IO的限制，爲了儘可能多的處理更多的數據我們必須使用壓縮。

壓縮技術能夠有效減少底層存儲系統（HDFS）讀寫字節數。壓縮提高了網絡帶寬和磁盤空間的效率。在 Hadoop 下，尤其是數據規模很大和工作負載密集的情況下，使用數據壓縮顯得非常重要。在這種情況下， I/O 操作和網絡數據傳輸要花大量的時間。還有， Shuffle與 Merge 過程同樣也面臨着巨大的 I/O 壓力。

鑑於磁盤 I/O 和網絡帶寬是 Hadoop 的寶貴資源，數據壓縮對於節省資源、最小化磁盤I/O 和網絡傳輸非常有幫助。不過，儘管壓縮與解壓操作的 CPU 開銷不高，其性能的提升和資源的節省並非沒有代價。如果磁盤 I/O 和網絡帶寬影響了 MapReduce 作業性能，在任意 MapReduce 階段啓用壓縮都可以改善端到端處理時間並減少 I/O 和網絡流量。

2. 四種壓縮

1.gzip壓縮

優點：壓縮率比較高，而且壓縮/解壓速度也比較快；hadoop本身支持，在應用中處理gzip格式的文件就和直接處理文本一樣；有hadoop native庫；大部分linux系統都自帶gzip命令，使用方便。

缺點：不支持split。

應用場景：當每個文件壓縮之後在130M以內的（1個塊大小內），都可以考慮用gzip壓縮格式。譬如說一天或者一個小時的日誌壓縮成一個gzip 文件，運行mapreduce程序的時候通過多個gzip文件達到併發。hive程序，streaming程序，和java寫的mapreduce程序完全和文本處理一樣，壓縮之後原來的程序不需要做任何修改。

2.lzo壓縮

優點：壓縮/解壓速度也比較快，合理的壓縮率；支持split，是hadoop中最流行的壓縮格式；支持hadoop native庫；可以在linux系統下安裝lzop命令，使用方便。

缺點：壓縮率比gzip要低一些；hadoop本身不支持，需要安裝；在應用中對lzo格式的文件需要做一些特殊處理（爲了支持split需要建索引，還需要指定inputformat爲lzo格式）。

應用場景：一個很大的文本文件，壓縮之後還大於200M以上的可以考慮，而且單個文件越大，lzo優點越越明顯。

3.snappy壓縮

優點：高速壓縮速度和合理的壓縮率；支持hadoop native庫。

缺點：不支持split；壓縮率比gzip要低；hadoop本身不支持，需要安裝；linux系統下沒有對應的命令。

應用場景：當mapreduce作業的map輸出的數據比較大的時候，作爲map到reduce的中間數據的壓縮格式；或者作爲一個mapreduce作業的輸出和另外一個mapreduce作業的輸入。

4.bzip2壓縮

優點：支持split；具有很高的壓縮率，比gzip壓縮率都高；hadoop本身支持，但不支持native；在linux系統下自帶bzip2命令，使用方便。

缺點：壓縮/解壓速度慢；不支持native。

應用場景：適合對速度要求不高，但需要較高的壓縮率的時候，可以作爲mapreduce作業的輸出格式；或者輸出之後的數據比較大，處理之後的數據需要壓縮存檔減少磁盤空間並且以後數據用得比較少的情況；或者對單個很大的文本文件想壓縮減少存儲空間，同時又需要支持split，而且兼容之前的應用程序（即應用程序不需要修改）的情況。

叩丁狼教育.png

總結：壓縮比：bzip2 > gzip > lzo > snappy ，壓縮速度：snappy > lzo> gzip > bzip2

3. 常用的編碼器

Zlib：org.apache.hadoop.io.compress.DefaultCodec
Gzip：org.apache.hadoop.io.compress.GzioCodec
Bzip2：org.apache.hadoop.io.compress.Bzip2Codec
Lzo：com.apache.compression.lzo.LzoCodec
Lz4：org.apache.hadoop.io.compress.Lz4Codec
Snappy：org.apache.hadoop.io.compress.SnappyCodec

4. 壓縮實戰

4.1 hadoop的壓縮

1.修改core-site.xml配置文件

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

2.修改mapred-site.xml配置文件

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

3.修改mapred-site.xml配置文件

<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

4.2 MapReduce測試

[hadoop@hadoop01 ~]$ cd app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
[hadoop@hadoop01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /tmp/input.txt /tmp/compression-out/
...
[hadoop@hadoop01 mapreduce]$

查看結果，輸出結果的壓縮格式爲.bz2，與配置文件一致

[hadoop@hadoop01 mapreduce]$ hdfs dfs -ls /tmp/compression-out/
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-08-13 20:01 /tmp/compression-out/_SUCCESS
-rw-r--r--   1 hadoop supergroup         65 2018-08-13 20:01 /tmp/compression-out/part-r-00000.bz2
[hadoop@hadoop01 mapreduce]$ hdfs dfs -text /tmp/compression-out/part-r-00000.bz2
18/08/13 20:02:53 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
18/08/13 20:02:53 INFO compress.CodecPool: Got brand-new decompressor [.bz2]
data    1
is  2
sample  1
test    2
this    2
[hadoop@hadoop01 mapreduce]$

4.3 壓縮位置選擇

壓縮可以在 MapReduce 作用的任意階段啓用。

叩丁狼教育.png

4.4 hive的壓縮

Hive的建表語句裏面有一個STORED AS file_format結合使用的方法，指定hive的存儲格式。不僅能節省hive的存儲空間，還可以提高執行效率。

不壓縮

在hive創建一張不壓縮的表，把數據導進去

hive> create table test1(
    > c1 string,
    > c2 string,
    > c3 string,
    > c4 string,
    > c5 string)
    > row format delimited fields terminated by '||';
OK
Time taken: 0.716 seconds
hive> load data local inpath '/home/hadoop/data/20180813000203.txt' overwrite into table test1;
hive> select count(1) from test1;
OK
76241
Time taken: 20.67 seconds, Fetched: 1 row(s)
hive>

此時hdfs上查看一下文件的大小

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1
37.4 M  37.4 M  /user/hive/warehouse/test1

[hadoop@hadoop01 data]$

bzip2壓縮

在hive創建一張bzip2的表，把數據導進去（查看hive怎麼壓縮，打開hive官網，點擊compression）

查看hive當前的壓縮格式，默認是不壓縮的

hive> SET hive.exec.compress.output;
hive.exec.compress.output=false
hive>

查看hive當前的codec，默認是bzip2

hive> SET mapreduce.output.fileoutputformat.compress.codec;
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
hive>

設置一下壓縮格式爲bzip2，codec也爲bzip2，並且創建一張表

hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
hive> create table test1_bzip2
    > row format delimited fields terminated by '||'
    > as select * from test1;

去hdfs上查看文件的大小，文件大小由最初的37.4M變成了450.0K（這裏bzip2的壓縮比應該是30%左右，因爲我的數據本身有很多重複，所以壓縮後體積縮小非常大），hdfs上存儲的格式也變成了.bz2

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1_bzip2
450.0 K  450.0 K  /user/hive/warehouse/test1_bzip2
[hadoop@hadoop01 data]$ hdfs dfs -ls /user/hive/warehouse/test1_bzip2
Found 1 items
-rwxr-xr-x   1 hadoop supergroup     460749 2018-08-13 20:32 /user/hive/warehouse/test1_bzip

hadoop 壓縮技術

1. 概述

2. 四種壓縮

3. 常用的編碼器

4. 壓縮實戰

4.1 hadoop的壓縮

4.2 MapReduce測試

4.3 壓縮位置選擇

4.4 hive的壓縮

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

NiFi vs StreamSets(SDC)

spring 彙總 -----spring events

splunk簡介

flink源碼閱讀---DataStream API編程指南

flink源碼閱讀---DataStream數據架構描述1-core底層架構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結