解密數據分區


   數據分區分爲兩種,動態分區和靜態分區,那麼兩種分區是怎樣創建的呢?它們各自怎麼來使用呢?

一、動態分區

1、從已有的數據動態創建新的分區

wKiom1h4PGfz5hqWAACueiqgcN0527.png-wh_50

2、分區基於最後一個列值自動創建,如果分區不存在,它將被創建;

如果分區存在,將被覆蓋。

二、靜態分區

1、 靜態分區示例:按天分區呼叫日誌

Loudacre的客戶服務電話系統生成了詳細的呼叫日誌,分析員使用這些數據來彙總前一天的呼叫量,比如:

wKioL1h4PHTTB4xfAACFprCGq_w695.png-wh_50

日誌按天生成,比如:

wKiom1h4PIKRkKQ4AAAxQ_n8RQg608.png-wh_50

在上面的的示例中,數據基於列值自動分區。現在我們使用靜態分區,

因爲數據文件不包含分區數據,分區表按照同樣的方式來定義:

wKioL1h4PJLD68nSAADocrxbS28851.png-wh_50

2、加載數據到靜態分區

使用靜態分區,你可以根據需要創建新分區,比如:爲每天的呼叫日誌數據添加一個分區:

wKiom1h4PJ-T48fwAABQ2Gsqi9A989.png-wh_50

這個命令將添加分區到表的元數據,並創建子目錄
/user/hive/warehouse/call_logs/call_date=2014-10-02

然後加載一天的數據到正確的分區

wKioL1h4PMqTTkMBAACDH5rGWOE743.png-wh_50

這個命令移動HDFS文件call-20141002.log到分區子目錄

3、覆蓋分區的所有數據

wKioL1h4PN3TSmBEAAATkNk9m9k813.png-wh_50

以上就是關於動態分區和靜態分區的介紹,那麼在ImpalaHive中,數據是怎樣分區的呢?後續將繼續分享。不過技術都是有門檻的,大家在實際生活中要多學習和交流,不斷汲取別人好的經驗知識,改善自己的知識架構。而且當今大數據還在發展中,各方面不算是很成熟,更需要不斷去追求,纔可以不落伍,這裏推薦一個微信公衆號“大數據cn,還不錯,有時間可以去關注一下。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章