Hive-1-Hive介紹和工作原理

1、 什麼是Hive

 

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

2、 Hive的工作流程圖

 

3、 使用場景

 

Hive 並不適合那些需要低延遲的應用;

Hive 的最佳使用場合是大數據集的批處理作業,例如,網絡日誌分析。

 

4、 Hive數據類型

 

提供基本類型和複雜數據類型


5、 Hive與關係數據庫的比較

 

5.1、查詢語言:

HiveQL

5.2、數據存儲:

HDFS中

5.3、數據格式:

沒有定義專門的數據格式,由用戶指定,用戶定義數據格式需要指定三個屬性:列分隔符、行分隔符以及讀取數據的方法(TextFiile\SequenceFile\RCFile)

5.4、不支持對數據的改寫和添加

5.5、執行:

通過MapReduce實現(select * from table 的查詢不需要MapReduce)

5.6、執行延遲:

由於需要掃描整個表,MapReduce框架本身延遲較高,所以爲高延遲

5.7、可擴展性:

由於Hive的數據存儲在HDFS上,所以擴展性好,和HDFS擴展性一致

5.8、數據規模:

支持大規模數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章