1、 什麼是Hive
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
2、 Hive的工作流程圖
3、 使用場景
Hive 並不適合那些需要低延遲的應用;
Hive 的最佳使用場合是大數據集的批處理作業,例如,網絡日誌分析。
4、 Hive數據類型
提供基本類型和複雜數據類型
5、 Hive與關係數據庫的比較
5.1、查詢語言:
HiveQL
5.2、數據存儲:
HDFS中
5.3、數據格式:
沒有定義專門的數據格式,由用戶指定,用戶定義數據格式需要指定三個屬性:列分隔符、行分隔符以及讀取數據的方法(TextFiile\SequenceFile\RCFile)
5.4、不支持對數據的改寫和添加
5.5、執行:
通過MapReduce實現(select * from table 的查詢不需要MapReduce)
5.6、執行延遲:
由於需要掃描整個表,MapReduce框架本身延遲較高,所以爲高延遲
5.7、可擴展性:
由於Hive的數據存儲在HDFS上,所以擴展性好,和HDFS擴展性一致
5.8、數據規模:
支持大規模數據