1.什麼是hive數據倉庫
•Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供類SQL查詢功能。
•本質是將SQL轉換爲MapReduce程序
2.爲什麼要使用Hive
•操作接口採用類SQL語法,提供快速開發的能力
•避免了去寫MapReduce,減少開發人員的學習成本
•擴展功能很方便
Hive的特點
•可擴展
Hive可以自由的擴展集羣的規模,一般情況下不需要重啓服務
•延展性
Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數
•容錯
良好的容錯性,節點出現問題SQL仍可完成執行
第三部分:Hive與Hadoop的關係
第四部分:Hive與傳統數據庫對比
|
Hive
|
RDBMS
|
查詢語言
|
HQL
|
SQL
|
數據存儲
|
HDFS
|
Raw Device or Local FS
|
執行
|
MapReduce
|
Excutor
|
執行延遲
|
高
|
低
|
處理數據規模
|
大
|
小
|
索引
|
0.8版本後加入位圖索引
|
有複雜的索引
|