簡單介紹什麼是Hive
什麼是Hive
Hive是在Hadoop中處理結構化數據的數據倉庫基礎設施工具。它位於hadoop之上,針對大數據,使查詢和分析變得簡單。最初Hive是由FaceBook開發的,後來Apache軟件基金會採用了它,並以Apache Hive的名字作爲一個開放源代碼進行了進一步的開發。它被不同的公司使用。例如,Amazon Elastic MapReduce, Microsoft Azure HDInsight等等。
Hive不是關係型數據庫,也不是OnLine Transaction Processing (OLTP),更不是用於實時查詢和行級更新的語言。
Hive的特徵
•它將schema存儲在數據庫中,並將處理後的數據存儲到HDFS中
•它是爲OLAP設計的。
•它提供用於查詢的SQL類型語言,稱爲HiveQL或HQL。
•上手容易,擴展性強。
Hive的架構圖
上圖描述了Hive的不同組件單元,可以參考如下圖:
用戶接口:HIVE是一個數據倉庫基礎設施軟件,可以在用戶和HDFS之間創建交互。支持的用戶接口HIVE Web UI、Hive Command Line和Hive HD Insight。
元數據庫:存儲schema,表列、表視圖相關,數據屬性。
HiveQL處理引擎: HiveQL類似於SQL查詢。它是MapReduce程序傳統方法的替代品之一。
執行引擎: HiveQL進程引擎和MapReduce的連接部分是Hive執行引擎。執行引擎處理查詢並生成與MapReduce結果相同的結果。
Hadoop 分佈式系統 or HBASE 來存取數據。