大數據-Apache Hive【2】

1 Hive與傳統數據庫對比
hive用於海量數據的離線數據分析。
hive具有sql數據庫的外表,但應用場景完全不同,hive只適合用來做批量數據統計分析。
更直觀的對比請看下面這幅圖: 在這裏插入圖片描述
2 Hive 數據模型
Hive中所有的數據都存儲在HDFS中,沒有專門的數據存儲格式
在創建表時指定數據中的分隔符,Hive 就可以映射成功,解析數據。
Hive中包含以下數據模型:
db:在hdfs中表現爲hive.metastore.warehouse.dir目錄下一個文件夾
table:在hdfs中表現所屬db目錄下一個文件夾
external table:數據存放位置可以在HDFS任意指定路徑
partition:在hdfs中表現爲table目錄下的子目錄
bucket:在hdfs中表現爲同一個表目錄下根據hash散列之後的多個文件

二、Hive 安裝部署
Hive安裝前需要安裝好JDK和Hadoop。配置好環境變量。如果需要使用mysql來存儲元數據,則需要mysql也安裝好。
1.metadata 、metastore
Metadata即元數據。元數據包含用Hive創建的database、table、表的字段等元信息。元數據存儲在關係型數據庫中。如hive內置的Derby、第三方如MySQL等。
Metastore即元數據服務,作用是:客戶端連接metastore服務,metastore再去連接MySQL數據庫來存取元數據。有了metastore服務,就可以有多個客戶端同時連接,而且這些客戶端不需要知道MySQL數據庫的用戶名和密碼,只需要連接metastore 服務即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章