三分鐘入門hive的7個概念

原創

2020-07-05 01:12

解決mapreduce編寫複雜和學習程度高的問題。

hive是將存儲在HDFS上的結構化數據映射爲一張二維表格，編寫sql語句來統計分析。

結構化數據：csv、tsv
半結構化數據：圖片格式、音頻格式、視頻格式
非結構化數據：html、xml

用一張圖來解釋：
把存儲在HDFS上的結構化數據，通過Hive的sql語句創建數據庫表映射爲一張二維表格，然後可以寫sql語句進行查詢分析。

hive本身不存儲數據，數據都是存儲在HDFS上。

爲什麼hive提供的是sql的select語法？
因爲mysql的表就是一種二維結構，然後我們可以使用sql來操作
針對結構化的數據，其實都可以使用sql的查詢分析語句select來進行表達

語法和SQL語法有區別，但是大致一樣。

hive的目的是爲了減輕mapreduce的編碼複雜問題，但是不是用來提升mapreduce運行效率低下的問題。

hive—》mapreduce 減輕編碼壓力
spark—》mapreduce提升執行效率

用hive寫語句，用來轉換成mapreduce或者spark程序
spark和mapreduce是同種類型的東西，都是分佈式並行計算框架

用一張圖來解釋：
客戶端可以看作是我們常用的CRT，通過CRT客戶端編寫hive，將sql語句轉化成mapreduce程序，處理和計算HDFS上存儲的結構化數據，YARN集羣調度資源執行mapreduce任務計算，最後將結果呈現返回給CRT客戶端。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.