Hive概覽

一,Hadoop
開源的分佈式計算平臺,核心是分佈式文件系統”HDFS(Hodoop Distributed Filesystem )“和分佈式計算模型:MapReduce。
HDFS:
進行大數據存儲,分佈式文件系統,具有高容錯性特點,因此可以設計部署再低廉的硬件設施上面,通過提高吞吐率來訪問數據,適合擁有超大數據集的應用
MapReduce:
進行大數據運算,在存儲了大量數據的基礎上,如何將這些數據利用起來。MapReduce就是解決如何從海量數據中獲取想要信息的,用於大規模數據集的並行運算。基本原理是:map和reduce操作,先指定一個map函數,把輸入映射成一組新的鍵值對,交給reduce,reduce對相同key下的所有value進行處理以後再將結果合併得出最終的結果。

**二 Hive **
數據倉庫:
數據倉庫是面向主題的、集成的、相對穩定的、反應歷史數據變化的大量數據集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制,數據量極大。
Hive就是一種基於Hodoop的數據倉庫工具,滿足海量數據的存儲需求,提供滿足要求的數據處理和計算能力。
Hive與Hadoop的關係:
在這裏插入圖片描述
1 Hive的底層存儲依賴於HDFS來進行數據存儲
2 MapReduce是專門對於HDFS存儲數據進行處理,而Hive提供了Hive SQL對數據進行操作,其本質其實就是將sql轉換爲MapReduce任務操作來進行數據操作。

三 Hive的優缺點
優點:
1.使用Hive SQL,讓用戶操作變得很簡單,切內置大量函數,便於對於數據倉庫進行數據計算與處理。
2.可擴展,可以自定義存儲格式,自定義函數
3.支持多借口訪問

缺點:
不適用聯機事務處理(OLTP),不支持列級別的數據添加,修改,刪除操作 。延遲較高

四 使用場景
1.離線數據分析與處理,離線數據統計
2.數據挖掘,分析用戶行爲信息,做用戶人羣畫像
3.數據統計

Hive只是大數據處理當中的一個部分,相對成熟,具有其相應的使用場景

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章