Hive概覽

Hive概覽

原創

2020-03-12 23:08

一，Hadoop
開源的分佈式計算平臺，核心是分佈式文件系統”HDFS(Hodoop Distributed Filesystem )“和分佈式計算模型：MapReduce。
HDFS:
進行大數據存儲，分佈式文件系統，具有高容錯性特點，因此可以設計部署再低廉的硬件設施上面，通過提高吞吐率來訪問數據，適合擁有超大數據集的應用
MapReduce：
進行大數據運算，在存儲了大量數據的基礎上，如何將這些數據利用起來。MapReduce就是解決如何從海量數據中獲取想要信息的，用於大規模數據集的並行運算。基本原理是：map和reduce操作，先指定一個map函數，把輸入映射成一組新的鍵值對，交給reduce，reduce對相同key下的所有value進行處理以後再將結果合併得出最終的結果。

**二 Hive **
數據倉庫：
數據倉庫是面向主題的、集成的、相對穩定的、反應歷史數據變化的大量數據集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制，數據量極大。
Hive就是一種基於Hodoop的數據倉庫工具，滿足海量數據的存儲需求，提供滿足要求的數據處理和計算能力。
Hive與Hadoop的關係：

1 Hive的底層存儲依賴於HDFS來進行數據存儲
2 MapReduce是專門對於HDFS存儲數據進行處理，而Hive提供了Hive SQL對數據進行操作，其本質其實就是將sql轉換爲MapReduce任務操作來進行數據操作。

三 Hive的優缺點
優點：
1.使用Hive SQL，讓用戶操作變得很簡單，切內置大量函數，便於對於數據倉庫進行數據計算與處理。
2.可擴展，可以自定義存儲格式，自定義函數
3.支持多借口訪問

缺點：
不適用聯機事務處理（OLTP），不支持列級別的數據添加，修改，刪除操作。延遲較高

四使用場景
1.離線數據分析與處理，離線數據統計
2.數據挖掘，分析用戶行爲信息，做用戶人羣畫像
3.數據統計

Hive只是大數據處理當中的一個部分，相對成熟，具有其相應的使用場景

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Java基礎問題（1）（jdk/jre/equals）

IDEA去除版本控制

Java 基礎知識（3）（抽象類/IO/異常）

Java基礎知識（2）（hashcode/final/round/String）

List.add()方法使用時被覆蓋

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結