Hive簡介和架構

第1章 Hive基本概念

1.1 什麼是Hive

Hive：由Facebook開源用於解決海量結構化日誌的數據統計。

Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張表，並提供類SQL查詢功能。

本質是：將HQL轉化成MapReduce程序？怎麼進行轉換的，詳見https://blog.csdn.net/qq_26442553/article/details/79616207

大體流程爲：

1.1.2 hive的幾點注意：

1）Hive的數據存儲在hdfs上，簡單的說hive就是hdfs的簡單一種映射，比如：hive的一張表映射hdfs上的一個文件，hive的一個數據庫就映射爲hdfs上的文件夾

2）Hive是一個計算框架，他是MapReduce的一種封裝，實際上他的底層還是MR，Hive就是用人們熟悉的sql對數據進行分析的

3）Hive執行程序是運行在Yarn上的

1.1.3 缺點

1．Hive的HQL表達能力有限

（1）迭代式算法無法表達

（2）數據挖掘方面不擅長

2．Hive的效率比較低

（1）Hive自動生成的MapReduce作業，通常情況下不夠智能化

（2）Hive調優比較困難，粒度較粗

1.2 ★ Hive架構原理

1.3 Hive和傳統的RDBMS數據庫比較

由於 Hive 採用了類似SQL 的查詢語言 HQL(Hive Query Language)，因此很容易將 Hive 理解爲數據庫。其實從結構上來看，Hive 和數據庫除了擁有類似的查詢語言，再無類似之處。本文將從多個方面來闡述 Hive 和數據庫的差異。數據庫可以用在 Online 的應用中，但是Hive 是爲數據倉庫而設計的，清楚這一點，有助於從應用角度理解 Hive 的特性。

1.3.1 查詢語言

由於SQL被廣泛的應用在數據倉庫中，因此，專門針對Hive的特性設計了類SQL的查詢語言HQL。熟悉SQL開發的開發者可以很方便的使用Hive進行開發。

1.3.2 數據存儲位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。

1.3.3 數據更新

由於Hive是針對數據倉庫應用設計的，而數據倉庫的內容是讀多寫少的。因此，Hive中不建議對數據的改寫，所有的數據都是在加載的時候確定好的。而數據庫中的數據通常是需要經常進行修改的，因此可以使用 INSERT INTO … VALUES 添加數據，使用 UPDATE … SET修改數據。

1.3.4 索引

Hive沒有索引，在加載數據的過程中不會對數據進行任何處理，甚至不會對數據進行掃描，因此也沒有對數據中的某些Key建立索引。Hive要訪問數據中滿足條件的特定值時，需要暴力掃描整個數據，因此訪問延遲較高。由於 MapReduce 的引入， Hive 可以並行訪問數據，因此即使沒有索引，對於大數據量的訪問，Hive 仍然可以體現出優勢。數據庫中，通常會針對一個或者幾個列建立索引，因此對於少量的特定條件的數據的訪問，數據庫可以有很高的效率，較低的延遲。由於數據的訪問延遲較高，決定了 Hive 不適合在線數據查詢。

1.3.5 執行

Hive中大多數查詢的執行是通過 Hadoop 提供的 MapReduce 來實現的。而數據庫通常有自己的執行引擎。

1.3.6 執行延遲

Hive 在查詢數據的時候，由於沒有索引，需要掃描整個表，因此延遲較高。另外一個導致 Hive 執行延遲高的因素是 MapReduce框架。由於MapReduce 本身具有較高的延遲，因此在利用MapReduce 執行Hive查詢時，也會有較高的延遲。相對的，數據庫的執行延遲較低。當然，這個低是有條件的，即數據規模較小，當數據規模大到超過數據庫的處理能力的時候，Hive的並行計算顯然能體現出優勢。

1.3.7 可擴展性

由於Hive是建立在Hadoop之上的，因此Hive的可擴展性是和Hadoop的可擴展性是一致的（世界上最大的Hadoop 集羣在 Yahoo!，2009年的規模在4000 臺節點左右）。而數據庫由於 ACID 語義的嚴格限制，擴展行非常有限。目前最先進的並行數據庫 Oracle 在理論上的擴展能力也只有100臺左右。

1.3.8 數據規模

由於Hive建立在集羣上並可以利用MapReduce進行並行計算，因此可以支持很大規模的數據；對應的，數據庫可以支持的數據規模較小。

student__software

發佈了53 篇原創文章 · 獲贊 37 · 訪問量 5萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive簡介和架構

第1章 Hive基本概念

1.1 什麼是Hive

1.1.2 hive的幾點注意：

1.1.3 缺點

1.2 ★ Hive架構原理

1.3 Hive和傳統的RDBMS數據庫比較

1.3.1 查詢語言

1.3.2 數據存儲位置

1.3.3 數據更新

1.3.4 索引

1.3.5 執行

1.3.6 執行延遲

1.3.7 可擴展性

1.3.8 數據規模

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

解密遊戲神作

導入地址表鉤取技術解析

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

mmsql 臨時表和主表 merge into 語法

Hive數據類型---以集合類型爲主

Kafka集羣部署及命令行操作

maven中log4j的配置文件

Hive查詢之排序

Hive數據導入導出

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結