Hive-1-Hive介紹和工作原理

原創

2018-08-26 16:01

1、什麼是Hive

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

2、 Hive的工作流程圖

3、使用場景

Hive 並不適合那些需要低延遲的應用；

Hive 的最佳使用場合是大數據集的批處理作業，例如，網絡日誌分析。

4、 Hive數據類型

提供基本類型和複雜數據類型

5、 Hive與關係數據庫的比較

5.1、查詢語言：

HiveQL

5.2、數據存儲：

HDFS中

5.3、數據格式：

沒有定義專門的數據格式，由用戶指定，用戶定義數據格式需要指定三個屬性：列分隔符、行分隔符以及讀取數據的方法（TextFiile\SequenceFile\RCFile）

5.4、不支持對數據的改寫和添加

5.5、執行：

通過MapReduce實現(select * from table 的查詢不需要MapReduce)

5.6、執行延遲：

由於需要掃描整個表，MapReduce框架本身延遲較高，所以爲高延遲

5.7、可擴展性：

由於Hive的數據存儲在HDFS上，所以擴展性好，和HDFS擴展性一致

5.8、數據規模：

支持大規模數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive-1-Hive介紹和工作原理

1、什麼是Hive

2、 Hive的工作流程圖

3、使用場景

4、 Hive數據類型

5、 Hive與關係數據庫的比較

5.1、查詢語言：

5.2、數據存儲：

5.3、數據格式：

5.4、不支持對數據的改寫和添加

5.5、執行：

5.6、執行延遲：

5.7、可擴展性：

5.8、數據規模：

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

jslider(拖動條)圖片放大縮小功能（2012.4.03）

js跨域、異步上傳分析(2013.01.18)

Linux之路，起步雖晚，邁步纔會成功(2013.08.09)

Jetty之servlet容器(2011.11.09)

FireFox中file控件不能取到客戶端文件的完整路徑的問題(2012.11.27)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Hive-1-Hive介紹和工作原理

1、 什麼是Hive

2、 Hive的工作流程圖

3、 使用場景

4、 Hive數據類型

5、 Hive與關係數據庫的比較

5.1、查詢語言：

5.2、數據存儲：

5.3、數據格式：

5.4、不支持對數據的改寫和添加

5.5、執行：

5.6、執行延遲：

5.7、可擴展性：

5.8、數據規模：

1、什麼是Hive

3、使用場景