HIVE_01 Hive的基本介紹

1.why hive?

a) 方便對文件及數據的元數據進行管理,提供統一的元數據管理方式
b) 提供簡單的方式來訪問大規模的數據集,使用sql語言進行數據分析

2.what hive?

hive是一個數據倉庫,通過sql讀寫、管理大數據集,也提供命令行工具以及jdbc方式訪問hive。
Hive經常被大數據企業用作企業級數據倉庫。
Hive在使用過程中使用sql語句來進行數據分析,有sql語句到具體的任務執行還需要經過解釋器,編譯器,優化器,執行器四個部分才能完成。
2.1 解釋器: 調用語法解釋器和語義分析器將sql語句轉換成對應的可執行的java代碼或者業務代碼。
2.2 編譯器: 將對應的java代碼轉換成字節碼或者jar包
2.3 優化器: 從sql語句到java代碼的解析轉化過程需要調用優化器,進行相關策略的優化,實現最優的查詢性能

3.數據倉庫和關係庫的差別

數據處理分類:聯機事務處理OLAP(on-line transaction processing) 和 聯機分析處理OLTP(on-line Analytical Processing)。
OLAP是數據倉庫的主要應用,支持複雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。
OLTP是傳統的關係型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。
3.1 數據庫是對業務系統的支撐,性能要求高,響應的時間短,而數據倉庫則對響應時間沒有太多的要求,當然越快越好。
3.2 數據庫存儲的是某一個產品線或者某個 業務線的數據,數據倉庫可以將多個數據源的數據經過統一的規則清洗後進行統一管理。
3.3 數據庫中存儲的數據可以修改,無法保存各個歷史時刻的數據,數據倉庫可以保存各個時間點的數據,形成 時間拉鍊表,可以對各個歷史時刻的數據做分析。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章