Hive學習記錄01—基本概念

原創

2020-03-02 21:49

Hive學習記錄01—基本概念

Hive基本概念

Hive

Hive：由 Facebook 開源用於解決海量結構化日誌的數據統計。
Hive 是基於 Hadoop 的一個數據倉庫工具，可以將結構化的數據文件映射爲一張表，並提供類 SQL 查詢功能。
本質是：將 HQL 轉化成 MapReduce 程序

注意

1）Hive 處理的數據存儲在 HDFS
2）Hive 分析數據底層的默認實現是 MapReduce
3）執行程序運行在 Yarn 上

Hive優缺點

優點

操作接口採用類 SQL 語法，提供快速開發的能力（簡單、容易上手）。
避免了去寫 MapReduce，減少開發人員的學習成本。
Hive 的執行延遲比較高，因此 Hive 常用於數據分析，對實時性要求不高的場合。
Hive 優勢在於處理大數據，對於處理小數據沒有優勢，因爲 Hive 的執行延遲比較
高。
Hive 支持用戶自定義函數，用戶可以根據自己的需求來實現自己的函數。

缺點

迭代式算法無法表達
數據挖掘方面不擅長
Hive 自動生成的 MapReduce 作業，通常情況下不夠智能化
Hive 調優比較困難，粒度較粗

Hive架構原理

用戶接口：Client
CLI（hive shell）、JDBC/ODBC(java 訪問 hive)、WEBUI（瀏覽器訪問 hive）
元數據：Metastore
元數據包括：表名、表所屬的數據庫（默認是 default）、表的擁有者、列/分區字段、表
的類型（是否是外部表）、表的數據所在目錄等；
默認存儲在自帶的 derby 數據庫中，推薦使用 MySQL 存儲 Metastore
Hadoop
使用 HDFS 進行存儲，使用 MapReduce 進行計算。
驅動器：Driver
(1) 解析器（SQL Parser）：將 SQL 字符串轉換成抽象語法樹 AST，這一步一般都用
第三方工具庫完成，比如 antlr；對 AST 進行語法分析，比如表是否存在、字段是否存
在、SQL 語義是否有誤。
(2) 編譯器（Physical Plan）：將 AST 編譯生成邏輯執行計劃。
(3) 優化器（Query Optimizer）：對邏輯執行計劃進行優化。
(4) 執行器（Execution）：把邏輯執行計劃轉換成可以運行的物理計劃。對於 Hive 來
說，就是 MR/Spark。

運行機制

Hive 通過給用戶提供的一系列交互接口，接收到用戶的指令(SQL)，使用自己的 Driver，結合元數據(MetaStore)，將這些指令翻譯成 MapReduce，提交到 Hadoop 中執行，最後，將執行返回的結果輸出到用戶交互接口。

Hive和傳統數據庫比較

Hive採用的類似SQL的查詢語言HQL。雙方都可以用SQL進行操作
Hive數據存儲在HDFS中。數據庫則將數據存儲在塊設備或本地文件系統中。
Hive針對數據倉庫應用設計的，特點是讀多寫少。數據庫中數據需要常進行修改操作。
Hive中沒有索引，不適合進行實時查詢。傳統數據庫存在索引。
Hive查詢執行通過MapReduce。數據庫是通過自己的數據庫執行引擎。
Hive掃描全表，延遲高。數據庫在一定數據量內延遲較低，在面對大容量數據規模，Hive處理速度會快。
Hive拓展性高。傳統數據庫拓展性低。
Hive支持大規模數據。傳統數據庫數據規模較小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

DolphinScheduler 3.3.0版本更新一覽

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

HBase Meta 元信息表修復實踐

作者：vivo 互聯網大數據團隊 - Huang Guihu、Chen Shengzun HBase是一款開源高可靠、高可擴展性、高性能的分佈式非關係型數據庫，廣泛應用於大數據處理、實時計算、數據存儲和檢索等領域。在分佈式集羣中，硬件故

2024-05-09 12:43:33

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

24小時熱門文章

ComfyUI 完全入門：ControlNet 使用教程

最新文章

最新評論文章