大數據-----Apache Hive【1】

原創

2020-06-29 18:43

一、Apache Hive

1．Hive 簡介
1.1．什麼是Hive
Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供類SQL查詢功能。
本質是將SQL轉換爲MapReduce程序。
主要用途：用來做離線數據分析，比直接用MapReduce開發效率更高。

1.2．爲什麼使用Hive
直接使用Hadoop MapReduce處理數據所面臨的問題：
人員學習成本· 高
MapReduce實現複雜查詢邏輯開發難度太大
使用Hive ：
操作接口採用類SQL語法，提供快速開發的能力
避免了去寫MapReduce，減少開發人員的學習成本
功能擴展很方便
2．Hive 架構
2.1．Hive架構圖

2.2．Hive組件
用戶接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)爲shell命令行；JDBC/ODBC是Hive的JAVA實現，與傳統數據庫JDBC類似；WebGUI是通過瀏覽器訪問Hive。
元數據存儲：通常是存儲在關係數據庫如 mysql/derby中。Hive 將元數據存儲在數據庫中。Hive 中的元數據包括表的名字，表的列和分區及其屬性，表的屬性（是否爲外部表等），表的數據所在目錄等。
解釋器、編譯器、優化器、執行器:完成 HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在 HDFS 中，並在隨後有 MapReduce 調用執行。
2.3．Hive與Hadoop的關係
Hive利用HDFS存儲數據，利用MapReduce查詢分析數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

神策數據：詳解保險 OMO 一體化的關鍵步驟

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

數倉安全：數據脫敏技術深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

以全要素數據資產連接爲核心的數據治理與運營

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息大數據首席顧問李書超在峯會發表演講《以全要素數據資產連接爲核心的數據治理與運營》。以下爲演講提綱及完整視頻，添加元寶微信，還可

2024-05-09 13:12:55

【開啓報名】同學看過來，Apache DolphinScheduler開源之夏課題任務正式發佈！

如果你還擁有着一張有效的“學生證”，在這個充滿機遇的夏天，我們誠邀你加入一個充滿挑戰和機遇的開源冒險——開源之夏。這不僅是一個簡單的編程開發活動，假如你成功參加並結項之後，還能獲得中科院軟件所官方頒發的證書和獎金，簡直太有趣啦！ Apa

2024-05-09 11:55:30

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

企業IT架構治理之道| 京東雲技術團隊

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早形

2024-05-07 23:17:13

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

1.導讀在當今數字化時代，全球互聯網用戶已超過50億人，中國的互聯網用戶數量更是達到10.5億，這爲企業提供了巨大的市場機遇和挑戰。根據市場研究公司的最新報告，全球數字營銷費用支出預計將在未來五年內進一步大幅增加，這表明數字化營銷已成爲

2024-05-07 23:17:11

01-電商商品中心解密：僅憑SKU真的足夠嗎？

在電子商務系統中，SKU（Stock Keeping Unit，庫存單位）和SPU（Standard Product Unit，標準產品單位）是兩種不同的概念，它們共同用於商品管理和庫存控制。雖然理論上可以只使用SKU來管理商品，但在實際應

2024-05-07 01:08:03

電子合同一站式解決方案 | 京東雲技術團隊

一：平臺定位和優勢（爲什麼建） 1.1、平臺定位由京東科技業務中臺主導發起，聯合法律部、安全部共建，旨在爲業務提供電子合同管理的中臺化能力，當前已形成一套成熟的“全線上、全生命週期電子合同管理系統”，可提供包括合同模板創建、模板預覽、

2024-05-06 23:16:37

巧用 TiCDC Syncpiont 構建銀行實時交易和準實時計算一體化架構

本文闡述了某商業銀行如何利用 TiCDC Syncpoint 功能，在 TiDB 平臺上構建一個既能處理實時交易又能進行準實時計算的一體化架構，用以優化其零售資格業務系統的實踐。通過遷移到 TiDB 並巧妙應用 Syncpoint，該銀行成

2024-04-30 22:24:58

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

華爲云云原生FinOps解決方案，釋放雲原生最大價值

華爲云云原生FinOps通過可視化的成本洞察和成本優化，幫助用戶精細用雲以提升單位成本的資源利用率，實現降本增效目標企業上雲現狀：上雲趨勢持續加深，但云上開支存在顯著浪費根據Flexer 2024年最新的一項調查顯示，當前有超過7

2024-04-29 22:33:46

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

2024-04-28 23:12:26

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章