大數據實訓03---Hive數據倉庫

原創

SYC20171868

2020-07-04 11:32

數據庫：

主要存放實時產生的數據，和業務應用相關，OLTF(面向事務處理)

數據庫是爲捕獲數據而設計

數據倉庫：

依照分析需求、分析維度和設計指標來進行設計。

數據倉庫存放的是歷史數據，OLAP(面向分析處理)

數據倉庫爲分析數據而設計

數據庫設計應該遵守三大範式，符合業務應用即可，但是不符合分析，數據倉庫不需要遵守三大範式

Hive

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射成一張數據庫表,並提供類SQL查詢功能。

其實HIVE就是一個SQL解析引擎，它將SQL語句轉譯成M/R JOB然後在Hadoop執行，來達到快速開發的目的。它的表其實就是一個Hadoop的目錄/文件（HIVE默認表存放路徑一般都是在你工作目錄的hive目錄裏面），按表名做文件夾分開。

可以把Hadoop下的原始結構化數據變成Hive中的表
可以看成是從SQL到Map-Reduce的映射器
Hive是爲大數據批量處理而生的，Hive的出現解決了傳統的關係型數據庫 (MySql、Oracle)在大數據處理上的瓶頸

hive官網

Hive體系結構

Hive運行機制

Hive安裝模式

內嵌模式：元數據保持在內嵌的Derby模式，只允許一個會話連接
本地獨立模式：在本地安裝Mysql，把元數據放到Mysql內（單用戶模式，只允許一個用戶）
遠程模式：元數據放置在遠程的Mysql數據庫（可以有多個客戶端，需要有單獨的服務器管理元數據）

目前實訓是用的是單用戶模式，查看hive配置信息

啓動hive，查看錶（目前是空的），創建一張表，查看錶結構

查看錶的格式信息 desc formatted tablename; 可以看到表數據是存儲的位置

查看hive倉庫中對於剛剛創建的表的管理（TBLS---記錄了表名，表類型，sd-id, COLUMNS----記錄了表的字段）

查看hdfs中存放的表數據

在表中插入一條記錄

可以看出單條插入數據執行效率低，可以使用上傳數據文件實現批量導入數據

1.在hive中load data

2.直接將數據文件放在hdfs默認的存放數據位置

查看數據是否上傳成功

hive語言：HIve_languageManual

SQL語言：

DDL數據定義語言，（結構相關）創建create，修改alter，刪除drop
DML數據操作語言，（數據相關）增insert刪delete改update查select
DCL數據控制語言，(權限相關) grant

創建一個外部表logs,指定存儲位置（默認的位置）

將事先準備好的數據文件上傳到默認指定路徑後，可以從hive查到表數據

進行簡單的數據分析：統計記錄數，可以看到hive先進行解析，之後啓用MR執行處理得到結果

hive有兩種表：內部表（普通表）、外部表（external）

內部表與外部表的區別：

內部表

在加載數據的過程中，實際數據會被移動到數據倉庫目錄中 (hive.metastore.warehouse.dir),
刪除內部表時，內部表中的數據和元數據信息會被同時刪除。

外部表

在加載數據的過程中，實際數據並不會被移動到數據倉庫目錄中，只是與外部表建立一個鏈接(相當於文件的快捷方式一樣)；
刪除外部表時，僅刪除該鏈接，hive中的元數據被刪除，真實數據不會刪除。

持續更新...

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據實訓03---Hive數據倉庫

Hive

Hive體系結構

Hive運行機制

Hive安裝模式

內部表與外部表的區別：

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

java期末複習題目練習

java編程思想學習筆記--萬事萬物皆爲對象

Linux編程--管道通信

java實現哈夫曼編碼（優先隊列）

數據結構之線性表小結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結