原创 Hive基本SQL操作(圖文並茂)
Hive基本SQL操作 1、Hive DDL(數據庫定義語言) 1.1、數據庫的基本操作 --展示所有數據庫 show databases; --切換數據庫 use database_name; /*創建數據庫 CREA
原创 卸載ambari中kafka後安裝Apache的kafka不能消費
故障現象 背景 集羣規模較小,聽說是本來ambari中kafka用的很正常,開發人員說flink與kafka版本不一致(具體指scala版本),然後就將HDP的kafka在ambari界面卸載了,最後安裝的是apache對應版本的
原创 Hive壓縮算法與文件存儲格式總結
壓縮和存儲 1、 Hadoop壓縮配置 1) MR支持的壓縮編碼 壓縮格式 工具 算法 文件擴展名 是否可切分 DEFAULT 無 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz
原创 一文熟悉HiveServer2
1、HiveServer2基本概念 1.1、HiveServer2基本介紹 HiveServer2 (HS2) is a server interface that enables remote clients to execut
原创 【源碼分析】Kafka分區重分配/遷移(kafka-reassign-partitions.sh)
1、查看kafka-reassign-partitions.sh腳本 cd kafka_home/bin cat kafka-reassign-partitions.sh #!/bin/bash # Licensed to th
原创 解決kafka ISR缺失嚴重導致消費異常的方法
解決kafka ISR缺失嚴重導致消費異常的方法 故障現象 生產環境flume無法消費kafka,sink的文件爲空。 nifi中往kafka寫消息報錯 故障排查 元數據主題__consumer_offsets正
原创 ams-hbase調研
Ambari-metric架構源碼整理 在ambari,hdp升級測試過程中發現後臺任務執行完畢了,但是前臺進度條未完成,特此分析ambari-metrics模塊代碼 1、Collector Ambari中的Collector是其
原创 Hive Serde用法詳解
Hive Serde 1、目的: Hive Serde用來做序列化和反序列化,構建在數據存儲和執行引擎之間,對兩者實現解耦。 2、應用場景: 1、hive主要用來存儲結構化數據,如果結構化數據存儲的格式嵌套比較複雜的時
原创 Hive參數設置和運行方式彙總
1、Hive參數操作 1.2、hive參數介紹 hive當中的參數、變量都是以命名空間開頭的,詳情如下表所示: 命名空間 讀寫權限 含義 hiveconf 可讀寫 hive-site.xml當中的各配置變量例:
原创 Hive動態分區和分桶
1、Hive動態分區 1.1、hive的動態分區介紹 hive的靜態分區需要用戶在插入數據的時候必須手動指定hive的分區字段值,但是這樣的話會導致用戶的操作複雜度提高,而且在使用的時候會導致數據只能插入到某一個指定分區,無
原创 12個Hive優化點彙總
Hive優化 Hive的存儲層依託於HDFS,Hive的計算層依託於MapReduce,一般Hive的執行效率主要取決於SQL語句的執行效率,因此,Hive的優化的核心思想是MapReduce的優化。 1、查看Hive執行計
原创 Hive函數彙總及UDF開發
Hive函數 Hive中提供了非常豐富的運算符和內置函數支撐,具體操作如下: 1.內置運算符 1.1關係運算符 運算符 類型 說明 A = B 所有原始類型 如果A與B相等,返回TRUE,否則返回FALSE
原创 Hive安裝搭建(三種模式)
Hive 安裝搭建 Hive可以從源碼中編譯安裝,也可以直接使用官網下載的安裝包,在此處我們選擇安裝包解壓安裝的方式。 Hive中最最重要的角色就是metastore 因此按照metastore的管理共有四種hive的安裝搭建方式
原创 HiveServer2高可用配置
hive—high Avaliable hive的搭建方式有三種,分別是 1、Local/Embedded Metastore Database (Derby) 2、Remote Metastore Data
原创 Hbase5分鐘入門(白話讀寫流程)
HBase介紹 1、關係型數據庫與非關係型數據庫 (1)關係型數據庫 關係型數據庫最典型的數據機構是表,由二維表及其之間的聯繫所組成的一個數據組織 優點: 1、易於維護:都是使用表結構,格式一致