台部落秦时盖聂

元數據信息存儲 hive的元數據信息，就是創建的庫，表，列等信息這些信息需要一個外部的關係型數據庫來保存，這樣每次啓動hive時，才能知道hive下有哪些元數據信息。目前的hive只支持 derby，mysql兩種關係型數據庫啓動hi

2018-12-26 03:04:42

首先檢查機器中是否已經安裝了mysql rpm -qa | grep mysql 若已經安裝，則需要卸載 rpm -ev --nodeps （包名）官網下載對應linux系統的mysql安裝包下載地址：https://dev.my

2018-12-24 02:47:20

爲什麼hbase可以很快從邏輯結構上來說表按照行鍵進行了排序，所以查詢時可以很快定位數據按照行鍵切分爲多個HRegion，分佈在多個RegionServer中，查詢大量數據時，多個RegionServer可以一起工作，從而提高速

2018-12-19 14:24:58

HBase簡介 hbase部分依賴mapreduce來實現，mapreduce又可以直接操作hbase。 Hbase是一種nosql,是基於hadoop的數據庫，利用hdfs作爲存儲。適合存儲半結構化（例如json格式），非結構化（例

2018-12-18 01:53:08

Habase系統架構 ps：先了解hbase的整體架構，有些看不明白的可以先看後面，再回過頭來看。系統架構 hbase可以啓動多個 master（老大），但只有一個處於active狀態，其他的則處於backup狀態。會有多個regio

2018-12-18 01:53:08

寫入數據寫入數據的過程通過行鍵 ==》哪個region ==》regionServer ==》region 通過列族 ==》 region中某個store 先向hlog裏插入操作記錄 ==》把數據直接放入 memStore ==

2018-12-18 01:53:08

有以下兩種解決方案：使用 ctrl+刪除鍵來進行刪除修改xshell的配置文件 --> 屬性

2018-12-18 01:53:08

幫助 help：列出所有命令，並且把命令分組展示 help “create”： create 命令教學使用通用命令 status：查看集羣當前狀態 version：查看hbase的版本信息 whoami：查看當前用戶信息名稱空間

2018-12-18 01:53:08

數據庫和數據倉庫的區別數據庫爲線上系統提供實時數據處理服務完整的增刪改查要求嚴格的事務控制儘量的避免冗餘數據數據倉庫爲線下的統計分析挖掘提供數據治理服務只能一次寫入多次查詢，不支持行級別的增刪改很少有事務的需求人爲製

2018-12-08 03:05:16

目的 Mapper多個輸入源，處理後變成一個輸出。 reduce多輸出源，根據輸出的數據，按照自己的要求來決定，輸出到不同的文件裏。案例有以下兩個文件，作爲輸入源（Mapper處理）最後把每個人的成績打印到不同的文件裏（Reduce

2018-12-08 03:05:16

輸出排序 mapreduce默認會對結果進行排序。如果是以自定義類型爲key，則自定義的類需要實現接口：WritableComparable，這樣mapreduce就會按照自定義的排序方法來實現對輸出結果的排序。 package ha

2018-12-08 03:05:15

小技巧：配置好一臺服務器後，通過 scp -r /opt/zookeeper-3.4.7/ hadoop02:/opt/ 命令，把文件發送到另外兩臺機器。 1、搭建方案引入zookeeper，通過註冊臨時節點來監控服務是否掛掉，保證能及

2018-11-20 11:51:30

作用自定義文件讀取讀取文件時，默認是使用讀取器 LineRecoredReader<行首偏移量，每行內容>，每讀取一次，把key和value傳給開發者開發的Mapper組件。現在自定義文件讀取器，可以自定義讀取文件的方法，這樣就可以

2018-11-20 11:51:30

MR框架運行，會生成兩類任務：①Map Task ②Reduce Task Map Task的數量取決文件大小切片大小默認爲128MB，比如一個257MB的文件，會生成3個切片（Split），即會對應3個Map Task。開發Mapp

2018-11-20 11:51:30

環境：僞分佈式搭建的hadoop環境 1、啓動MapReduce 2.0版本，MR運行在yarn上，執行啓動命令： sh start-yarn.sh 出現下圖兩個進程說明啓動成功 2、MR初識寫MR代碼，就是編寫Map組件以及Red

2018-11-20 11:51:30