原创 HBase 超詳細優化

高可用 在HBase中Hmaster負責監控RegionServer的生命週期,均衡RegionServer的負載,如果Hmaster掛掉了,那麼整個HBase集羣將陷入不健康的狀態,並且此時的工作狀態並不會維持太久。所以HBas

原创 HBase擴展布隆過濾器

HBase在商業項目中的能力 每天: 消息量:發送和接收的消息數超過60億 將近1000億條數據的讀寫 高峯期每秒150萬左右操作 整體讀取數據佔有約55%,寫入佔有45% 超過2PB的數據,涉及冗餘共6PB數據 數據每月大概增

原创 Kafka超詳細生產者詳解

分區策略 分區的原因 方便在集羣中擴展,每個Partition可以通過調整以適應它所在的機器,而一個topic又可以有多個Partition組成,因此整個集羣就可以適應任意大小的數據了; 可以提高併發,因爲可以以Partitio

原创 HBase詳細簡介

什麼是HBase HBase的原型是Google的BigTable論文,受到了該論文思想的啓發,目前作爲Hadoop的子項目來開發維護,用於支持結構化的數據存儲。 官方網站:http://hbase.apache.org – 20

原创 HBase詳細原理

讀流程 Client先訪問zookeeper,從meta表讀取region的位置,然後讀取meta表中的數據。meta中又存儲了用戶表的region信息; 根據namespace、表名和rowkey在meta表中找到對應的re

原创 Kafka相關面試題及答案

Kafka中的ISR、AR又代表什麼 ISR:與leader保持同步的follower集合 AR:分區的所有副本 Kafka中的HW、LEO等分別代表什麼? LEO:沒個副本的最後條消息的offset HW:一個分區中所有副本最小

原创 HBase詳細安裝

Zookeeper正常部署 首先保證Zookeeper集羣的正常部署,並啓動之: [liujh@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start [liujh@hadoop103

原创 Kafka架構詳細深入

Kafka工作流程及文件存儲機制 Kafka中消息是以topic進行分類的,生產者生產消息,消費者消費消息,都是面向topic的。 topic是邏輯上的概念,而partition是物理上的概念,每個partition對應於一個l

原创 HBase 詳細API操作

環境準備 新建項目後在pom.xml中添加依賴: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifac

原创 Kafka超詳細消費者詳解

消費方式 consumer採用pull(拉)模式從broker中讀取數據。 push(推)模式很難適應消費速率不同的消費者,因爲消息發送速率是由broker決定的。它的目標是儘可能以最快速度傳遞消息,但是這樣很容易造成consum

原创 HBase 與Hive的集成詳解

HBase與Hive的對比 Hive 數據倉庫 Hive的本質其實就相當於將HDFS中已經存儲的文件在Mysql中做了一個雙射關係,以方便使用HQL去管理查詢。 用於數據分析、清洗 Hive適用於離線的數據分析和清洗,延遲較高。

原创 HBase數據結構詳解

RowKey 與nosql數據庫們一樣,RowKey是用來檢索記錄的主鍵。訪問HBASE table中的行,只有三種方式: 通過單個RowKey訪問(get) 通過RowKey的range(正則)(like) 全表掃描(scan

原创 HBase MapReduce 詳解

通過HBase的相關JavaAPI,我們可以實現伴隨HBase操作的MapReduce過程,比如使用MapReduce將數據從本地文件系統導入到HBase的表中,比如我們從HBase中讀取一些原始數據後使用MapReduce做數據

原创 Kafka API詳解

Producer API 消息發送流程 Kafka的Producer發送消息採用的是異步發送的方式。在消息發送的過程中,涉及到了兩個線程——main線程和Sender線程,以及一個線程共享變量——RecordAccumulator

原创 HBase Shell詳細操作

基本操作 進入HBase客戶端命令行 [liujh@hadoop102 hbase]$ bin/hbase shell 查看幫助命令 hbase(main):001:0> help 查看當前數據庫中有哪些表 hba