HBase架構解析二

原創

2020-02-22 10:20

HBase讀的實現

通過前文的描述，我們知道在HBase寫時，相同Cell(RowKey/ColumnFamily/Column相同)並不保證在一起，甚至刪除一個Cell也只是寫入一個新的Cell，它含有Delete標記，而不一定將一個Cell真正刪除了，因而這就引起了一個問題，如何實現讀的問題？要解決這個問題，我們先來分析一下相同的Cell可能存在的位置：首先對新寫入的Cell，它會存在於MemStore中；然後對之前已經Flush到HDFS中的Cell，它會存在於某個或某些StoreFile(HFile)中；最後，對剛讀取過的Cell，它可能存在於BlockCache中。既然相同的Cell可能存儲在三個地方，在讀取的時候只需要掃瞄這三個地方，然後將結果合併即可(Merge
Read)，在HBase中掃瞄的順序依次是：BlockCache、MemStore、StoreFile(HFile)。其中StoreFile的掃瞄先會使用Bloom Filter過濾那些不可能符合條件的HFile，然後使用Block Index快速定位Cell，並將其加載到BlockCache中，然後從BlockCache中讀取。我們知道一個HStore可能存在多個StoreFile(HFile)，此時需要掃瞄多個HFile，如果HFile過多又是會引起性能問題。

Compaction

MemStore每次Flush會創建新的HFile，而過多的HFile會引起讀的性能問題，那麼如何解決這個問題呢？HBase採用Compaction機制來解決這個問題，有點類似Java中的GC機制，起初Java不停的申請內存而不釋放，增加性能，然而天下沒有免費的午餐，最終我們還是要在某個條件下去收集垃圾，很多時候需要Stop-The-World，這種Stop-The-World有些時候也會引起很大的問題，比如參考本人寫的這篇文章，因而設計是一種權衡，沒有完美的。還是類似Java中的GC，在HBase中Compaction分爲兩種：Minor
Compaction和Major Compaction。

Minor Compaction是指選取一些小的、相鄰的StoreFile將他們合併成一個更大的StoreFile，在這個過程中不會處理已經Deleted或Expired的Cell。一次Minor Compaction的結果是更少並且更大的StoreFile。（這個是對的嗎？BigTable中是這樣描述Minor Compaction的：As write operations execute, the size of the memtable in- creases. When the memtable size reaches a threshold, the memtable is frozen, a new memtable is created, and the frozen memtable is converted to an SSTable and written to GFS. This minor compaction process has two goals: it shrinks the memory usage of the tablet server, and it reduces the amount of data that has to be read from the commit log during recovery if this server dies. Incom- ing read and write operations can continue while com- pactions occur. 也就是說它將memtable的數據flush的一個HFile/SSTable稱爲一次Minor Compaction）
Major Compaction是指將所有的StoreFile合併成一個StoreFile，在這個過程中，標記爲Deleted的Cell會被刪除，而那些已經Expired的Cell會被丟棄，那些已經超過最多版本數的Cell會被丟棄。一次Major Compaction的結果是一個HStore只有一個StoreFile存在。Major Compaction可以手動或自動觸發，然而由於它會引起很多的IO操作而引起性能問題，因而它一般會被安排在週末、凌晨等集羣比較閒的時間。

更形象一點，如下面兩張圖分別表示Minor Compaction和Major Compaction。

HRegion Split

最初，一個Table只有一個HRegion，隨着數據寫入增加，如果一個HRegion到達一定的大小，就需要Split成兩個HRegion，這個大小由hbase.hregion.max.filesize指定，默認爲10GB。當split時，兩個新的HRegion會在同一個HRegionServer中創建，它們各自包含父HRegion一半的數據，當Split完成後，父HRegion會下線，而新的兩個子HRegion會向HMaster註冊上線，處於負載均衡的考慮，這兩個新的HRegion可能會被HMaster分配到其他的HRegionServer中。關於Split的詳細信息，可以參考這篇文章：《Apache
HBase Region Splitting and Merging》。

HRegion負載均衡

在HRegion Split後，兩個新的HRegion最初會和之前的父HRegion在相同的HRegionServer上，出於負載均衡的考慮，HMaster可能會將其中的一個甚至兩個重新分配的其他的HRegionServer中，此時會引起有些HRegionServer處理的數據在其他節點上，直到下一次Major
Compaction將數據從遠端的節點移動到本地節點。

HRegionServer Recovery

當一臺HRegionServer宕機時，由於它不再發送Heartbeat給ZooKeeper而被監測到，此時ZooKeeper會通知HMaster，HMaster會檢測到哪臺HRegionServer宕機，它將宕機的HRegionServer中的HRegion重新分配給其他的HRegionServer，同時HMaster會把宕機的HRegionServer相關的WAL拆分分配給相應的HRegionServer(將拆分出的WAL文件寫入對應的目的HRegionServer的WAL目錄中，並並寫入對應的DataNode中），從而這些HRegionServer可以Replay分到的WAL來重建MemStore。

HBase架構簡單總結

在NoSQL中，存在著名的CAP理論，即Consistency、Availability、Partition Tolerance不可全得，目前市場上基本上的NoSQL都採用Partition Tolerance以實現數據得水平擴展，來處理Relational DataBase遇到的無法處理數據量太大的問題，或引起的性能問題。因而只有剩下C和A可以選擇。HBase在兩者之間選擇了Consistency，然後使用多個HMaster以及支持HRegionServer的failure監控、ZooKeeper引入作爲協調者等各種手段來解決Availability問題，然而當網絡的Split-Brain(Network
Partition)發生時，它還是無法完全解決Availability的問題。從這個角度上，Cassandra選擇了A，即它在網絡Split-Brain時還是能正常寫，而使用其他技術來解決Consistency的問題，如讀的時候觸發Consistency判斷和處理。這是設計上的限制。

從實現上的優點：

HBase採用強一致性模型，在一個寫返回後，保證所有的讀都讀到相同的數據。
通過HRegion動態Split和Merge實現自動擴展，並使用HDFS提供的多個數據備份功能，實現高可用性。
採用HRegionServer和DataNode運行在相同的服務器上實現數據的本地化，提升讀寫性能，並減少網絡壓力。
內建HRegionServer的宕機自動恢復。採用WAL來Replay還未持久化到HDFS的數據。
可以無縫的和Hadoop/MapReduce集成。

實現上的缺點：

WAL的Replay過程可能會很慢。
災難恢復比較複雜，也會比較慢。
Major Compaction會引起IO Storm。
。。。。

發佈了87 篇原創文章 · 獲贊 50 · 訪問量 23萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

JimuReport 積木報表 v1.7.5 版本發佈，免費的JAVA報表工具

項目介紹一款免費的數據可視化報表工具，含報表和大屏設計，像搭建積木一樣在線設計報表！功能涵蓋，數據報表、打印設計、圖表報表、大屏設計等！ Web 版報表設計器，類似於excel操作風格，通過拖拽完成報表設計。秉承“簡單、易用、專業”

2024-06-07 01:13:43

營銷系統黑名單優化：位圖的應用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

跨越雲端，華爲雲技術專家分享高效跨雲遷移實踐

本文分享自華爲雲社區《【華爲雲Stack】【大架光臨】第18期：跨越雲端，華爲雲Stack的高效跨雲遷移實踐》，作者：大架光臨。 1 背景在企業雲化的浪潮中，混合多雲已經是企業IT部署的新常態，虛擬機承載的業務佔據很大的比重。在上雲

2024-06-06 10:56:54

高效啓動DolphinScheduler工作流：Java URL調用詳解

轉載自牛肉胡辣湯在大數據分析和處理的領域中，DolphinScheduler是一個開源的分佈式工作流調度系統，可以用於調度和管理複雜的工作流任務。本文將介紹如何使用Java中的URL類來調用DolphinScheduler的API，實現啓

2024-06-04 21:21:59

【數智化人物展】白鯨開源CEO郭煒：大模型時代下DataOps驅動企業數智化升級

本文由白鯨開源CEO郭煒投遞並參與由數據猿聯合上海大數據聯盟共同推出的《2024中國數智化轉型升級先鋒人物》榜單/獎項評選。隨着大數據、人工智能技術的飛速發展，我們已邁入了一個全新的時代------大模型時代。在這個時代背景下，企業提高

2024-06-04 21:21:58

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

圖表控件LightningChart JS v5.2正式發佈 - 全新的開發體驗

LightningChart JS是Web上性能特高的圖表庫，具有出色的執行性能 - 使用高數據速率同時監控數十個數據源。 GPU加速和WebGL渲染確保您的設備的圖形處理器得到有效利用，從而實現高刷新率和流暢的動畫，常用於貿易，工程，航空

2024-05-23 12:20:12

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

安全分析：國內一些常見的汽車保險欺詐案件

2024年3月，北京警方打掉一個故意製造事故實施騙保的專業保險詐騙犯罪團伙。此案中，某保險公司在職員工與離職員工、定點汽修廠內外勾連，通過虛構、故意製造車輛事故或對事故擴損等手段騙取理賠款。不久前，遼寧警方也破獲一起自導自演僞造車禍騙保的案

2024-05-22 00:17:52

探討篇（一）：服務粒度的藝術 - 簡化架構與避免服務氾濫

一、背景上週小組有個需求上線牽扯9個應用（小組目前維護了26個服務，由於團隊系統業務屬性特徵基於高可用、高性能原則拆分，有些是合理的，有些不是很合理的），同時上週OpsReview的一個微服務濫用典範案例（Promise服務A調用服務B，

2024-05-20 23:55:39

24小時熱門文章

最新文章

最新評論文章