HBase詳細原理

原創

大数据小同学

2020-07-07 00:39

讀流程

Client先訪問zookeeper，從meta表讀取region的位置，然後讀取meta表中的數據。meta中又存儲了用戶表的region信息；
根據namespace、表名和rowkey在meta表中找到對應的region信息；
找到這個region對應的regionserver；
查找對應的region；
先從MemStore找數據，如果沒有，再到BlockCache裏面讀；
BlockCache還沒有，再到StoreFile上讀(爲了讀取的效率)；
如果是從StoreFile裏面讀取的數據，不是直接返回給客戶端，而是先寫入BlockCache，再返回給客戶端。

寫流程

Client向HregionServer發送寫請求；
HregionServer將數據寫到HLog（write ahead log）。爲了數據的持久化和恢復；
HregionServer將數據寫到內存（MemStore）；
反饋Client寫成功。

數據flush過程

當MemStore數據達到閾值（默認是128M，老版本是64M），將數據刷到硬盤，將內存中的數據刪除，同時刪除HLog中的歷史數據；
並將數據存儲到HDFS中；
在HLog中做標記點。

數據合併過程

當數據塊達到3塊，Hmaster觸發合併操作，Region將數據塊加載到本地，進行合併；
當合並的數據超過256M，進行拆分，將拆分後的Region分配給不同的HregionServer管理；
當HregionServer宕機後，將HregionServer上的hlog拆分，然後分配給不同的HregionServer加載，修改.META.；
注意：HLog會同步到HDFS。

簡書：https://www.jianshu.com/u/0278602aea1d
CSDN：https://blog.csdn.net/u012387141

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySQL死鎖排查，原來我一直沒懂。。。

喜大普奔，微信給我的公衆號開了留言功能！！！有緣看到這篇文章的朋友，可以留個言互動下，謝謝～最近線上偶發MySQL的死鎖異常，發現原來很多理論都只背了個結論，細節都是魔鬼。比如，MySQL在RR級別用gap lock防止幻讀，

2024-04-23 23:10:58

流水線運行出錯排查難？AI 來幫你

“我的企業有幾千條流水線，每次流水線運行出錯，都要投入不少的技術人員進去排查，需要花費不少的時間。” 遇到這種情況，怎麼解決。在 AI 爆火的今天，AI 如何助力 DevOps 效率提升？雲效與阿里雲通義大模型合作，推出了流水線智能排查能

2024-04-24 21:12:07

西安站開營！AI 編碼助手通義靈碼幫大學生“整活兒”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

「Java開發指南」如何利用MyEclipse啓用Spring DSL？（二）

本教程將引導您通過啓用Spring DSL和使用Service Spring DSL抽象來引導Spring和Spring代碼生成項目，本教程中學習的技能也可以很容易地應用於其他抽象。在本教程中，您將學習如何：爲Spring DSL初始化

2024-04-24 11:35:31

Java中的複製

在Java中將一個對象的引用複製給另外一個對象，一共有三種方式：直接賦值，淺拷貝，深拷貝。這三種方式實際上都是拷貝對象。直接賦值複製直接賦值：如 A a1 = a2，我們需要理解的是這實際上覆制的是引用，也就是說 a1 和 a2 指

2024-04-23 23:33:35

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

一次Redis訪問超時的“捉蟲”之旅

01 引言作爲後端開發人員，對Redis肯定不陌生，它是一款基於內存的數據庫，讀寫速度非常快。在愛奇藝海外後端的項目中，我們也廣泛使用Redis，主要用於緩存、消

2024-04-23 13:04:36

日誌架構演進：從集中式到分佈式的Kubernetes日誌策略

當我們沒有使用雲原生方案部署應用時採用的日誌方案往往是 ELK 技術棧。這套技術方案比較成熟，穩定性也很高，所以幾乎成爲了當時的標配。可是隨着我們使用 kubernetes 步入雲原生的時代後， kubernetes 把以往的操作系統

2024-04-23 11:47:10

Java中List、Set、Map的區別

結構特點 List 和 Set 是存儲單列數據的集合，Map 是存儲鍵和值這樣的雙列數據的集合；List 中存儲的數據是有順序，並且允許重複；Map 中存儲的數據是沒有順序的，其鍵是不能重複的，它的值是可以有重複的，Set 中存儲的數據

2024-04-22 21:31:29

下載量超 200 萬，最近頻繁登上熱搜的 AI 程序員，大家怎麼看

人狠話不多，會熟練使用 200 多種編程語言，寫得了代碼，做得了測試，7 天 24 小時隨叫隨到…… 硅基程序員通義靈碼首次入職阿里雲，有網友說：終於不穿格子衫了！還有網友說：這簡歷，作爲一個 HR 我很難不心動！人狠話不多的通義靈碼，

2024-04-22 21:12:06

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

在Java中，Semaphore和CountDownLatch都是用於線程同步的工具類，但它們的應用場景不同。Semaphore用於控制同時訪問某些資源的線程數量，而CountDownLatch用於等待一組線程完成他們的操作。如果我們想要

2024-04-20 00:54:02

Java中的Semaphore和CountDownLatch這兩個工具類的使用方法和實際應用場景

在現代的多線程編程中，Semaphore和CountDownLatch是兩個非常常見和重要的工具類，它們都可以用來實現多線程間的同步和互斥，提高程序的併發性能和效率。本文將詳細介紹Java中的Semaphore和CountDownLatch

2024-04-20 00:54:00

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

24小時熱門文章

最新文章

最新評論文章