hbase 爲什麼查詢比較快

原創

2020-06-29 17:10

第一、數據分區存儲（region）

通過rowkey可以快速地位到在那個region上，位置信息保存在hbase的meta表裏。

每次查詢都會有location cache的，所以htable裏面的Hconnection 初始化的時候訪問速度相對來說稍慢，客戶端緩存截圖如下。

隨着數據越來越大，meta表的查詢有可能遇到瓶頸，建議單獨獨立出成一個meta server。

（備註：一個meta表的一條記錄大概爲1k）。

第二、hbase的數據格式 HFile V2 (HFile V1代碼已經出hbase版本刪除了)

B、查詢數據block的次數和HFile內部數據分開+索引分塊

1、bloomfilter改進查找次數

2、hbase的三維順序，按照rowkey，column，ts進行排序，rowkey和column是升序，

ts是降序

3、對於一次隨機讀block的訪問順序是bloomblock(多次) 、indexblock(1次) 、datablock(1次)

分塊+分級索引(RootDataIndex、 IntermediateLevel ROOT INDEX 【備選如果HFile size 過大，就啓用】、Leaf index block)

bloom filter介紹：

另外hbase各種過濾器在我們查詢中用到，大家瞭解下的：

1、Comparision Filters
     1.1 RowFilter
1.2 FamilyFilter
     1.3 QualifierFilter
     1.4 ValueFilter
     1.5 DependentColumnFilter
2、Dedicated Filters
     2.1 SingleColumnValueFilter
     2.2 SingleColumnValueExcludeFilter
     2.3 PrefixFilter
     2.4 PageFilter
     2.5 KeyOnlyFilter
     2.6 FirstKeyOnlyFilter
     2.7 TimestampsFilter
     2.8 RandomRowFilter
3、Decorating Filters
     3.1 SkipFilter
     3.2 WhileMatchFilters

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySQL死鎖排查，原來我一直沒懂。。。

喜大普奔，微信給我的公衆號開了留言功能！！！有緣看到這篇文章的朋友，可以留個言互動下，謝謝～最近線上偶發MySQL的死鎖異常，發現原來很多理論都只背了個結論，細節都是魔鬼。比如，MySQL在RR級別用gap lock防止幻讀，

2024-04-23 23:10:58

倒排索引關鍵點普及

倒排索引倒排索引是什麼？爲什麼es、hbase、doris、starrocks都有倒排索引？倒排索引（英文：Inverted Index），是一種索引方法，常被用於全文檢索系統中的一種單詞文檔映射結構。現代搜索引擎絕大多數的索引都是基

2024-03-21 00:14:06

究竟什麼樣的數據庫，才能承接RTA廣告這個技術活！

本文分享自華爲雲社區《究竟什麼樣的數據庫，才能承接RTA廣告這個技術活！》，作者： GaussDB 數據庫。廣告投放費錢效果差，該如何解？廣告投放是企業宣傳營銷不可或缺的一部分。尤其是在新媒體發展白熱化的當下，不僅廣告渠道多樣化，投放

2024-03-20 10:55:19

菜鳥+Hologres=智能物流

作者：阿里巴巴菜鳥物流團隊（棄疾，孝江，姜繼忠）一、業務背景菜鳥智能物流分析引擎是基於搜索架構建設的物流查詢平臺，日均處理包裹事件幾十億，承載了菜鳥物流數據的大部分處理任務。智能物流分析引擎將基於運配網絡的各類應用場景集中到了統一的一

雲棲號資訊小編

2020-08-17 11:25:47

有哪些大數據處理工具？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：近幾年裏，大數據行業發展勢頭迅猛，故而相應的分佈式產品和架構層出不窮，本文分享作者在大數據系統實踐過程中接觸過的一些工具及使

雲棲號資訊小編

2020-07-22 12:37:48

dataX從mysql導出數據到hbase

業務數據庫中存了大量的歷史數據，導致在根據業務條件查詢數據的時候效率太低。因此考慮將原始的業務數據通過SQL先做一遍處理後放到中間表，然後再把中間表的數據同步到hbase，以後直接從hbase查詢數據。當然這個還涉及到增量數據如何同步，如

2020-07-08 10:43:37

hbase2.1.6 mr

1.hbase配置mapreduce依賴包編輯Hadoop的hadoop-env.sh文件 2.重啓hbase和Hadoop 上面配置爲hadoop-env.sh後，需要重啓才能生效。 3.在HBASE_HOME下運行命令即可 /v

2020-07-08 10:43:37

hbase2.1.6協處理器使用

對於2.1.6這個版本，使用協處理器需要引入hbase-common依賴。協處理器分爲兩種，一種是observer協處理器，一種是endpoint協處理器。下面首先記錄第一種協處理器的使用步驟。一、observer協處理器案例背景

2020-07-08 10:43:36

hbase爲什麼能夠實現實時讀寫

首先，需要明確的是，Hbase寫入速度比讀取速度要快，根本原因LSM存儲引擎 Hbase底層的存儲引擎爲LSM-Tree(Log-Structured Merge-Tree)。 LSM核心思想的核心就是放棄部分讀能力，換取寫入的最大化能力

2020-07-08 10:43:36

僞分佈Hadoop2.7.6 hbase2.1.8升級到Hadoop3.1.3 hbase2.1.10

如果Hadoop集羣配置了高可用，則可以進行不停服的滾動升級。但現在是僞分佈的單節點集羣，因此需要停止Hadoop及相關的應用，包括hbase、zookeeper等。 Hadoop升級因爲目前有跑flink作業，checkpoint是放

2020-07-08 10:43:24

hbase環境搭建及使用

conf/hbase-env.sh export JAVA_HOME=/data/home/software/jdk1.8.0_202 export HBASE_MANAGES_ZK=false hbase-site.xml <con

fanghailiang2016

2020-07-08 10:12:20

Hbase 之 HBase 的整體架構

HBase 系統架構圖組成部件說明　　Client：　　使用HBase RPC機制與HMaster和HRegionServer進行通信　　Client與HMaster進行通信進行管理類操作　　Client與HRegion

2020-07-08 00:38:07

淘寶海量數據產品技術架構

轉自： http://blog.csdn.net/smarttony/article/details/6667944 淘寶數據魔方技術架構解析淘寶網擁有國內最具商業價值的海量數據。截至當前，每天有超過30億的店鋪、商品瀏覽記錄，

迷失的小书童

2020-07-07 20:59:04

巔峯對決：Hypertable(C++)吞吐率測試完勝HBase(Java)

導讀：衆所周知，2006年Google公佈了自己的BigTable論文，作爲Google繼GFS和MapReduce兩項創新之後的又一項創新，其在設計用來針對海量數據處理情形下的管理結構型數據方面具有着巨大的技術優勢。而Hypertabl

2020-07-07 15:10:10

Java操作Hbase

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.h

2020-07-07 14:03:40

24小時熱門文章

最新文章

最新評論文章