Hbase之建表高級應用(1)

原創

2020-07-01 16:02

1、BLOOMFILTER 默認是NONE 是否使用布隆過慮及使用何種方式
布隆過濾可以每列族單獨啓用。
使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 對列族單獨啓用布隆。

Default = ROW 對行進行布隆過濾。
對 ROW，行鍵的哈希在每次插入行時將被添加到布隆。
對 ROWCOL，行鍵 + 列族 + 列族修飾的哈希將在每次插入行時添加到布隆
使用方法: create ‘table’,{BLOOMFILTER =>’ROW’}
啓用布隆過濾可以節省讀磁盤過程，可以有助於降低讀取延遲

2、VERSIONS 默認是1 這個參數的意思是數據保留1個版本，如果我們認爲我們的數據沒有這麼大的必要保留這麼多，隨時都在更新，而老版本的數據對我們毫無價值，那將此參數設爲1 能節約2/3的空間
使用方法: create ‘table’,{VERSIONS=>’2’}

附：MIN_VERSIONS => ‘0’是說在compact操作執行之後，至少要保留的版本

3、COMPRESSION 默認值是NONE 即不使用壓縮
這個參數意思是該列族是否採用壓縮，採用什麼壓縮算法
使用方法: create ‘table’,{NAME=>’info’,COMPRESSION=>’SNAPPY’}
建議採用SNAPPY壓縮算法
HBase中，在Snappy發佈之前（Google 2011年對外發布Snappy），採用的LZO算法，目標是達到儘可能快的壓縮和解壓速度，同時減少對CPU的消耗；
在Snappy發佈之後，建議採用Snappy算法（參考《HBase: The Definitive Guide》），具體可以根據實際情況對LZO和Snappy做過更詳細的對比測試後再做選擇。

Algorithm % remaining Encoding Decoding
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Zippy/Snappy 22.2% 172 MB/s 409 MB/s
如果建表之初沒有壓縮，後來想要加入壓縮算法，可以通過alter修改schema

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探討篇（一）：服務粒度的藝術 - 簡化架構與避免服務氾濫

一、背景上週小組有個需求上線牽扯9個應用（小組目前維護了26個服務，由於團隊系統業務屬性特徵基於高可用、高性能原則拆分，有些是合理的，有些不是很合理的），同時上週OpsReview的一個微服務濫用典範案例（Promise服務A調用服務B，

2024-05-20 23:55:39

消費者太多！RocketMQ又炸了！

去年寫過一篇《Topic數量太多！RocketMQ炸了！》，大家評價還不錯。結果，2024年的開頭，我們的RocketMQ又炸了！ 1、問題現象先說明下RocketMQ版本， 4.6.0的老版本了。線下環境客戶端啓動會頻

2024-05-13 12:34:50

HBase Meta 元信息表修復實踐

作者：vivo 互聯網大數據團隊 - Huang Guihu、Chen Shengzun HBase是一款開源高可靠、高可擴展性、高性能的分佈式非關係型數據庫，廣泛應用於大數據處理、實時計算、數據存儲和檢索等領域。在分佈式集羣中，硬件故

2024-05-09 12:43:33

MySQL死鎖排查，原來我一直沒懂。。。

喜大普奔，微信給我的公衆號開了留言功能！！！有緣看到這篇文章的朋友，可以留個言互動下，謝謝～最近線上偶發MySQL的死鎖異常，發現原來很多理論都只背了個結論，細節都是魔鬼。比如，MySQL在RR級別用gap lock防止幻讀，

2024-04-23 23:10:58

倒排索引關鍵點普及

倒排索引倒排索引是什麼？爲什麼es、hbase、doris、starrocks都有倒排索引？倒排索引（英文：Inverted Index），是一種索引方法，常被用於全文檢索系統中的一種單詞文檔映射結構。現代搜索引擎絕大多數的索引都是基

2024-03-21 00:14:06

究竟什麼樣的數據庫，才能承接RTA廣告這個技術活！

本文分享自華爲雲社區《究竟什麼樣的數據庫，才能承接RTA廣告這個技術活！》，作者： GaussDB 數據庫。廣告投放費錢效果差，該如何解？廣告投放是企業宣傳營銷不可或缺的一部分。尤其是在新媒體發展白熱化的當下，不僅廣告渠道多樣化，投放

2024-03-20 10:55:19

菜鳥+Hologres=智能物流

作者：阿里巴巴菜鳥物流團隊（棄疾，孝江，姜繼忠）一、業務背景菜鳥智能物流分析引擎是基於搜索架構建設的物流查詢平臺，日均處理包裹事件幾十億，承載了菜鳥物流數據的大部分處理任務。智能物流分析引擎將基於運配網絡的各類應用場景集中到了統一的一

雲棲號資訊小編

2020-08-17 11:25:47

有哪些大數據處理工具？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：近幾年裏，大數據行業發展勢頭迅猛，故而相應的分佈式產品和架構層出不窮，本文分享作者在大數據系統實踐過程中接觸過的一些工具及使

雲棲號資訊小編

2020-07-22 12:37:48

dataX從mysql導出數據到hbase

業務數據庫中存了大量的歷史數據，導致在根據業務條件查詢數據的時候效率太低。因此考慮將原始的業務數據通過SQL先做一遍處理後放到中間表，然後再把中間表的數據同步到hbase，以後直接從hbase查詢數據。當然這個還涉及到增量數據如何同步，如

2020-07-08 10:43:37

hbase2.1.6 mr

1.hbase配置mapreduce依賴包編輯Hadoop的hadoop-env.sh文件 2.重啓hbase和Hadoop 上面配置爲hadoop-env.sh後，需要重啓才能生效。 3.在HBASE_HOME下運行命令即可 /v

2020-07-08 10:43:37

hbase2.1.6協處理器使用

對於2.1.6這個版本，使用協處理器需要引入hbase-common依賴。協處理器分爲兩種，一種是observer協處理器，一種是endpoint協處理器。下面首先記錄第一種協處理器的使用步驟。一、observer協處理器案例背景

2020-07-08 10:43:36

hbase爲什麼能夠實現實時讀寫

首先，需要明確的是，Hbase寫入速度比讀取速度要快，根本原因LSM存儲引擎 Hbase底層的存儲引擎爲LSM-Tree(Log-Structured Merge-Tree)。 LSM核心思想的核心就是放棄部分讀能力，換取寫入的最大化能力

2020-07-08 10:43:36

僞分佈Hadoop2.7.6 hbase2.1.8升級到Hadoop3.1.3 hbase2.1.10

如果Hadoop集羣配置了高可用，則可以進行不停服的滾動升級。但現在是僞分佈的單節點集羣，因此需要停止Hadoop及相關的應用，包括hbase、zookeeper等。 Hadoop升級因爲目前有跑flink作業，checkpoint是放

2020-07-08 10:43:24

hbase環境搭建及使用

conf/hbase-env.sh export JAVA_HOME=/data/home/software/jdk1.8.0_202 export HBASE_MANAGES_ZK=false hbase-site.xml <con

fanghailiang2016

2020-07-08 10:12:20

Hbase 之 HBase 的整體架構

HBase 系統架構圖組成部件說明　　Client：　　使用HBase RPC機制與HMaster和HRegionServer進行通信　　Client與HMaster進行通信進行管理類操作　　Client與HRegion

2020-07-08 00:38:07

24小時熱門文章

最新文章

最新評論文章