Hbase schema&table 設計實踐

原創

修鹏李

2020-02-22 12:54

1、rowkey設計不要連續，最好是hash後的結果,避免連續寫單個region server壓力過大。

2、columnfamily儘量少，原因是過多的columnfamily之間會互相影響

3、VERSIONS 最大版本數：通常是3，如果對於更新比較頻繁的應用完全可以設置爲1，能夠快速的淘汰無用數據，對於節省存儲空間和提高查詢速度有效果。不過這類需求在海量數據領域比較小衆。

4、COMPRESSION壓縮算法：可以嘗試snappy算法，相對lzo來說，壓縮率接近，壓縮效率稍高，解壓效率高很多。

5、bloomfilter：根據應用來定，看需要精確到rowkey還是column,通常精確rowkey就可以。不過這裏需要理解一下原理，bloomfilter的作用是對一個region下查找記錄所在的hfile有用。即如果一個region下的hfile數量很多，bloomfilter的作用越明顯。適合那種compaction趕不上flush速度的應用

6、inmemory：表在內存中存放，一直會被忽略的屬性(false)。如果完全將數據存放在內存中，那麼hbase和現在流行的內存數據庫memcached和redis性能差距有多少，尚待實測。

下面以視頻個性化推薦系統爲例，介紹常見的兩種常用的schema設計模式：

第一種推薦模型存儲方式【固定列】：

對於column需要擴展的應用，column可以按普通的方式設計如下面第二種設計。但是對於列相對固定的應用，最好採用將一行記錄封裝到一個column中的方式，並採用Row /Family/Qualifier前綴樹形式進行壓縮，這樣能夠節省存儲空間並且可以提高查詢效率，其效率至少在二分查找以上。設置表的列屬性 DATA_BLOCK_ENCODING 值爲PREFIX_TREE ,PREFIX_TREE在壓縮空間的基礎上又可以減少CPU。

從作者【HBASE-4676】提供的DataBlock查找性能對比：