HBase开启Snappy压缩

原創

2020-06-20 12:44

背景

HBase是目前主流的Nosql数据库之一，由于其优秀的水平扩展能力，业界常将其用来存储海量级的数据。在我们使用HBase的时候，为了节省服务器的存储成本，建议开启HBase的数据压缩特性。主流的HBase压缩方式有LZO和Snappy，Snappy的压缩比会稍微优于LZO。需要注意的是，Snappy是需要单独下载并编译安装的，此过程不在本文讨论范文之内，本文主要介绍如何通过HBase shell来开启Snappy压缩。

步骤

指定Snappy的场景有两种：

创建时指定格式。
修改已经创建好的列族的压缩格式。

创建

我们可以在一开始创建表的时候就指定Snappy压缩格式：

hbase> create 'test', { NAME => 'c', COMPRESSION => 'SNAPPY' }
hbase> describe 'test'
Table test is ENABLED
test
COLUMN FAMILIES DESCRIPTION
{NAME => 'c', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION => 'SNAPPY', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP
_DELETED_CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

修改

通过describe，我们可以看到test表的压缩格式为SNAPPY。

假设我们已经有了一张表，并且表里也有了数据，我们照样可以在表上添加Snappy压缩格式。

我们以test表为例

1.我们先创建一张不含任何压缩格式的test表，并且向其导入10多G的数据：

我们可以看到，在未压缩之前，test表的数据在hdfs上一共占用了12.2G的磁盘空间

$ hadoop fs -du -h /hbase/data/default/
12.2 G /hbase/data/default/test

2.然后disable test表：

hbase> disable 'test'

3.修改压缩格式：

需要注意的是，修改压缩格式时，必须一个列族一个列族的改

hbase> alter 'test', NAME => 'c', COMPRESSION => 'snappy'

4.enable test表：

hbase> enable 'test'

5.enable之后，还需要做一次大合并才能让压缩格式生效：

需要注意的是，千万不要在表繁忙期间执行大合并操作

hbase> major_compact 'test'

6.describe test表看一下有没有生效：

hbase> describe 'test'
Table test is ENABLED
test
COLUMN FAMILIES DESCRIPTION
{NAME => 'c', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION => 'SNAPPY', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP
_DELETED_CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

7.最后我们看一下，开启了Snappy之后的压缩比：

我们可以看到将近压缩了33%，还是十分可观的

$ hadoop fs -du -h /hbase/data/default/
8.1 G /hbase/data/default/test

总结

本文主要介绍了如何利用HBase shell在表上开启Snappy压缩。通过实践表明，Snappy拥有较高的压缩比。通过开启Snappy压缩，企业可以极大地节省磁盘存储成本，尤其是当企业采用SSD存储时，节省的成本将会更多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HBase开启Snappy压缩

背景

步骤

创建

修改

总结

Nginx R31 doc 官方文档-01-nginx 如何安装

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

基於hbase 的微博案例

深入Java設計模式之組合模式

深入Java設計模式之訪問者模式

深入Java設計模式之釋器模式

MySQL存儲過程中雙層遊標嵌套循環實例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結