HBase性能优化一：写表操作

原創

2020-06-02 00:31

1.HTable参数设置

1.1 Auto Flush

通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存时，才实际向HBase服务端发起写请求。默认情况下auto flush是开启的。

1.2 Write Buffer

通过调用HTable.setWriteBufferSize(writeBufferSize)方法可以设置HTable客户端的写buffer大小，如果新设置的buffer小于当前写buffer中的数据时，buffer将会被flush到服务端。其中，writeBufferSize的单位是byte字节数，可以根据实际写入数据量的多少来设置该值。

1.3 WAL Flag

在HBae中，客户端向集群中的RegionServer提交数据时（Put/Delete操作），首先会先写WAL（Write Ahead Log）日志（即HLog，一个RegionServer上的所有Region共享一个HLog），只有当WAL日志写成功后，再接着写MemStore，然后客户端被通知提交数据成功；如果写WAL日志失败，客户端则被通知提交失败。这样做的好处是可以做到RegionServer宕机后的数据恢复。

因此，对于相对不太重要的数据，可以在Put/Delete操作时，通过调用Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函数，放弃写WAL日志，从而提高数据写入的性能。

值得注意的是：谨慎选择关闭WAL日志，因为这样的话，一旦RegionServer宕机，Put/Delete的数据将会无法根据WAL日志进行恢复。

2.批量写

通过调用HTable.put(Put)方法可以将一个指定的row key记录写入HBase，同样HBase提供了另一个方法：通过调用HTable.put(List<Put>)方法可以将指定的row key列表，批量写入多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高，网络传输RTT高的情景下可能带来明显的性能提升。

3.并发写

多个节点上百线程的并发写

4.表优化

4.1 预分区

默认情况下，在创建表的时候会自动创建一个region分区，当写入数据时候，所有的HBase客户端都会往这个region写数据，直到这个region的达到设置的阈值（默认是256M，可以通过hbase.hregion.max.filesize设置）才进行split切分。所以，在我们创建HBase表的时候，如果预先知道我们的数据量大小，是可以进行创建一些预分区，这样数据写入时，会按照region的分区情况，在集群内做数据的负载均衡

4.2 rowkey的设计

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HBase性能优化一：写表操作

1.HTable参数设置

1.1 Auto Flush

1.2 Write Buffer

1.3 WAL Flag

2.批量写

3.并发写

4.表优化

4.1 预分区

4.2 rowkey的设计

如何使用 JS 判断用户是否处于活跃状态

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

Elasticsearch分片、副本與路由(shard replica routing)

Maven3種打包方式

零和博弈與囚徒困境

hue中oozie從mysql導入hive報錯 Could not load db driver class: com.mysql.jdbc.Driver

Centos7 搭建pptp服務器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結