HBase性能調優

我們經常看到一些文章吹噓某產品如何如何快，如何如何強，而自己測試時卻不如描述的一些數據。其實原因可能在於你還不是真正理解其內部結構，對於其性能調優方法不夠了解。本文轉自TaoBao的Ken Wu同學的博客，是目前看到比較完整的HBase調優文章。

原文鏈接：HBase性能調優

因官方Book Performance Tuning部分章節沒有按配置項進行索引，不能達到快速查閱的效果。所以我以配置項驅動，重新整理了原文，並補充一些自己的理解，如有錯誤，歡迎指正。
配置優化
zookeeper.session.timeout
默認值：3分鐘（180000ms）
說明：RegionServer與Zookeeper間的連接超時時間。當超時時間到後，ReigonServer會被Zookeeper從RS集羣清單中移除，HMaster收到移除通知後，會對這臺server負責的regions重新balance，讓其他存活的RegionServer接管.
調優：這個timeout決定了RegionServer是否能夠及時的failover。設置成1分鐘或更低，可以減少因等待超時而被延長的failover時間。
不過需要注意的是，對於一些Online應用，RegionServer從宕機到恢復時間本身就很短的（網絡閃斷，crash等故障，運維可快速介入），如果調低timeout時間，反而會得不償失。因爲當ReigonServer被正式從RS集羣中移除時，HMaster就開始做balance了（讓其他RS根據故障機器記錄的WAL日誌進行恢復）。當故障的RS在人工介入恢復後，這個balance動作是毫無意義的，反而會使負載不均勻，給RS帶來更多負擔。特別是那些固定分配regions的場景。
hbase.regionserver.handler.count
默認值：10
說明：RegionServer的請求處理IO線程數。
調優：這個參數的調優與內存息息相關。
較少的IO線程，適用於處理單次請求內存消耗較高的Big PUT場景（大容量單次PUT或設置了較大cache的scan，均屬於Big PUT）或ReigonServer的內存比較緊張的場景。
較多的IO線程，適用於單次請求內存消耗低，TPS要求非常高的場景。設置該值的時候，以監控內存爲主要參考。
這裏需要注意的是如果server的region數量很少，大量的請求都落在一個region上，因快速充滿memstore觸發flush導致的讀寫鎖會影響全局TPS，不是IO線程數越高越好。
壓測時，開啓Enabling RPC-level logging，可以同時監控每次請求的內存消耗和GC的狀況，最後通過多次壓測結果來合理調節IO線程數。
這裏是一個案例 Hadoop and HBase Optimization for Read Intensive Search Applications，作者在SSD的機器上設置IO線程數爲100，僅供參考。
hbase.hregion.max.filesize
默認值：256M
說明：在當前ReigonServer上單個Reigon的最大存儲空間，單個Region超過該值時，這個Region會被自動split成更小的region。
調優：小region對split和compaction友好，因爲拆分region或compact小region裏的storefile速度很快，內存佔用低。缺點是split和compaction會很頻繁。
特別是數量較多的小region不停地split, compaction，會導致集羣響應時間波動很大，region數量太多不僅給管理上帶來麻煩，甚至會引發一些Hbase的bug。
一般512以下的都算小region。
大region，則不太適合經常split和compaction，因爲做一次compact和split會產生較長時間的停頓，對應用的讀寫性能衝擊非常大。此外，大region意味着較大的storefile，compaction時對內存也是一個挑戰。
當然，大region也有其用武之地。如果你的應用場景中，某個時間點的訪問量較低，那麼在此時做compact和split，既能順利完成split和compaction，又能保證絕大多數時間平穩的讀寫性能。
既然split和compaction如此影響性能，有沒有辦法去掉？
compaction是無法避免的，split倒是可以從自動調整爲手動。
只要通過將這個參數值調大到某個很難達到的值，比如100G，就可以間接禁用自動split（RegionServer不會對未到達100G的region做split）。
再配合RegionSplitter這個工具，在需要split時，手動split。
手動split在靈活性和穩定性上比起自動split要高很多，相反，管理成本增加不多，比較推薦online實時系統使用。
內存方面，小region在設置memstore的大小值上比較靈活，大region則過大過小都不行，過大會導致flush時app的IO wait增高，過小則因store file過多影響讀性能。
hbase.regionserver.global.memstore.upperLimit/lowerLimit
默認值：0.4/0.35
upperlimit說明：hbase.hregion.memstore.flush.size 這個參數的作用是當單個memstore達到指定值時，flush該memstore。但是，一臺ReigonServer可能有成百上千個memstore，每個memstore也許未達到flush.size，jvm的heap就不夠用了。該參數就是爲了限制memstores佔用的總內存。
當ReigonServer內所有的memstore所佔用的內存總和達到heap的40%時，HBase會強制block所有的更新並flush這些memstore以釋放所有memstore佔用的內存。
lowerLimit說明：同upperLimit，只不過當全局memstore的內存達到35%時，它不會flush所有的memstore，它會找一些內存佔用較大的memstore，做個別flush，當然更新還是會被block。lowerLimit算是一個在全局flush導致性能暴跌前的補救措施。爲什麼說是性能暴跌？可以想象一下，如果memstore需要在一段較長的時間內做全量flush，且這段時間內無法接受任何讀寫請求，對HBase集羣的性能影響是很大的。
調優：這是一個Heap內存保護參數，默認值已經能適用大多數場景。它的調整一般是爲了配合某些專屬優化，比如讀密集型應用，將讀緩存開大，降低該值，騰出更多內存給其他模塊使用。
這個參數會給使用者帶來什麼影響？
比如，10G內存，100個region，每個memstore 64M，假設每個region只有一個memstore，那麼當100個memstore平均佔用到50%左右時，就會達到lowerLimit的限制。假設此時，其他memstore同樣有很多的寫請求進來。在那些大的region未flush完，就可能又超過了upperlimit，則所有region都會被block，開始觸發全局flush。
不過，除了你的內存非常小或你的應用場景裏大多數都是讀，我覺得不需要去調這個參數。
hfile.block.cache.size
默認值：0.2
說明：storefile的讀緩存佔用Heap的大小百分比，0.2表示20%。該值直接影響數據讀的性能。
調優：當然是越大越好，如果讀比寫少，開到0.4-0.5也沒問題。如果讀寫較均衡，0.3左右。如果寫比讀多，果斷默認吧。設置這個值的時候，你同時要參考 hbase.regionserver.global.memstore.upperLimit ，該值是memstore佔heap的最大百分比，兩個參數一個影響讀，一個影響寫。如果兩值加起來超過80-90%，會有OOM的風險，謹慎設置。
hbase.hstore.blockingStoreFiles
默認值：7
說明：在compaction時，如果一個Store（Coulmn Family）內有超過7個storefile需要合併，則block所有的寫請求，進行flush，限制storefile數量增長過快。
調優：block寫請求會影響當前region的性能，將值設爲單個region可以支撐的最大store file數量會是個不錯的選擇，即允許comapction時，memstore繼續生成storefile。最大storefile數量可通過region size/memstore size來計算。如果你將region size設爲無限大，那麼你需要預估一個region可能產生的最大storefile數。
hbase.hregion.memstore.block.multiplier
默認值：2
說明：當一個region裏的memstore超過單個memstore.size兩倍的大小時，block該region的所有請求，進行flush，釋放內存。雖然我們設置了memstore的總大小，比如64M，但想象一下，在最後63.9M的時候，我Put了一個100M的數據，此時memstore的大小會瞬間暴漲到超過預期的memstore.size。這個參數的作用是當memstore的大小增至超過memstore.size時，block所有請求，遏制風險進一步擴大。
調優：這個參數的默認值還是比較靠譜的。如果你預估你的正常應用場景（不包括異常）不會出現突發寫或寫的量可控，那麼保持默認值即可。如果正常情況下，你的寫請求量就會經常暴長到正常的幾倍，那麼你應該調大這個倍數並調整其他參數值，比如hfile.block.cache.size和hbase.regionserver.global.memstore.upperLimit/lowerLimit，以預留更多內存，防止HBase server OOM。
其他
啓用LZO壓縮
LZO對比Hbase默認的GZip，前者性能較高，後者壓縮比較高，具體參見 Using LZO Compression。對於想提高HBase讀寫性能的開發者，採用LZO是比較好的選擇。對於非常在乎存儲空間的開發者，則建議保持默認。
不要在一張表裏定義太多的Column Family
Hbase目前不能良好的處理超過包含2-3個CF的表。因爲某個CF在flush發生時，它鄰近的CF也會因關聯效應被觸發flush，最終導致系統產生更多IO。
批量導入
在批量導入數據到Hbase前，你可以通過預先創建regions，來平衡數據的負載。詳見 Table Creation: Pre-Creating Regions
避免CMS concurrent mode failure
HBase使用CMS GC。默認觸發GC的時機是當年老代內存達到90%的時候，這個百分比由 -XX:CMSInitiatingOccupancyFraction=N 這個參數來設置。concurrent mode failed發生在這樣一個場景：
當年老代內存達到90%的時候，CMS開始進行併發垃圾收集，於此同時，新生代還在迅速不斷地晉升對象到年老代。當年老代CMS還未完成併發標記時，年老代滿了，悲劇就發生了。CMS因爲沒內存可用不得不暫停mark，並觸發一次全jvm的stop the world（掛起所有線程），然後採用單線程拷貝方式清理所有垃圾對象。這個過程會非常漫長。爲了避免出現concurrent mode failed，我們應該讓GC在未到90%時，就觸發。
通過設置 -XX:CMSInitiatingOccupancyFraction=N
這個百分比，可以簡單的這麼計算。如果你的 hfile.block.cache.size 和 hbase.regionserver.global.memstore.upperLimit 加起來有60%（默認），那麼你可以設置 70-80，一般高10%左右差不多。
Hbase客戶端優化
AutoFlush
將HTable的setAutoFlush設爲false，可以支持客戶端批量更新。即當Put填滿客戶端flush緩存時，才發送到服務端。默認是true。
Scan Caching
scanner一次緩存多少數據來scan（從服務端一次抓多少數據回來scan）。
默認值是 1，一次只取一條。
Scan Attribute Selection
scan時建議指定需要的Column Family，減少通信量，否則scan操作默認會返回整個row的所有數據（所有Coulmn Family）。
Close ResultScanners
通過scan取完數據後，記得要關閉ResultScanner，否則RegionServer可能會出現問題（對應的Server資源無法釋放）。
Optimal Loading of Row Keys
當你scan一張表的時候，返回結果只需要row key（不需要CF, qualifier,values,timestaps）時，你可以在scan實例中添加一個filterList，並設置 MUST_PASS_ALL操作，filterList中add FirstKeyOnlyFilter或KeyOnlyFilter。這樣可以減少網絡通信量。
Turn off WAL on Puts
當Put某些非重要數據時，你可以設置writeToWAL(false)，來進一步提高寫性能。writeToWAL(false)會在Put時放棄寫WAL log。風險是，當RegionServer宕機時，可能你剛纔Put的那些數據會丟失，且無法恢復。
啓用Bloom Filter
Bloom Filter通過空間換時間，提高讀操作性能。

配置優化

其他

Hbase客戶端優化

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

MongoDB學習計劃

MySQL + MGR學習計劃

Redis學習計劃

關係型數據庫VS NOSQL 使用場景

MongoDB設計命名規範

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結