乾貨:HBase實踐之讀性能優化策略

任何系統都會有各種各樣的問題,有些是系統本身設計問題,有些卻是使用姿勢問題。HBase也一樣,在真實生產線上大家或多或少都會遇到很多問題,有些是HBase還需要完善的,有些是我們確實對它瞭解太少。總結起來,大家遇到的主要問題無非是Full GC異常導致宕機問題、RIT問題、寫吞吐量太低以及讀延遲較大。

Full GC問題之前在一些文章裏面已經講過它的來龍去脈,主要的解決方案目前主要有兩方面需要注意,一方面需要查看GC日誌確認是哪種Full GC,根據Full GC類型對JVM參數進行調優,另一方面需要確認是否開啓了BucketCache的offheap模式,建議使用LRUBlockCache的童鞋儘快轉移到BucketCache來。當然我們還是很期待官方2.0.0版本發佈的更多offheap模塊。

RIT問題,我相信更多是因爲我們對其不瞭解,具體原理可以戳 這裏 ,解決方案目前有兩個,優先是使用官方提供的HBCK進行修復(HBCK本人一直想拿出來分享,但是目前案例還不多,等後面有更多案例的話再拿出來說),使用之後還是解決不了的話就需要手動修復文件或者元數據表。而對於寫吞吐量太低以及讀延遲太大的優化問題,筆者也和很多朋友進行過探討,這篇文章就以讀延遲優化爲核心內容展開,具體分析HBase進行讀延遲優化的那些套路,以及這些套路之後的具體原理。希望大家在看完之後能夠結合這些套路剖析自己的系統。

一般情況下,讀請求延遲較大通常存在三種場景,分別爲:

1. 僅有某業務延遲較大,集羣其他業務都正常;

2. 整個集羣所有業務都反映延遲較大;

3. 某個業務起來之後集羣其他部分業務延遲較大。

這三種場景是表象,通常某業務反應延遲異常,首先需要明確具體是哪種場景,然後針對性解決問題。下圖是對讀優化思路的一點總結,主要分爲四個方面:客戶端優化、服務器端優化、列族設計優化以及HDFS相關優化,下面每一個小點都會按照場景分類,文章最後進行歸納總結。下面分別進行詳細講解:

HBase讀優化


HBase客戶端優化

和大多數系統一樣,客戶端作爲業務讀寫的入口,姿勢使用不正確通常會導致 本業務讀延遲較高 實際上存在一些使用姿勢的推薦用法,這裏一般需要關注四個問題:

1. scan緩存是否設置合理?

優化原理:在解釋這個問題之前,首先需要解釋什麼是scan緩存,通常來講一次scan會返回大量數據,因此客戶端發起一次scan請求,實際並不會一次就將所有數據加載到本地,而是分成多次RPC請求進行加載,這樣設計一方面是因爲大量數據請求可能會導致網絡帶寬嚴重消耗進而影響其他業務,另一方面也有可能因爲數據量太大導致本地客戶端發生OOM。在這樣的設計體系下用戶會首先加載一部分數據到本地,然後遍歷處理,再加載下一部分數據到本地處理,如此往復,直至所有數據都加載完成。數據加載到本地就存放在scan緩存中,默認100條數據大小。

通常情況下,默認的scan緩存設置就可以正常工作的。但是在一些大scan(一次scan可能需要查詢幾萬甚至幾十萬行數據)來說,每次請求100條數據意味着一次scan需要幾百甚至幾千次RPC請求,這種交互的代價無疑是很大的。因此可以考慮將scan緩存設置增大,比如設爲500或者1000就可能更加合適。筆者之前做過一次試驗,在一次scan掃描10w+條數據量的條件下,將scan緩存從100增加到1000,可以有效降低scan請求的總體延遲,延遲基本降低了25%左右。歡迎加入大數據學習交流分享羣: 658558542   一起吹水交流學習(☛點擊即可加入羣聊

優化建議:大scan場景下將scan緩存從100增大到500或者1000,用以減少RPC次數。

2. get請求是否可以使用批量請求?

優化原理:HBase分別提供了單條get以及批量get的API接口,使用批量get接口可以減少客戶端到RegionServer之間的RPC連接數,提高讀取性能。另外需要注意的是,批量get請求要麼成功返回所有請求數據,要麼拋出異常。

優化建議:使用批量get進行讀取請求。

3. 請求是否可以顯示指定列族或者列?

優化原理:HBase是典型的列族數據庫,意味着同一列族的數據存儲在一起,不同列族的數據分開存儲在不同的目錄下。如果一個表有多個列族,只是根據Rowkey而不指定列族進行檢索的話不同列族的數據需要獨立進行檢索,性能必然會比指定列族的查詢差很多,很多情況下甚至會有2倍~3倍的性能損失。歡迎加入大數據學習交流分享羣: 658558542   一起吹水交流學習(☛點擊即可加入羣聊

優化建議:可以指定列族或者列進行精確查找的儘量指定查找

4. 離線批量讀取請求是否設置禁止緩存?

優化原理:通常離線批量讀取數據會進行一次性全表掃描,一方面數據量很大,另一方面請求只會執行一次。這種場景下如果使用scan默認設置,就會將數據從HDFS加載出來之後放到緩存。可想而知,大量數據進入緩存必將其他實時業務熱點數據擠出,其他業務不得不從HDFS加載,進而會造成明顯的讀延遲毛刺

優化建議:離線批量讀取請求設置禁用緩存,scan.setBlockCache(false)。

HBase服務器端優化

一般服務端端問題一旦導致業務讀請求延遲較大的話,通常是集羣級別的,即整個集羣的業務都會反映讀延遲較大。可以從4個方面入手:

1. 讀請求是否均衡?

優化原理:極端情況下假如所有的讀請求都落在一臺RegionServer的某幾個Region上,這一方面不能發揮整個集羣的併發處理能力,另一方面勢必造成此臺RegionServer資源嚴重消耗(比如IO耗盡、handler耗盡等),落在該臺RegionServer上的其他業務會因此受到很大的波及。可見,讀請求不均衡不僅會造成本身業務性能很差,還會嚴重影響其他業務。當然,寫請求不均衡也會造成類似的問題,可見負載不均衡是HBase的大忌。

觀察確認:觀察所有RegionServer的讀請求QPS曲線,確認是否存在讀請求不均衡現象。

優化建議:RowKey必須進行散列化處理(比如MD5散列),同時建表必須進行預分區處理。

2. BlockCache是否設置合理?

優化原理:BlockCache作爲讀緩存,對於讀性能來說至關重要。默認情況下BlockCache和Memstore的配置相對比較均衡(各佔40%),可以根據集羣業務進行修正,比如讀多寫少業務可以將BlockCache佔比調大。另一方面,BlockCache的策略選擇也很重要,不同策略對讀性能來說影響並不是很大,但是對GC的影響卻相當顯著,尤其BucketCache的offheap模式下GC表現很優越。另外,HBase 2.0對offheap的改造(HBASE-11425)將會使HBase的讀性能得到2~4倍的提升,同時GC表現會更好!

觀察確認:觀察所有RegionServer的緩存未命中率、配置文件相關配置項一級GC日誌,確認BlockCache是否可以優化。

優化建議:JVM內存配置量 < 20G,BlockCache策略選擇LRUBlockCache;否則選擇BucketCache策略的offheap模式;期待HBase 2.0的到來!

3. HFile文件是否太多?

優化原理:HBase讀取數據通常首先會到Memstore和BlockCache中檢索(讀取最近寫入數據&熱點數據),如果查找不到就會到文件中檢索。HBase的類LSM結構會導致每個store包含多數HFile文件,文件越多,檢索所需的IO次數必然越多,讀取延遲也就越高。文件數量通常取決於Compaction的執行策略,一般和兩個配置參數有關:hbase.hstore.compactionThreshold和hbase.hstore.compaction.max.size,前者表示一個store中的文件數超過多少就應該進行合併,後者表示參數合併的文件大小最大是多少,超過此大小的文件不能參與合併。這兩個參數不能設置太’鬆’(前者不能設置太大,後者不能設置太小),導致Compaction合併文件的實際效果不明顯,進而很多文件得不到合併。這樣就會導致HFile文件數變多。

觀察確認:觀察RegionServer級別以及Region級別的storefile數,確認HFile文件是否過多。

優化建議:hbase.hstore.compactionThreshold設置不能太大,默認是3個;設置需要根據Region大小確定,通常可以簡單的認爲hbase.hstore.compaction.max.size = RegionSize / hbase.hstore.compactionThreshold。

4. Compaction是否消耗系統資源過多?

優化原理:Compaction是將小文件合併爲大文件,提高後續業務隨機讀性能,但是也會帶來IO放大以及帶寬消耗問題(數據遠程讀取以及三副本寫入都會消耗系統帶寬)。正常配置情況下Minor Compaction並不會帶來很大的系統資源消耗,除非因爲配置不合理導致Minor Compaction太過頻繁,或者Region設置太大情況下發生Major Compaction。

觀察確認:觀察系統IO資源以及帶寬資源使用情況,再觀察Compaction隊列長度,確認是否由於Compaction導致系統資源消耗過多。

優化建議:

(1)Minor Compaction設置:hbase.hstore.compactionThreshold設置不能太小,又不能設置太大,因此建議設置爲5~6;hbase.hstore.compaction.max.size = RegionSize / hbase.hstore.compactionThreshold。

(2)Major Compaction設置:大Region讀延遲敏感業務( 100G以上)通常不建議開啓自動Major Compaction,手動低峯期觸發。小Region或者延遲不敏感業務可以開啓Major Compaction,但建議限制流量;

(3)期待更多的優秀Compaction策略,類似於stripe-compaction儘早提供穩定服務。

HBase列族設計優化

HBase列族設計對讀性能影響也至關重要,其特點是隻影響單個業務,並不會對整個集羣產生太大影響。列族設計主要從兩個方面檢查:

1. Bloomfilter是否設置?是否設置合理?

優化原理:Bloomfilter主要用來過濾不存在待檢索RowKey或者Row-Col的HFile文件,避免無用的IO操作。它會告訴你在這個HFile文件中是否可能存在待檢索的KV,如果不存在,就可以不用消耗IO打開文件進行seek。很顯然,通過設置Bloomfilter可以提升隨機讀寫的性能。

Bloomfilter取值有兩個,row以及rowcol,需要根據業務來確定具體使用哪種。如果業務大多數隨機查詢僅僅使用row作爲查詢條件,Bloomfilter一定要設置爲row,否則如果大多數隨機查詢使用row+cf作爲查詢條件,Bloomfilter需要設置爲rowcol。如果不確定業務查詢類型,設置爲row。

優化建議:任何業務都應該設置Bloomfilter,通常設置爲row就可以,除非確認業務隨機查詢類型爲row+cf,可以設置爲rowcol。

HDFS相關優化

HDFS作爲HBase最終數據存儲系統,通常會使用三副本策略存儲HBase數據文件以及日誌文件。從HDFS的角度望上層看,HBase即是它的客戶端,HBase通過調用它的客戶端進行數據讀寫操作,因此HDFS的相關優化也會影響HBase的讀寫性能。這裏主要關注如下三個方面:

1. Short-Circuit Local Read功能是否開啓?

優化原理:當前HDFS讀取數據都需要經過DataNode,客戶端會向DataNode發送讀取數據的請求,DataNode接受到請求之後從硬盤中將文件讀出來,再通過TPC發送給客戶端。Short Circuit策略允許客戶端繞過DataNode直接讀取本地數據。

優化建議:開啓Short Circuit Local Read功能,具體配置戳這裏。

2. Hedged Read功能是否開啓?

優化原理:HBase數據在HDFS中一般都會存儲三份,而且優先會通過Short-Circuit Local Read功能嘗試本地讀。但是在某些特殊情況下,有可能會出現因爲磁盤問題或者網絡問題引起的短時間本地讀取失敗,爲了應對這類問題,社區開發者提出了補償重試機制 – Hedged Read。該機制基本工作原理爲:客戶端發起一個本地讀,一旦一段時間之後還沒有返回,客戶端將會向其他DataNode發送相同數據的請求。哪一個請求先返回,另一個就會被丟棄。歡迎加入大數據學習交流分享羣: 658558542   一起吹水交流學習(☛點擊即可加入羣聊

優化建議:開啓Hedged Read功能。

3. 數據本地率是否太低?

數據本地率:HDFS數據通常存儲三份,假如當前RegionA處於Node1上,數據a寫入的時候三副本爲(Node1,Node2,Node3),數據b寫入三副本是(Node1,Node4,Node5),數據c寫入三副本(Node1,Node3,Node5),可以看出來所有數據寫入本地Node1肯定會寫一份,數據都在本地可以讀到,因此數據本地率是100%。現在假設RegionA被遷移到了Node2上,只有數據a在該節點上,其他數據(b和c)讀取只能遠程跨節點讀,本地率就爲33%(假設a,b和c的數據大小相同)。

優化原理:數據本地率太低很顯然會產生大量的跨網絡IO請求,必然會導致讀請求延遲較高,因此提高數據本地率可以有效優化隨機讀性能。數據本地率低的原因一般是因爲Region遷移(自動balance開啓、RegionServer宕機遷移、手動遷移等),因此一方面可以通過避免Region無故遷移來保持數據本地率,另一方面如果數據本地率很低,也可以通過執行major_compact提升數據本地率到100%。

優化建議:避免Region無故遷移,比如關閉自動balance、RS宕機及時拉起並遷回飄走的Region等;在業務低峯期執行major_compact提升數據本地率。

HBase讀性能優化歸納

在本文開始的時候提到讀延遲較大無非三種常見的表象,單個業務慢、集羣隨機讀慢以及某個業務隨機讀之後其他業務受到影響導致隨機讀延遲很大。瞭解完常見的可能導致讀延遲較大的一些問題之後,我們將這些問題進行如下歸類,讀者可以在看到現象之後在對應的問題列表中進行具體定位:




HBase讀性能優化總結

性能優化是任何一個系統都會遇到的話題,每個系統也都有自己的優化方式。 HBase作爲分佈式KV數據庫,優化點又格外不同,更多得融入了分佈式特性以及存儲系統優化特性。文中總結了讀優化的基本突破點,有什麼不對的地方還望指正,有補充的也可以一起探討交流!

結語

感謝您的觀看,如有不足之處,歡迎批評指正。

如果有對大數據感興趣的小夥伴或者是從事大數據的老司機可以加羣:

658558542    (☛點擊即可加入羣聊

裏面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,海量數據高級分析語言,海量數據存儲分佈式存儲,以及海量數據分析分佈式計算等部分,送給每一位大數據小夥伴,這裏不止是小白聚集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一起進羣學習交流,共同進步!

最後祝福所有遇到瓶頸的大數據程序員們突破自己,祝福大家在往後的工作與面試中一切順利。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章