Elasticsearch Reindex性能提升改良

原創

2019-03-11 23:35

1、reindex的速率極慢，是否有辦法改善？
以下問題來自社區：https://elasticsearch.cn/question/3782

問題1：reindex和snapshot的速率極慢，是否有辦法改善？
reindex和snapshot的速率比用filebeat或者kafka到es的寫入速率慢好幾個數量級（集羣寫入性能不存在瓶頸），reindex/snapshot的時候CPU還是IO使用率都很低，是不是集羣受什麼參數限制了reindex和snapshot的速率？
reindex不管是跨集羣還是同集羣上都很慢，大約3~5M/s的索引速率，會是什麼原因導致的？

問題2：數據量幾十個G的場景下，elasticsearch reindex速度太慢，從舊索引導數據到新索引，當前最佳方案是什麼？
2、Reindex簡介
5.X版本後新增Reindex。Reindex可以直接在Elasticsearch集羣裏面對數據進行重建，如果你的mapping因爲修改而需要重建，又或者索引設置修改需要重建的時候，藉助Reindex可以很方便的異步進行重建，並且支持跨集羣間的數據遷移。比如按天創建的索引可以定期重建合併到以月爲單位的索引裏面去。當然索引裏面要啓用_source。

POST _reindex
{
"source": {
"index": "twitter"
},
"dest": {
"index": "new_twitter"
}
}

3、原因分析
reindex的核心做跨索引、跨集羣的數據遷移。
慢的原因及優化思路無非包括：

1）批量大小值可能太小。
需要結合堆內存、線程池調整大小；
2）reindex的底層是scroll實現，藉助scroll並行優化方式，提升效率；
3）跨索引、跨集羣的核心是寫入數據，考慮寫入優化角度提升效率。
4、Reindex提升遷移效率的方案
4.1 提升批量寫入大小值
默認情況下，_reindex使用1000進行批量操作，您可以在source中調整batch_size。

POST _reindex
{
"source": {
"index": "source",
"size": 5000
},
"dest": {
"index": "dest",
"routing": "=cat"
}
}
批量大小設置的依據：

（1）使用批量索引請求以獲得最佳性能。
批量大小取決於數據、分析和集羣配置，但一個好的起點是每批處理5-15 MB。
注意，這是物理大小。文檔數量不是度量批量大小的好指標。例如，如果每批索引1000個文檔，:
1）每個1kb的1000個文檔是1mb。
2）每個100kb的1000個文檔是100 MB。
這些是完全不同的體積大小。
（2）逐步遞增文檔容量大小的方式調優。
1）從大約5-15 MB的大容量開始，慢慢增加，直到你看不到性能的提升。然後開始增加批量寫入的併發性(多線程等等)。
2）使用kibana、cerebro或iostat、top和ps等工具監視節點，以查看資源何時開始出現瓶頸。如果您開始接收EsRejectedExecutionException，您的集羣就不能再跟上了:至少有一個資源達到了容量。要麼減少併發性，或者提供更多有限的資源(例如從機械硬盤切換到ssd固態硬盤)，要麼添加更多節點。
4.2 藉助scroll的sliced提升寫入效率
Reindex支持Sliced Scroll以並行化重建索引過程。這種並行化可以提高效率，並提供一種方便的方法將請求分解爲更小的部分。

sliced原理（from medcl）
1）用過Scroll接口吧，很慢？如果你數據量很大，用Scroll遍歷數據那確實是接受不了，現在Scroll接口可以併發來進行數據遍歷了。
2）每個Scroll請求，可以分成多個Slice請求，可以理解爲切片，各Slice獨立並行，利用Scroll重建或者遍歷要快很多倍。

slicing使用舉例
slicing的設定分爲兩種方式：手動設置分片、自動設置分片。
手動設置分片參見官網。
自動設置分片如下：

POST _reindex?slices=5&refresh
{
"source": {
"index": "twitter"
},
"dest": {
"index": "new_twitter"
}
}
slices大小設置注意事項：
1）slices大小的設置可以手動指定，或者設置slices設置爲auto，auto的含義是：針對單索引，slices大小=分片數；針對多索引，slices=分片的最小值。
2）當slices的數量等於索引中的分片數量時，查詢性能最高效。slices大小大於分片數，非但不會提升效率，反而會增加開銷。
3）如果這個slices數字很大(例如500)，建議選擇一個較低的數字，因爲過大的slices 會影響性能。

4.3 ES副本數設置爲0
如果要進行大量批量導入，請考慮通過設置index.number_of_replicas來禁用副本：0。
主要原因在於：複製文檔時，將整個文檔發送到副本節點，並逐字重複索引過程。這意味着每個副本都將執行分析，索引和潛在合併過程。
相反，如果您使用零副本進行索引，然後在提取完成時啓用副本，則恢復過程本質上是逐字節的網絡傳輸。這比複製索引過程更有效。

PUT /my_logs/_settings
{
"number_of_replicas": 1
}
4.4 增加refresh間隔
如果你的搜索結果不需要接近實時的準確性，考慮先不要急於索引刷新refresh。可以將每個索引的refresh_interval到30s。
如果正在進行大量數據導入，可以通過在導入期間將此值設置爲-1來禁用刷新。完成後不要忘記重新啓用它!
設置方法：

PUT /my_logs/_settings
{ "refresh_interval": -1 }
5、小結
實踐證明，比默認設置reindex速度能提升10倍+。
遇到類似問題，多從官網、原理甚至源碼的角度思考，逐步拆解分析。
只要思維不滑坡，辦法總比問題多！

參考：
[1] Jest Reindex參考：http://t.cn/RDOyIc8
[2] 官網性能優化：http://t.cn/RDOyJqr
[3] 論壇討論：http://t.cn/RDOya3a

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Elasticsearch Reindex性能提升改良

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

在Centos6.5版本分佈式安裝Glusterfs3.8版本

ELK日誌平臺搭建logstash+elasticsearch+redis+Kibana

使用SecureCRT等工具時如何讓Kibana一直後臺運行

Hue整合Mysql數據庫的安裝配置

Linux升級glibc庫至2.15版本的快速解決辦法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結