一、引言

隨着移動互聯網、物聯網、雲計算等信息技術蓬勃發展，數據量呈爆炸式增長。如今我們可以輕易得從海量數據裏找到想要的信息，離不開搜索引擎技術的幫助。

作爲開源搜索引擎領域排名第一的 Elasticsearch，能夠讓我們無需深入瞭解背後複雜的信息檢索原理，就可實現基本的全文檢索功能，在數據量達到十億，百億規模仍然可以秒級返回檢索結果。

對於系統容災、數據安全性、可擴展性、可維護性等用戶關注的實際問題，在Elasticsearch 上也能得到有效解決。

二、Elasticsearch 介紹

Elasticsearch（ES）是一個基於 Lucene 構建的開源分佈式搜索分析引擎，可以近實時的索引、檢索數據。具備高可靠、易使用、社區活躍等特點，在全文檢索、日誌分析、監控分析等場景具有廣泛應用。

由於高可擴展性，集羣可擴展至百節點規模，處理PB級數據。通過簡單的 RESTful API 即可實現寫入、查詢、集羣管理等操作。

除了檢索，還提供豐富的統計分析功能。以及官方功能擴展包 XPack 滿足其他需求，如數據加密、告警、機器學習等。

另外，可通過自定義插件，如 COS 備份、QQ 分詞等滿足特定功能需求。

1. Elasticsearch 架構與原理

基本概念：

Cluster「集羣」：由部署在多個機器的ES節點組成，以處理較大數據集和實現高可用；
Node「節點」：機器上的ES進程，可配置不同類型的節點；
Master Node「主節點」：用於集羣選主。由其中一個節點擔任主節點，負責集羣元數據管理，如索引創建，節點離開加入集羣等；
Data Node「數據節點」：負責索引數據存儲；
Index「索引」：索引數據的邏輯集合，可類比關係型數據的DataBase；
Shard「分片」：索引數據子集，通過將分片分配至集羣不同節點，實現數據橫向擴展。以解決單個節點CPU、內存、磁盤處理能力不足的情況；
Primary Shard「主分片」：數據分片採用主從模式，由分片接收索引操作；
Replica Shard「副本分片」：主分片的拷貝，以提高查詢吞吐量和實現數據高可靠。主分片異常時，其中一個副本分片會自動提升爲新的主分片。

爲了便於大家理解ES裏的數據模型，將它與關係型數據庫 MySQL 做類比：

從上面架構圖可以看出，ES 架構非常簡潔。內置自動發現實現 Zen discovery，當一個節點啓動後，通過聯繫集羣成員列表即可加入集羣。

由其中一個節點擔任主節點，用於集羣元數據管理，維護分片在節點間的分配關係。當新節點加入集羣后，Master 節點會自動遷移部分分片至新節點，均衡集羣負載。

分佈式集羣難免有節點故障。主節點會定期探測集羣其他節點存活狀態，當節點故障後，會將節點移出集羣，並自動在其他節點上恢復故障節點上的分片。

主分片故障時會提升其中一個副本分片爲主分片。其他節點也會探活主節點，當主節點故障後，會觸發內置的類 Raft 協議選主，並通過設置最少候選主節點數，避免集羣腦裂。

除了集羣管理，索引數據讀寫也是我們關心的重要部分。ES 採用 peer-to-peer 架構，每個節點保存全量分片路由信息，也就是每個節點均可以接收用戶讀寫。

如發送寫入請求至節點 1，寫入請求默認通過文檔 ID 的 Hash 值確定寫入到哪個主分片，這裏假設寫入到分片 0。

寫完主分片 P0，並行轉發寫入請求至副本分片 R0 所在節點，當副本分片所在節點確認寫入成功後返回客戶端報告寫入成功，保障數據安全性。並且寫入前，會確保 quorum 數量的副本數，避免網絡分區導致寫入數據不一致。

查詢採用分佈式搜索，如請求發給節點3後，請求會轉發至索引的主分片或副本分片所在節點。

當然如果寫入、查詢均帶有路由字段信息。請求只會發送給部分分片，避免全量分片掃描。這些節點完成查詢後將結果返回給請求節點，由請求節點匯聚各個節點的結果返回給客戶端。

2. Lucene原理

介紹完 ES 集羣基本原理，下面簡單介紹下ES的底層存儲引擎 Lucene。

首先 Lucene 是一款高性能的信息檢索庫，提供索引和檢索基本功能。ES 在此基礎上解決可靠性、分佈式集羣管理等問題最終形成產品化的全文檢索系統。

Lucene 解決的核心問題便是全文檢索。與傳統的檢索方式不同，全文檢索避免在查詢時進行全部內容掃描。

比如數據寫入後，首先會對寫入的文檔字段內容分詞，形成詞典表和與它關聯的倒排表。查詢時由關鍵詞分詞結果直接匹配詞典表內容，並獲取關聯的文檔列表，快速獲取結果集。並通過排序規則，優先展示匹配度高的文檔。

Lucene 爲了加快索引速度，採用了 LSM Tree 結構，先把索引數據緩存在內存。當內存空間佔用較高或到達一定時間後，內存中的數據會寫入磁盤形成一個數據段文件（segment）。段文件內包含詞典、倒排表、字段數據等等多個文件。

爲了兼容寫入性能和數據安全性，如避免內存緩衝區裏的數據因爲機器故障丟失。ES 在寫內存的同時也會寫事物日誌 Translog。內存裏的數據會定期生成新的段文件，寫入開銷更低的文件系統緩存即可打開和讀取實現近實時搜索。

三、Elasticsearch 應用場景

ES的典型使用場景有日誌分析、時序分析、全文檢索等。

1. 日誌實時分析場景

日誌是互聯網行業基礎廣泛的數據形式。典型日誌有用來定位業務問題的運營日誌，如慢日誌、異常日誌；用來分析用戶行爲的業務日誌，如用戶的點擊、訪問日誌；以及安全行爲分析的審計日誌等。

Elastic 生態提供了完整的日誌解決方案。通過簡單部署，即可搭建一個完整的日誌實時分析服務。ES 生態完美的解決了日誌實時分析場景需求，這也是近幾年 ES 快速發展的一個重要原因。

日誌從產生到可訪問一般在 10s 級，相比於傳統大數據解決方案的幾十分鐘、小時級時效性非常高。

ES底層支持倒排索引、列存儲等數據結構，使得在日誌場景可以利用ES非常靈活的搜索分析能力。通過ES交互式分析能力，即使在萬億級日誌的情況下，日誌搜索響應時間也是秒級。

日誌處理的基本流程包含：日誌採集 -> 數據清洗 -> 存儲 -> 可視化分析。Elastic Stack通過完整的日誌解決方案，幫助用戶完成對日誌處理全鏈路管理。

其中：

日誌採集：通過輕量級日誌採集組件FileBeat實時讀取業務日誌文件，發送數據至下游組件如 Logstash。
文本解析：利用正則解析等機制，將日誌文本數據轉換成結構化數據。可使用獨立的Logstash 服務或 Elasticsearch 內置的輕量級數據處理模塊 Ingest Pipeline，完成數據清洗和轉換。
數據存儲：通過 Elasticsearch 搜索分析平臺進行數據持久存儲，提供全文搜索和分析能力。
可視化分析：通過功能豐富的圖形界面，即可對日誌數據進行搜索分析，如可視化組件 Kibana。

2. 時序分析場景

時序數據是按時間順序記錄設備、系統狀態變化的數據。典型的時序數據有傳統的服務器監控指標數據、應用系統性能監控數據、智能硬件、工業物聯網傳感器數據等。

早在2017年我們也基於ES進行了時序分析場景的探索。時序分析場景具有高併發寫入、低查詢時延、多維分析的特點。

由於ES具有集羣擴展、批量寫入、讀寫帶路由、數據分片等能力，目前已實現線上單集羣最大規模達到 600+節點、1000w/s 的寫入吞吐、單條曲線或單個時間線的查詢延時可控制在 10ms。

ES提供靈活、多維度的統計分析能力，實現查看監控按照地域、業務模塊等靈活的進行統計分析。另外，ES支持列存儲、高壓縮比、副本數按需調整等能力，可實現較低存儲成本。最後時序數據也可通過Kibana組件輕鬆實現可視化。

3. 搜索服務場景

搜索服務典型場景有像京東、拼多多、蘑菇街中的商品搜索；應用商店中的應用APP搜索；論壇、在線文檔等站內搜索。

這類場景用戶關注高性能、低延遲、高可靠、搜索質量等。如單個服務最大需達到 10w+ QPS，請求平均響應時間在 20ms以內，查詢毛刺低於 100ms，高可用如搜索場景通常要求 4 個 9 的可用性，支持單機房故障容災等。

目前雲上 Elasticsearch 服務已支持多可用區容災，故障分鐘級恢復能力。通過 ES 高效倒排索引，以及自定義打分、排序能力與豐富的分詞插件，實現全文檢索需求。在開源全文檢索領域，ES 在 DB-Engines 搜索引擎類別持續多年排名第一。

四、騰訊 Elasticserch 服務

騰訊內外部均有大量的日誌實時分析、時序數據分析、全文檢索需求場景。

目前我們已聯合 Elastic 公司在騰訊雲上提供了內核增強版 ES 雲服務，簡稱CES，其中內核增強包括 Xpack 商業套件和內核優化。

在服務公司內部以及公有云客戶過程中，也遇到了較多問題和挑戰，比如超大規模集羣，千萬級數據寫入，以及雲上用戶豐富的使用場景等。

下文將介紹我們在內核層面，從可用性，性能，成本等方面進行的優化措施。

1. 可用性優化

可用性問題表現在三個方面：

（1）ES 內核系統健壯性不足

這也是分佈式系統共性難題。例如異常查詢、壓力過載集羣容易出現雪崩。集羣可擴展性不足，比如集羣分片數超10w會出現明顯的元數據管理瓶頸。以及集羣擴容、節點異常後加回集羣，存在節點、多硬盤之間數據不均問題。

（2）容災方案欠缺

需保障機房網絡故障時可快速恢復服務，自然災害下防止數據丟失，誤操作後快速恢復數據等可靠性、數據安全性問題。

（3）系統缺陷

另外也包括在運營過程中發現的一些 ES 系統缺陷，比如說 Master 節點堵塞、分佈式死鎖、滾動重啓緩慢等。

針對上面的問題，在系統健壯性方面，我們通過服務限流，容忍機器網絡故障、異常查詢等導致的服務不穩定問題。

通過優化集羣元數據管理邏輯，提升集羣擴展能力一個數量級，支持千級節點集羣、百萬級分片數。集羣均衡方面，通過優化節點、多硬盤間的分片均衡，保證大規模集羣的壓力均衡。

容災方案方面，我們通過擴展 ES 的插件機制實現數據備份和回檔，可把 ES 的數據備份到 COS，保障數據安全性；通過管控系統建設支持跨可用區容災，用戶可以按需部署多個可用區，以容忍單機房故障。採用垃圾桶機制，保證用戶在欠費、誤操作等場景下，集羣數據可快速恢復。

系統缺陷方面，我們修復了滾動重啓、Master 阻塞、分佈式死鎖等一系列 Bug。其中滾動重啓優化，可加速節點重啓速度 5+倍。Master 堵塞問題，我們在 ES 6.x 版本和官方一起做了優化。

2. 性能優化

性能問題，比如以日誌、監控爲代表的時序場景，對寫入性能要求非常高，寫入併發可達 1000w/s。然而我們發現在帶主鍵寫入時，ES 性能會衰減 1+倍。

壓測場景下發現CPU 存在無法充分利用的情況。通常搜索服務對查詢性要求非常高，一般要求 20w QPS, 平均響應時間小於 20ms，並且需儘量避免 GC、以及執行計劃不優等造成的查詢毛刺問題。

爲了解決這些問題。寫入方面，針對主鍵去重場景，我們通過利用段文件上記錄的最大最小值進行查詢裁剪，加速主鍵去重的過程，寫入性能提升 45%，具體可參考 Lucene-8980[1]。

對於壓測場景下 CPU 不能充分利用的問題，通過優化 ES 刷新 Translog 時鎖粒度，避免資源搶佔，提升性能提升 20%，具體可參考ES-45765 /47790[2]。我們也正在嘗試通過向量化執行優化寫入性能，通過減少分支跳轉、指令 Miss，預期寫入性能可提升 1 倍。

查詢方面，我們通過優化段文件合併策略，對於非活躍段文件會自動觸發合併，收斂段文件數以降低資源開銷，提升查詢性能。

根據每個段文件上記錄的最大最小值進行查詢剪枝，提升查詢性能 40%。通過 CBO 策略，避免緩存較大開銷的 Cache 操作導致產生 10+倍的查詢毛刺，具體可參考Lucene-9002[3]。

另外還包括優化 Composite 聚合中的性能問題，實現真正的翻頁操作，以及優化帶排序場景的聚合使得性能提升3-7倍。此外，我們也在嘗試通過一些新硬件來優化性能，比如說英特爾的 AEP、Optane、QAT 等。

3. 成本優化

成本方面主要體現在以日誌、監控爲代表的時序場景對機器資源的消耗。結合線上典型的日誌、時序業務統計數據發現，硬盤、內存、計算資源的成本比例接近 8:4:1。

可以得出硬盤、內存是主要矛盾，其次是計算成本。而這類時序類場景有很明顯的訪問特性，也就是數據具有冷熱特性。

時序數據訪問具有近多遠少的特點，比如近 7 天數據的訪問量佔比可達到 95%以上，而歷史數據訪問較少，並且通常都是訪問統計類信息。

硬盤成本方面，由於數據具有明顯的冷熱特性，我們採用冷熱分離架構，使用混合存儲的方案來平衡成本和性能。

由於歷史數據通常只是訪問統計信息，我們採用預計算 Rollup 換取存儲和查詢性能，類似物化視圖。對於完全不使用歷史數據，也可以備份到更廉價的存儲系統如 COS。其他一些優化方式包括多盤策略兼容數據吞吐與數據容災，以及通過生命週期管理等定期刪除過期數據等。

內存成本方面，我們發現特別是大存儲機型，存儲資源才用了 20% 內存已不足。爲了解決內存不足問題，我們採用 Off-Heap 技術，來提升堆內內存利用率，降低 GC 開銷，並且提升單個節點管理磁盤的能力。

將內存佔比較大的 FST 移到堆外管理，通過堆內存放堆外對象地址，避免堆內外數據拷貝。通過 Java 弱引用機制實現堆外對象內存回收，進一步提升內存使用率。

實現 32GB 堆內內存可管理 50 TB 左右磁盤空間，較原生版本有 10 倍提升，並且性能持平，而 GC 優勢提升明顯。

除了內核層面的優化，在平臺層通過管控平臺，支持雲上服務資源管理、實例實例管理等實現服務託管。方便快捷進行實例創建和規格調整。

通過運維支撐平臺中的監控系統、運維工具等保障服務質量。並通過正在建設的智能診斷平臺發現服務潛在問題，實現了對內外部提供穩定可靠的 ES 服務。

騰訊內部，我們主導了 ES 產品開源協同，發現潛在問題，共同優化完善 ES，避免不同的團隊重複踩坑。

同時我們也將優秀的方案積極貢獻給社區，和官方及社區的 ES 愛好者們共同推動 ES 的發展。以騰訊 ES 內核研發爲代表的團隊，截至目前我們共提交了 60 多個 PR，其中有 70% 被合併，公司內 ES 開源協同 PMC 成員共有 6 位 ES/Lucene 社區 contributor。

五、結語

Elasticsearch 在騰訊內外部廣泛應用於日誌實時分析、時序數據分析、全文檢索等場景。

目前單集羣規模達到千級節點、萬億級吞吐。通過內核增強版 ES 爲大家提供高可靠，低成本，高性能的搜索分析服務。後續我們仍需在可用性，性能和成本等方面持續優化 ES。

比如集羣可擴展性不足問題，通過優化集羣擴展性支持百萬級分片秒級創建 index。ES 的存儲成本問題，目前正在研發存儲與計算分離方案，進一步縮減成本，提升性能。以及存在使用和維護成本高的問題，後續通過多級分區、智能診斷等提升ES的自動化和故障自愈能力，降低用戶使用和維護成本。

未來，也會近一步探索 ES 在多維分析領域的其他可能性。持續在大數據領域提供更有價值的搜索分析服務。

參考資料：

[1] Lucene-8980：

https://github.com/apache/lucene-solr/pull/884

[2] ES-45765 /47790:

https://github.com/elastic/elasticsearch/pull/45765

[3] Lucene-9002:

https://github.com/apache/lucene-solr/pull/940

看騰訊技術，學雲計算知識，就來雲+社區

開源搜索引擎排名第一，Elasticsearch是如何做到的？

一、引言

二、Elasticsearch 介紹

1. Elasticsearch 架構與原理

2. Lucene原理

三、Elasticsearch 應用場景

1. 日誌實時分析場景

2. 時序分析場景

3. 搜索服務場景

四、騰訊 Elasticserch 服務

1. 可用性優化

（1）ES 內核系統健壯性不足

（2）容災方案欠缺

（3）系統缺陷

2. 性能優化

3. 成本優化

五、結語

從服務器到雲託管，到底經歷了什麼？

萬元禮品獎池！玩轉「Lighthouse」有獎徵文來襲

《Vite學習指南---基於騰訊雲Webify部署項目》視頻課程上線“雲+社區”

工程師文化：正版軟件應該公司買嗎

代碼質量第 2 層 - 可重用的代碼

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結