ElasticSearch 常見問題

ElasticSearch 常見問題

　　丈夫有淚不輕彈，只因未到傷心處。

1、說說 es 的一些調優手段。

僅索引層面調優手段：

1.1、設計階段調優

（1）根據業務增量需求，採取基於日期模板創建索引，通過 roll over API 滾動索引；

（2）使用別名進行索引管理；

（3）每天凌晨定時對索引做 force_merge 操作，以釋放空間；

（4）採取冷熱分離機制，熱數據存儲到 SSD，提高檢索效率；冷數據定期進行 shrink操作，以縮減存儲；

（5）採取 curator 進行索引的生命週期管理；

（6）僅針對需要分詞的字段，合理的設置分詞器；

（7）Mapping 階段充分結合各個字段的屬性，是否需要檢索、是否需要存儲等。

1.2、寫入調優

（1）寫入前副本數設置爲 0；

（2）寫入前關閉 refresh_interval 設置爲-1，禁用刷新機制；

（3）寫入過程中：採取 bulk 批量寫入；

（4）寫入後恢復副本數和刷新間隔；

（5）儘量使用自動生成的 id。

1.3、查詢調優

（1）禁用 wildcard；

（2）禁用批量 terms（成百上千的場景）；

（3）充分利用倒排索引機制，能 keyword 類型儘量 keyword；

（4）數據量大時候，可以先基於時間敲定索引再檢索；

（5）設置合理的路由機制。

1.4、其他調優

部署調優，業務調優等。

2、什麼是 ES 倒排索引？

通俗解釋：

傳統的我們的檢索是通過文章，逐個遍歷找到對應關鍵詞的位置。

而倒排索引，是通過分詞策略，形成了詞和文章的映射關係表，這種詞典+映射表即爲倒排索引。有了倒排索引，就能實現 O（1）時間複雜度的效率檢索文章了，極大的提高了檢索效率。

學術解釋：

倒排索引，相反於一篇文章包含了哪些詞，它從詞出發，記載了這個詞在哪些文檔中出現過，由兩部分組成——詞典和倒排表。

倒排索引的底層實現是基於：FST（Finite State Transducer）數據結構。lucene 從 4+版本後開始大量使用的數據結構是 FST。FST 有兩個優點：

（1）空間佔用小。通過對詞典中單詞前綴和後綴的重複利用，壓縮了存儲空間；

（2）查詢速度快。O(len(str))的查詢時間複雜度。

3、ES 索引數據多了怎麼辦？如何調優、部署？

索引數據的規劃，應在前期做好規劃，正所謂“設計先行，編碼在後”，這樣纔能有效的避免突如其來的數據激增導致集羣處理能力不足引發的線上客戶檢索或者其他業務受到影響。

如何調優，正如問題 1 所說。

3.1 動態索引層面

基於模板+時間+rollover api 滾動創建索引。

舉例：設計階段定義：blog 索引的模板格式爲：blog_index_時間戳的形式，每天遞增數據。這樣做的好處：不至於數據量激增導致單個索引數據量非常大，接近於上線 2 的32 次冪-1，索引存儲達到了 TB+甚至更大。

一旦單個索引很大，存儲等各種風險也隨之而來，所以要提前考慮+及早避免。

3.2 存儲層面

冷熱數據分離存儲，熱數據（比如最近 3 天或者一週的數據），其餘爲冷數據。

對於冷數據不會再寫入新數據，可以考慮定期 force_merge 加 shrink 壓縮操作，節省存儲空間和檢索效率。

3.3 部署層面

一旦之前沒有規劃，這裏就屬於應急策略。

結合 ES 自身的支持動態擴展的特點，動態新增機器的方式可以緩解集羣壓力，注意：如果之前主節點等規劃合理，不需要重啓集羣也能完成動態新增的。

4、elasticsearch 是如何實現 master 選舉的？

前置前提：

（1）只有候選主節點（master：true）的節點才能成爲主節點。

（2）最小主節點數（min_master_nodes）的目的是防止腦裂。

覈對了一下代碼，核心入口爲 findMaster，選擇主節點成功返回對應 Master，否則返回 null。選舉流程大致描述如下：

第一步：確認候選主節點數達標，elasticsearch.yml 設置的值 discovery.zen.minimum_master_nodes；

第二步：比較，先判定是否具備 master 資格，具備候選主節點資格的優先返回；若兩節點都爲候選主節點，則 id 小的值會主節點。注意這裏的 id 爲 string 類型。

1 GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name 
2 ip port heapPercent heapMax id name

5、描述一下 Elasticsearch 索引文檔的過程

這裏的索引文檔應該理解爲文檔寫入 ES，創建索引的過程。

文檔寫入包含：單文檔寫入和批量 bulk 寫入，這裏只解釋一下：單文檔寫入流程。

第一步：客戶向集羣某節點寫入數據，發送請求。（如果沒有指定路由/協調節點，請求的節點扮演路由節點的角色。）

第二步：節點 1 接受到請求後，使用文檔_id 來確定文檔屬於分片 0。請求會被轉到另外的節點，假定節點 3。因此分片 0 的主分片分配到節點 3 上。

第三步：節點 3 在主分片上執行寫操作，如果成功，則將請求並行轉發到節點 1和節點 2 的副本分片上，等待結果返回。所有的副本分片都報告成功，節點 3 將向協調節點（節點 1）報告成功，節點 1 向請求客戶端報告寫入成功。

如果面試官再問：第二步中的文檔獲取分片的過程？

回答：藉助路由算法獲取，路由算法就是根據路由和文檔 id 計算目標的分片 id 的過程。

6、描述一下 Elasticsearch 搜索的過程？

搜索拆解爲“query then fetch” 兩個階段。

query 階段的目的：定位到位置，但不取數據。步驟拆解如下：

（1）假設一個索引數據有 5 主+1 副本共 10 分片，一次請求會命中（主或者副本分片中）的一個。

（2）每個分片在本地進行查詢，結果返回到本地有序的優先隊列中。

（3）第 2）步驟的結果發送到協調節點，協調節點產生一個全局的排序列表。

fetch 階段的目的：取數據。路由節點獲取所有文檔，返回給客戶端。

7、ES 在部署時，對 Linux 的設置有哪些優化方法？

（1）關閉緩存 swap;

（2）堆內存設置爲：Min（節點內存/2, 32GB）;

（3）設置最大文件句柄數；

（4）線程池+隊列大小根據業務需要做調整；

（5）磁盤存儲 raid 方式——存儲有條件使用 RAID10，增加單節點性能以及避免單節點存儲故障。

8、lucence 內部結構是什麼？

Lucene 是有索引和搜索的兩個過程。

索引創建：將現實世界中所有的結構化和非結構化數據提取信息，創建索引的過程。
搜索索引：就是得到用戶的查詢請求，搜索創建的索引，然後返回結果的過程。

9、ES 是如何實現 Master 選舉的？

（1）Elasticsearch 的選主是 ZenDiscovery 模塊負責的，主要包含 Ping（節點之間通過這個 RPC 來發現彼此）和 Unicast（單播模塊包含一個主機列表以控制哪些節點需要 ping 通）這兩部分；

（2）對所有可以成爲 master 的節點（node.master: true）根據 nodeId 字典排序，每次選舉每個節點都把自己所知道節點排一次序，然後選出第一個（第 0 位）節點，暫且認爲它是 master 節點。

（3）如果對某個節點的投票數達到一定的值（可以成爲 master 節點數 n/2+1）並且該節點自己也選舉自己，那這個節點就是 master。否則重新選舉一直到滿足上述件。

（4）補充：master 節點的職責主要包括集羣、節點和索引的管理，不負責文檔級別的管理；data 節點可以關閉 http 功能*。

10、描述一下 Elasticsearch 索引文檔的過程。

協調節點默認使用文檔 ID 參與計算（也支持通過 routing），以便爲路由提供合適的分片。

shard = hash(document_id) % (num_of_primary_shards)

（1）當分片所在的節點接收到來自協調節點的請求後，會將請求寫入到 MemoryBuffffer，然後定時（默認是每隔 1 秒）寫入到 Filesystem Cache，這個從 MomeryBuffffer 到 Filesystem Cache 的過程就叫做 refresh；

（2）當然在某些情況下，存在 Momery Buffffer 和 Filesystem Cache 的數據可能會丟失，ES 是通過translog 的機制來保證數據的可靠性的。其實現機制是接收到請求後，同時也會寫入到 translog 中，當 Filesystem cache 中的數據寫入到磁盤中時，纔會清除掉，這個過程叫做 flush；

（3）在 flush 過程中，內存中的緩衝將被清除，內容被寫入一個新段，段的 fsync將創建一個新的提交點，並將內容刷新到磁盤，舊的 translog 將被刪除並開始一個新的 translog。

（4）flush 觸發的時機是定時觸發（默認 30 分鐘）或者 translog 變得太大（默認爲 512M）時；

補充：關於 Lucene 的 Segement：

（1）Lucene 索引是由多個段組成，段本身是一個功能齊全的倒排索引。

（2）段是不可變的，允許 Lucene 將新的文檔增量地添加到索引中，而不用從頭重建索引。

（3）對於每一個搜索請求而言，索引中的所有段都會被搜索，並且每個段會消耗CPU 的時鐘周、文件句柄和內存。這意味着段的數量越多，搜索性能會越低。

（4）爲了解決這個問題，Elasticsearch 會合並小段到一個較大的段，提交新的合併段到磁盤，並刪除那些舊的小段。

12、描述一下 Elasticsearch 更新和刪除文檔的過程。

（1）刪除和更新也都是寫操作，但是 Elasticsearch 中的文檔是不可變的，因此不能被刪除或者改動以展示其變更；

（2）磁盤上的每個段都有一個相應的.del 文件。當刪除請求發送後，文檔並沒有真的被刪除，而是在.del 文件中被標記爲刪除。該文檔依然能匹配查詢，但是會在結果中被過濾掉。當段合併時，在.del文件中被標記爲刪除的文檔將不會被寫入新段。

（3）在新的文檔被創建時，Elasticsearch 會爲該文檔指定一個版本號，當執行更新時，舊版本的文檔在.del 文件中被標記爲刪除，新版本的文檔被索引到一個新段。舊版本的文檔依然能匹配查詢，但是會在結果中被過濾掉。

13、描述一下 ES 搜索的過程。

（1）搜索被執行成一個兩階段過程，我們稱之爲 Query Then Fetch；

（2）在初始查詢階段時，查詢會廣播到索引中每一個分片拷貝（主分片或者副本分片）。每個分片在本地執行搜索並構建一個匹配文檔的大小爲 from + size 的優先隊列。

PS：在搜索的時候是會查詢 Filesystem Cache 的，但是有部分數據還在 MemoryBuffffer，所以搜索是近實時的。

（3）每個分片返回各自優先隊列中所有文檔的 ID 和排序值給協調節點，它合併這些值到自己的優先隊列中來產生一個全局排序後的結果列表。

（4）接下來就是取回階段，協調節點辨別出哪些文檔需要被取回並向相關的分片提交多個 GET 請求。每個分片加載並豐富文檔，如果有需要的話，接着返回文檔給協調節點。一旦所有的文檔都被取回了，協調節點返回結果給客戶端。

（5）補充：Query Then Fetch 的搜索類型在文檔相關性打分的時候參考的是本分片的數據，這樣在文檔數量較少的時候可能不夠準確，DFS Query Then Fetch 增加了一個預查詢的處理，詢問 Term 和Document frequency，這個評分更準確，但是性能會變差。

14、在 ES 中，是怎麼根據一個詞找到對應的倒排索引的？

（1）Lucene的索引過程，就是按照全文檢索的基本過程，將倒排表寫成此文件格式的過程。

（2）Lucene的搜索過程，就是按照此文件格式將索引進去的信息讀出來，然後計算每篇文檔打分(score)的過程。

15、對於 GC 方面，在使用 Elasticsearch 時要注意什麼？

（1）倒排詞典的索引需要常駐內存，無法 GC，需要監控 data node 上 segmentmemory 增長趨勢。

（2）各類緩存，field cache, filter cache, indexing cache, bulk queue 等等，要設置合理的大小，並且要應該根據最壞的情況來看 heap 是否夠用，也就是各類緩存全部佔滿的時候，還有 heap 空間可以分配給其他任務嗎？避免採用 clear cache等“自欺欺人”的方式來釋放內存。

（3）避免返回大量結果集的搜索與聚合。確實需要大量拉取數據的場景，可以採用scan & scroll api來實現。

（4）cluster stats 駐留內存並無法水平擴展，超大規模集羣可以考慮分拆成多個集羣通過 tribe node連接。

（5）想知道 heap 夠不夠，必須結合實際應用場景，並對集羣的 heap 使用情況做持續的監控。

（6）根據監控數據理解內存需求，合理配置各類circuit breaker，將內存溢出風險降低到最低。

16、ES 對於大數據量（上億量級）的聚合如何實現？

Elasticsearch 提供的首個近似聚合是 cardinality 度量。它提供一個字段的基數，即該字段的 distinct或者 unique 值的數目。它是基於 HLL 算法的。HLL 會先對我們的輸入作哈希運算，然後根據哈希運算的結果中的 bits 做概率估算從而得到基數。其特點是：可配置的精度，用來控制內存的使用（更精確＝更多內存）；小的數據集精度是非常高的；我們可以通過配置參數，來設置去重需要的固定內存使用量。無論數千還是數十億的唯一值，內存使用量只與你配置的精確度相關。

17、併發情況下，Elasticsearch 如果保證讀寫一致？

（1）可以通過版本號使用樂觀併發控制，以確保新版本不會被舊版本覆蓋，由應用層來處理具體的衝突；

（2）另外對於寫操作，一致性級別支持 quorum/one/all，默認爲 quorum，即只有當大多數分片可用時才允許寫操作。但即使大多數可用，也可能存在因爲網絡等原因導致寫入副本失敗，這樣該副本被認爲故障，分片將會在一個不同的節點上重建。

（3）對於讀操作，可以設置 replication 爲 sync(默認)，這使得操作在主分片和副本分片都完成後纔會返回；如果設置 replication 爲 async 時，也可以通過設置搜索請求參數_preference 爲 primary 來查詢主分片，確保文檔是最新版本。

18、如何監控 Elasticsearch 集羣狀態？

Marvel 讓你可以很簡單的通過 Kibana 監控 Elasticsearch。你可以實時查看你的集羣健康狀態和性能，也可以分析過去的集羣、索引和節點指標。

19、是否瞭解字典樹？

Trie 的核心思想是空間換時間，利用字符串的公共前綴來降低查詢時間的開銷以達到提高效率的目的。

它有 3 個基本性質：

1）根節點不包含字符，除根節點外每一個節點都只包含一個字符。

2）從根節點到某一節點，路徑上經過的字符連接起來，爲該節點對應的字符串。

3）每個節點的所有子節點包含的字符都不相同。

丈夫有淚不輕彈

只因未到傷心處