elasticsearch面試必考

面試題

es 寫入數據的工作原理是什麼啊?es 查詢數據的工作原理是什麼啊?底層的 lucene 介紹一下唄?倒排索引瞭解嗎?

面試官心理分析

問這個,其實面試官就是要看看你瞭解不瞭解 es 的一些基本原理,因爲用 es 無非就是寫入數據,搜索數據。你要是不明白你發起一個寫入和搜索請求的時候,es 在幹什麼,那你真的是......對 es 基本就是個黑盒,你還能幹啥?你唯一能幹的就是用 es 的 api 讀寫數據了。要是出點什麼問題,你啥都不知道,那還能指望你什麼呢?

es 寫數據過程

  • 客戶端選擇一個 node 發送請求過去,這個 node 就是 coordinating node(協調節點)。

  • coordinating node 對 document 進行路由,將請求轉發給對應的 node(有 primary shard)。[路由的算法是?]

  • 實際的 node 上的 primary shard 處理請求,然後將數據同步到 replica node

  • coordinating node 如果發現 primary node 和所有 replica node 都搞定之後,就返回響應結果給客戶端。

es 讀數據過程

可以通過 doc id 來查詢,會根據 doc id 進行 hash,判斷出來當時把 doc id 分配到了哪個 shard 上面去,從那個 shard 去查詢。

  • 客戶端發送請求到任意一個 node,成爲 coordinate node

  • coordinate node 對 doc id 進行哈希路由,將請求轉發到對應的 node,此時會使用 round-robin隨機輪詢算法,在 primary shard 以及其所有 replica 中隨機選擇一個,讓讀請求負載均衡。

  • 接收請求的 node 返回 document 給 coordinate node

  • coordinate node 返回 document 給客戶端。

寫請求是寫入 primary shard,然後同步給所有的 replica shard;讀請求可以從 primary shard 或 replica shard 讀取,採用的是隨機輪詢算法。

 

es 搜索數據過程[是指search?search和普通docid get的背後邏輯不一樣?]

es 最強大的是做全文檢索,就是比如你有三條數據:

  • java真好玩兒啊
  • java好難學啊
  • j2ee特別牛

你根據 java 關鍵詞來搜索,將包含 java的 document 給搜索出來。es 就會給你返回:java真好玩兒啊,java好難學啊。

  • 客戶端發送請求到一個 coordinate node

  • 協調節點將搜索請求轉發到所有的 shard 對應的 primary shard 或 replica shard,都可以。

  • query phase:每個 shard 將自己的搜索結果(其實就是一些 doc id)返回給協調節點,由協調節點進行數據的合併、排序、分頁等操作,產出最終結果。

  • fetch phase:接着由協調節點根據 doc id 去各個節點上拉取實際的 document 數據,最終返回給客戶端。

寫數據底層原理

 

1)document先寫入導內存buffer中,同時寫translog日誌

2))https://www.elastic.co/guide/cn/elasticsearch/guide/current/near-real-time.html

refresh操作所以近實時搜索:寫入和打開一個新段(一個追加的倒排索引)的輕量的過程叫做 refresh 。每隔一秒鐘把buffer中的數據創建一個新的segment,這裏新段會被先寫入到文件系統緩存--這一步代價會比較低,稍後再被刷新到磁盤--這一步代價比較高。不過只要文件已經在緩存中, 就可以像其它文件一樣被打開和讀取了,內存buffer被清空。此時,新segment 中的文件就可以被搜索了,這就意味着document從被寫入到可以被搜索需要一秒種,如果要更改這個屬性,可以執行以下操作

PUT /my_index
{
  "settings": {
    "refresh_interval": "30s" 
  }
}
3)https://www.elastic.co/guide/cn/elasticsearch/guide/current/translog.html

flush操作導致持久化變更:執行一個提交併且截斷 translog 的行爲在 Elasticsearch 被稱作一次 flush。刷新(refresh)完成後, 緩存被清空但是事務日誌不會。translog日誌也會越來越多,當translog日誌大小大於一個閥值時候或30分鐘,會出發flush操作。

  • 所有在內存緩衝區的文檔都被寫入一個新的段。
  • 緩衝區被清空。
  • 一個提交點被寫入硬盤。(表明有哪些segment commit了)
  • 文件系統緩存通過 fsync 到磁盤。
  • 老的 translog 被刪除。

分片每30分鐘被自動刷新(flush),或者在 translog 太大的時候也會刷新。也可以用_flush命令手動執行。

translog每隔5秒會被寫入磁盤(所以如果這5s,數據在cache而且log沒持久化會丟失)。在一次增刪改操作之後translog只有在replica和primary shard都成功纔會成功,如果要提高操作速度,可以設置成異步的

PUT /my_index
{
  "settings": {
    "index.translog.durability": "async" ,

    "index.translog.sync_interval":"5s"
  }
}

所以總結是有三個批次操作,一秒做一次refresh保證近實時搜索,5秒做一次translog持久化保證數據未持久化前留底,30分鐘做一次數據持久化。

2.基於translog和commit point的數據恢復

在磁盤上會有一個上次持久化的commit point,translog上有一個commit point,根據這兩個commit point,會把translog中的變更記錄進行回放,重新執行之前的操作

3.不變形下的刪除和更新原理

https://www.elastic.co/guide/cn/elasticsearch/guide/current/dynamic-indices.html#deletes-and-updates

一個文檔被 “刪除” 時,它實際上只是在 .del 文件中被 標記 刪除。一個被標記刪除的文檔仍然可以被查詢匹配到, 但它會在最終結果被返回前從結果集中移除。

文檔更新也是類似的操作方式:當一個文檔被更新時,舊版本文檔被標記刪除,文檔的新版本被索引到一個新的段中。 可能兩個版本的文檔都會被一個查詢匹配到,但被刪除的那個舊版本文檔在結果集返回前就已經被移除。

段合併的時候會將那些舊的已刪除文檔 從文件系統中清除。 被刪除的文檔(或被更新文檔的舊版本)不會被拷貝到新的大段中。

4.merge操作,段合併

https://www.elastic.co/guide/cn/elasticsearch/guide/current/merge-process.html

由於每秒會把buffer刷到segment中,所以segment會很多,爲了防止這種情況出現,es內部會不斷把一些相似大小的segment合併,並且物理刪除del的segment。

當然也可以手動執行

POST /my_index/_optimize?max_num_segments=1,儘量不要手動執行,讓它自動默認執行就可以了
 

5.當你正在建立一個大的新索引時(相當於直接全部寫入buffer,先不refresh,寫完再refresh),可以先關閉自動刷新,待開始使用該索引時,再把它們調回來:

PUT /my_logs/_settings
{ "refresh_interval": -1 } 

PUT /my_logs/_settings
{ "refresh_interval": "1s" } 

 

底層 lucene

簡單來說,lucene 就是一個 jar 包,裏面包含了封裝好的各種建立倒排索引的算法代碼。我們用 Java 開發的時候,引入 lucene jar,然後基於 lucene 的 api 去開發就可以了。

通過 lucene,我們可以將已有的數據建立索引,lucene 會在本地磁盤上面,給我們組織索引的數據結構。

 

倒排索引

 

在搜索引擎中,每個文檔都有一個對應的文檔 ID,文檔內容被表示爲一系列關鍵詞的集合。例如,文檔 1 經過分詞,提取了 20 個關鍵詞,每個關鍵詞都會記錄它在文檔中出現的次數和出現位置。

 

那麼,倒排索引就是關鍵詞到文檔 ID 的映射,每個關鍵詞都對應着一系列的文件,這些文件中都出現了關鍵詞。

 

舉個栗子。

 

有以下文檔:

對文檔進行分詞之後,得到以下倒排索引。

 

另外,實用的倒排索引還可以記錄更多的信息,比如文檔頻率信息,表示在文檔集合中有多少個文檔包含某個單詞。

 

那麼,有了倒排索引,搜索引擎可以很方便地響應用戶的查詢。比如用戶輸入查詢 Facebook,搜索系統查找倒排索引,從中讀出包含這個單詞的文檔,這些文檔就是提供給用戶的搜索結果。

 

要注意倒排索引的兩個重要細節:

 

  • 倒排索引中的所有詞項對應一個或多個文檔

  • 倒排索引中的詞項根據字典順序升序排列

上面只是一個簡單的栗子,並沒有嚴格按照字典順序升序排列。

 

Translog的詳解

translog是用來恢復數據的。Es用“後寫”的套路來加快寫入速度 — 寫入的索引並沒有實時落盤到索引文件,而是先雙寫到內存和translog文件,

下圖1中灰色部分(見藍色箭頭)表示數據出於 可搜索 & 未落盤 & 已寫日誌 的狀態。此時如果掉電,es重啓後還可以把數據從日誌文件中讀回來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章