ElasticSearch系列-索引原理與數據讀寫流程

原創

古道輕風

2023-10-04 13:22

索引原理

倒排索引

倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地來講，正向索引是通過key找value，反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。

索引模型

現有索引和映射如下:

{
  "products" : {
    "mappings" : {
      "properties" : {
        "description" : {
          "type" : "text"
        },
        "price" : {
          "type" : "float"
        },
        "title" : {
          "type" : "keyword"
        }
      }
    }
  }
}

先錄入如下數據，有三個字段title、price、description等

_id	title	price	description
1	藍月亮洗衣液	`19.9`	藍月亮洗衣液`很`高效
2	iphone13	`19.9`	`很`不錯的手機
3	小浣熊乾脆面	1.5	小浣熊`很`好喫

在ES中除了text類型分詞，其他類型不分詞，因此根據不同字段創建索引如下：

title字段:

term _id(文檔id)

藍月亮洗衣液 1

iphone13 2

小浣熊乾脆面 3
price字段

term _id(文檔id)

19.9 [1,2]

1.5 3

term	_id(文檔id)
藍月亮洗衣液	1
iphone13	2
小浣熊乾脆面	3

term	_id(文檔id)
19.9	[1,2]
1.5	3

description字段

term	_id	term	_id	term	_id
藍	1	不	2	小	3
月	1	錯	2	浣	3
亮	1	的	2	熊	3
洗	1	手	2	好	3
衣	1	機	2	喫	3
液	1
很	[1:1:9,2:1:6,3:1:6]
高	1
效	1

注意: Elasticsearch分別爲每個字段都建立了一個倒排索引。因此查詢時查詢字段的term,就能知道文檔ID，就能快速找到文檔。

數據寫入流程

先寫入buffer，在buffer裏的時候數據是搜索不到的；同時將數據寫入translog日誌文件
如果buffer快滿了，或者到一定時間，就會將buffer數據refresh到一個新的segment file中，但是此時數據不是直接進入segment file的磁盤文件的，而是先進入os cache的。這個過程就是refresh。爲什麼叫es是準實時的？NRT，near real-time，準實時。默認是每隔1秒refresh一次的，所以es是準實時的，因爲寫入的數據1秒之後才能被看到。
只要數據進入os cache，此時就可以讓這個segment file的數據對外提供搜索了
重複1~3步驟，新的數據不斷進入buffer和translog，不斷將buffer數據寫入一個又一個新的segment file中去，每次refresh完buffer清空，translog保留。隨着這個過程推進，translog會變得越來越大。當translog達到一定長度的時候，就會觸發mit操作。
mit操作發生第一步，就是將buffer中現有數據refresh到os cache中去，清空buffer
將一個mit point寫入磁盤文件，裏面標識着這個mit point對應的所有segment file
強行將os cache中目前所有的數據都fsync到磁盤文件中
將現有的translog清空，然後再次重啓啓用一個translog，此時mit操作完成。默認每隔30分鐘會自動執行一次mit，但是如果translog過大，也會觸發mit。整個mit的過程，叫做flush操作。我們可以手動執行flush操作，就是將所有os cache數據刷到磁盤文件中去。

es中的flush操作，就對應着mit的全過程。我們也可以通過es api，手動執行flush操作，手動將os cache中的數據fsync強刷到磁盤上去，記錄一個mit point，清空translog日誌文件。
translog其實也是先寫入os cache的，默認每隔5秒刷一次到磁盤中去，所以默認情況下，可能有5秒的數據會僅僅停留在buffer或者translog文件的os cache中，如果此時機器掛了，會丟失5秒鐘的數據。但是這樣性能比較好，最多丟5秒的數據。也可以將translog設置成每次寫操作必須是直接fsync到磁盤，但是性能會差很多。
如果是刪除操作，mit的時候會生成一個.del文件，裏面將某個doc標識爲deleted狀態，那麼搜索的時候根據.del文件就知道這個doc被刪除了
如果是更新操作，就是將原來的doc標識爲deleted狀態，然後新寫入一條數據
buffer每次refresh一次，就會產生一個segment file，所以默認情況下是1秒鐘一個segment file，segment file會越來越多，此時會定期執行merge
每次merge的時候，會將多個segment file合併成一個，同時這裏會將標識爲deleted的doc給物理刪除掉，然後將新的segment file寫入磁盤，這裏會寫一個mit point，標識所有新的segment file，然後打開segment file供搜索使用，同時刪除舊的segment file。

es裏的寫流程，有4個底層的核心概念，refresh、flush、translog、merge

當segment file多到一定程度的時候，es就會自動觸發merge操作，將多個segment file給merge成一個segment file。

數據查詢流程

客戶端發送請求到任意一個node，成爲coordinate node
coordinate node對document進行路由，將請求轉發到對應的node，此時會使用round-robin隨機輪詢算法，在primary shard以及其所有replica中隨機選擇一個，讓讀請求負載均衡
接收請求的node返回document給coordinate node
coordinate node返回document給客戶端

作者|悅@arcstack

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ElasticSearch系列-索引原理與數據讀寫流程

索引原理

倒排索引

索引模型

數據寫入流程

數據查詢流程

DAPPER 事務 TRANSACTION

分佈式億級流量整體架構設計原則

架構師必備的37項技能清單

如何保障MySQL和Redis的數據一致性？

用慘痛教訓換來的156條MySQL設計規約

淺談MySQL讀寫分離的坑以及應對的方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結