Elasticsearch的filter的caching（緩存）機制詳解

原創

2020-07-06 23:17

編程界的小學生 2017-12-27 07:50:54

直接舉例說明

1.假設現在要在倒排索引中去搜索字符串（xxx）

比如如下有個倒排索引列表：

我現在要搜索：2017-02-02

去倒排索引中找，發現對應的document list是doc2和doc3

2.爲每個在倒排索引中搜索到的結果，構建一個bitset

使我們找到的doc list構建一個bitset，就是一個二進制數組，數組每個元素都是0或1。用來標識一個doc對一個filter條件是否匹配，如果匹配就是1，不匹配就是0

[0,1,1]

doc1：不匹配這個filter的

doc2和doc3：匹配這個filter的

儘可能用簡單的數據結構去實現複雜的功能，可以節省內存空間，提升性能

3.遍歷每個過濾條件對應的bitset，優先從最稀疏的開始搜索，查找滿足所有條件的document

一次性其實可以在一個search請求中，發出多個filter條件，每個filter條件都會對應一個bitsite，遍歷每個filter條件對應的bitset，先從最稀疏的開始遍歷

[0, 0, 0, 1, 0, 0]：比較稀疏

[0, 1, 0, 1, 0, 1]

先遍歷比較稀疏的bitset，就可以先過濾掉儘可能多的數據

遍歷所有的bitset，找到匹配所有filter條件的doc

請求：filter，postDate=2017-01-01，userID=1

postDate: [0, 0, 1, 1, 0, 0]

userID: [0, 1, 0, 1, 0, 1]

遍歷完兩個bitset之後，找到的匹配所有條件的doc。就是doc4，就可以將doc4作爲結果返回給client了

4.caching bitset

跟蹤query，在最近256個query中超過一定次數的過濾條件，緩存其bitset。對於小segment（<1000，或<3%），不緩存bitset。

比如postDate=2017-01-01, [0,0,1,1,0,0]，可以緩存在內存中，這樣下次如果再有這個條件過來的時候，就不用重新掃描倒排索引，不用反覆生成bitset，可以大幅度提升性能。

在最近的256個filter中，有某個filter超過了一定的次數，次數不固定，就會自動緩存這個filter對應的bitset

lter針對小segment獲取到的結果，可以不緩存，segment記錄數<1000，或者segment大小<index總大小的3%

segment數據量很小，此時哪怕是掃描也很快；segment會在後臺自動合併，小segment很快就會跟其他小segment合併成大segment，此時就緩存也沒有什麼意義，segment很快就消失了

針對一個小segment的bitset，[0, 0, 1, 0]

filter比query的好處就在於會caching，但是之前不知道caching的是什麼東西，實際上並不是一個filter返回的完整的doc list數據結果。而是filter bitset緩存起來。下次不用掃描倒排索引了。

5. filter大部分情況下來說，在query之前執行，先儘量過濾掉儘可能多的數據

query：是會計算doc對搜索條件的relevance score，還會根據這個score去排序

filter：只是簡單過濾出想要的數據，不計算relevance score，也不排序

6. 如果document有新增或修改，那麼cached bitset會被自動更新

postDate=2017-01-01，[0, 0, 1, 0]

document，id=5，postDate=2017-01-01，會自動更新到postDate=2017-01-01這個filter的bitset中，全自動，緩存會自動更新。postDate=2017-01-01的bitset，[0, 0, 1, 0, 1]

document，id=1，postDate=2016-12-30，修改爲postDate-2017-01-01，此時也會自動更新bitset，[1, 0, 1, 0, 1]

7. 以後只要是有相同的filter條件的，會直接來使用這個過濾條件對應的cached bitset

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

日誌分析系統ELK安裝（單機）

下載ElasticSearch、Logstash、Kibana安裝包。百度雲地址：鏈接：https://pan.baidu.com/s/104Qae0x5epXJO39iQzaoNw 提取碼：2cl5 ElK + Filebe

2020-07-08 10:31:09

ELK-filbeate收集tomcat日誌

filebeat作爲代理安裝在服務器上,監視指定的日誌文件或位置,收集日誌事件,並將他們轉發到logstash,elasticsearch,kafka等 input 我們要採集的日誌文件路徑, 收割機 harvester 監聽文件

2020-07-07 22:50:11

logstash常見數據清洗配置

ogstash通過插件的形式來配置input，filter，output，在消費數據後，如果需要對數據做處理,需要用到filter的很多功能。最近使用logstash傳遞kafka數據到es時，瞭解了一些logstash處理數據的方式，以

开飞机的舒克贝塔

2020-07-07 17:40:23

ELK filter 查詢

filter 查詢不計算相關性，同時可以 cache ,因此 filter 速度要快於 query. POST /lib4/items/_bulk {"index":{"_id":1}} {"price":40,"itemID":"ID1

2020-07-07 16:07:22

filebeat+redis+elk日誌分析搭建

filebeat: 10.0.0.41 redis: 10.0.0.42 logstash: 10.0.0.43 elasticsearch: 10.0.0.44 kibana: 10.0.0.45 架構如下: 一、filebe

一纸情书ベ

2020-07-07 13:29:53

elk消費kafka數據延遲過大的問題

elk消費kafka數據延遲過大的問題 1.問題現象表述：當前elk作爲日誌系統消費kafka日誌數據有很大的延遲，即elk的消費kafka中日誌的速度（200條/s）遠遠低於maplearning生產日誌的速度（平均3000

2020-07-07 00:27:52

spark監控streamingListener使用與監控告警

Spark-steaming監控設計與驗證方案 created by fangchangtan | 2020/2/24 原創不易，謝絕白嫖，好的話就點

2020-07-07 00:27:52

安裝elasticalert配置驗證文檔

docker 安裝、配置、驗證ElasticAlert created by fangchangtan | 2020/2/24 1.elastalert的場景用途 elastalert組件作爲elk中日

2020-07-07 00:27:52

ElasticSearch CPU和內存佔用高的優化記錄出現GC

公司最近使用ElasticSearch作爲數據報表彙總引擎.上線三個月累計數據800萬,但是今天突然大面積出現查詢超時,上服務器查看服務運行情況,發現cpu使用率高達300% mem 使用率也到了90%,下面記錄了整個排

2020-07-06 23:17:59

ElasticSearch6.3.2 中的JVM性能調優

前一段時間被人問了個問題：在使用ES的過程中有沒有做過什麼JVM調優措施？在我搭建ES集羣過程中，參照important-settings官方文檔來的，並沒有對JVM參數做過多的調整。但談到JVM配置參數，少不了操作系統層面上的一些

2020-07-06 23:17:59

elasticsearch實現冷熱數據分離

目錄(?)[-] es架構各節點的es配置如何實現某索引數據寫到指定的node根據節點tag即可如何實現數據從hot節點遷移到老的cold節點 cold節點數據保留1個月優化點 logstash測試關於es的index te

2020-07-06 23:17:59

elasticsearch 的日誌gc

[2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][228384] overhead, spent [2.2s] collec

2020-07-06 23:17:59

Elasticsearch集羣模式知多少

01序言 Elasticsearch經過多年發展，集羣模式已經非常成熟，涵蓋的技術點非常多，對於使用者來說，掌握並熟練運用至關重要。那麼Elasticsearch有多少種集羣模式呢？當前適合哪種集羣模式？本文不涉及實戰操作，僅限集羣原理範

2020-07-06 23:17:59

Elasticsearch 7.7部署

　Elasticsearch(簡稱:ES)是一個開源的分佈式搜索引擎, Elasticsearch 還是一個分佈式文檔數據庫.並提供了大量數據的存儲功能快速的搜索與分析功能. 　　起源於 Lucene, 基於 Java 語言開發的搜索引擎

2020-07-06 23:17:59

一文掌握並應用Elasticsearch中的GC實現垃圾日誌處理

如果你關注過 Elasticsearch 的日誌，可能會看到如下類似的內容： [2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][22

2020-07-06 23:17:59

24小時熱門文章

最新文章

最新評論文章