Elasticsearch的filter的caching（缓存）机制详解

原創

2020-07-06 23:17

编程界的小学生 2017-12-27 07:50:54

直接举例说明

1.假设现在要在倒排索引中去搜索字符串（xxx）

比如如下有个倒排索引列表：

我现在要搜索：2017-02-02

去倒排索引中找，发现对应的document list是doc2和doc3

2.为每个在倒排索引中搜索到的结果，构建一个bitset

使我们找到的doc list构建一个bitset，就是一个二进制数组，数组每个元素都是0或1。用来标识一个doc对一个filter条件是否匹配，如果匹配就是1，不匹配就是0

[0,1,1]

doc1：不匹配这个filter的

doc2和doc3：匹配这个filter的

尽可能用简单的数据结构去实现复杂的功能，可以节省内存空间，提升性能

3.遍历每个过滤条件对应的bitset，优先从最稀疏的开始搜索，查找满足所有条件的document

一次性其实可以在一个search请求中，发出多个filter条件，每个filter条件都会对应一个bitsite，遍历每个filter条件对应的bitset，先从最稀疏的开始遍历

[0, 0, 0, 1, 0, 0]：比较稀疏

[0, 1, 0, 1, 0, 1]

先遍历比较稀疏的bitset，就可以先过滤掉尽可能多的数据

遍历所有的bitset，找到匹配所有filter条件的doc

请求：filter，postDate=2017-01-01，userID=1

postDate: [0, 0, 1, 1, 0, 0]

userID: [0, 1, 0, 1, 0, 1]

遍历完两个bitset之后，找到的匹配所有条件的doc。就是doc4，就可以将doc4作为结果返回给client了

4.caching bitset

跟踪query，在最近256个query中超过一定次数的过滤条件，缓存其bitset。对于小segment（<1000，或<3%），不缓存bitset。

比如postDate=2017-01-01, [0,0,1,1,0,0]，可以缓存在内存中，这样下次如果再有这个条件过来的时候，就不用重新扫描倒排索引，不用反复生成bitset，可以大幅度提升性能。

在最近的256个filter中，有某个filter超过了一定的次数，次数不固定，就会自动缓存这个filter对应的bitset

lter针对小segment获取到的结果，可以不缓存，segment记录数<1000，或者segment大小<index总大小的3%

segment数据量很小，此时哪怕是扫描也很快；segment会在后台自动合并，小segment很快就会跟其他小segment合并成大segment，此时就缓存也没有什么意义，segment很快就消失了

针对一个小segment的bitset，[0, 0, 1, 0]

filter比query的好处就在于会caching，但是之前不知道caching的是什么东西，实际上并不是一个filter返回的完整的doc list数据结果。而是filter bitset缓存起来。下次不用扫描倒排索引了。

5. filter大部分情况下来说，在query之前执行，先尽量过滤掉尽可能多的数据

query：是会计算doc对搜索条件的relevance score，还会根据这个score去排序

filter：只是简单过滤出想要的数据，不计算relevance score，也不排序

6. 如果document有新增或修改，那么cached bitset会被自动更新

postDate=2017-01-01，[0, 0, 1, 0]

document，id=5，postDate=2017-01-01，会自动更新到postDate=2017-01-01这个filter的bitset中，全自动，缓存会自动更新。postDate=2017-01-01的bitset，[0, 0, 1, 0, 1]

document，id=1，postDate=2016-12-30，修改为postDate-2017-01-01，此时也会自动更新bitset，[1, 0, 1, 0, 1]

7. 以后只要是有相同的filter条件的，会直接来使用这个过滤条件对应的cached bitset

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

日志分析系统ELK安装（单机）

下載ElasticSearch、Logstash、Kibana安裝包。百度雲地址：鏈接：https://pan.baidu.com/s/104Qae0x5epXJO39iQzaoNw 提取碼：2cl5 ElK + Filebe

2020-07-08 10:31:09

ELK-filbeate收集tomcat日志

filebeat作爲代理安裝在服務器上,監視指定的日誌文件或位置,收集日誌事件,並將他們轉發到logstash,elasticsearch,kafka等 input 我們要採集的日誌文件路徑, 收割機 harvester 監聽文件

2020-07-07 22:50:11

logstash常见数据清洗配置

ogstash通過插件的形式來配置input，filter，output，在消費數據後，如果需要對數據做處理,需要用到filter的很多功能。最近使用logstash傳遞kafka數據到es時，瞭解了一些logstash處理數據的方式，以

开飞机的舒克贝塔

2020-07-07 17:40:23

ELK filter 查询

filter 查詢不計算相關性，同時可以 cache ,因此 filter 速度要快於 query. POST /lib4/items/_bulk {"index":{"_id":1}} {"price":40,"itemID":"ID1

2020-07-07 16:07:22

filebeat+redis+elk日志分析搭建

filebeat: 10.0.0.41 redis: 10.0.0.42 logstash: 10.0.0.43 elasticsearch: 10.0.0.44 kibana: 10.0.0.45 架構如下: 一、filebe

一纸情书ベ

2020-07-07 13:29:53

elk消费kafka数据延迟过大的问题

elk消費kafka數據延遲過大的問題 1.問題現象表述：當前elk作爲日誌系統消費kafka日誌數據有很大的延遲，即elk的消費kafka中日誌的速度（200條/s）遠遠低於maplearning生產日誌的速度（平均3000

2020-07-07 00:27:52

spark监控streamingListener使用与监控告警

Spark-steaming監控設計與驗證方案 created by fangchangtan | 2020/2/24 原創不易，謝絕白嫖，好的話就點

2020-07-07 00:27:52

安装elasticalert配置验证文档

docker 安裝、配置、驗證ElasticAlert created by fangchangtan | 2020/2/24 1.elastalert的場景用途 elastalert組件作爲elk中日

2020-07-07 00:27:52

ElasticSearch CPU和内存占用高的优化记录出现GC

公司最近使用ElasticSearch作爲數據報表彙總引擎.上線三個月累計數據800萬,但是今天突然大面積出現查詢超時,上服務器查看服務運行情況,發現cpu使用率高達300% mem 使用率也到了90%,下面記錄了整個排

2020-07-06 23:17:59

ElasticSearch6.3.2 中的JVM性能调优

前一段時間被人問了個問題：在使用ES的過程中有沒有做過什麼JVM調優措施？在我搭建ES集羣過程中，參照important-settings官方文檔來的，並沒有對JVM參數做過多的調整。但談到JVM配置參數，少不了操作系統層面上的一些

2020-07-06 23:17:59

elasticsearch实现冷热数据分离

目錄(?)[-] es架構各節點的es配置如何實現某索引數據寫到指定的node根據節點tag即可如何實現數據從hot節點遷移到老的cold節點 cold節點數據保留1個月優化點 logstash測試關於es的index te

2020-07-06 23:17:59

elasticsearch 的日志gc

[2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][228384] overhead, spent [2.2s] collec

2020-07-06 23:17:59

Elasticsearch集群模式知多少

01序言 Elasticsearch經過多年發展，集羣模式已經非常成熟，涵蓋的技術點非常多，對於使用者來說，掌握並熟練運用至關重要。那麼Elasticsearch有多少種集羣模式呢？當前適合哪種集羣模式？本文不涉及實戰操作，僅限集羣原理範

2020-07-06 23:17:59

Elasticsearch 7.7部署

　Elasticsearch(簡稱:ES)是一個開源的分佈式搜索引擎, Elasticsearch 還是一個分佈式文檔數據庫.並提供了大量數據的存儲功能快速的搜索與分析功能. 　　起源於 Lucene, 基於 Java 語言開發的搜索引擎

2020-07-06 23:17:59

一文掌握并应用Elasticsearch中的GC实现垃圾日志处理

如果你關注過 Elasticsearch 的日誌，可能會看到如下類似的內容： [2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][22

2020-07-06 23:17:59

24小時熱門文章

最新文章

最新評論文章