ElastaticSearch 去重cardinality的坑

原創

2018-09-03 01:40

項目中，Elastatic search（下面簡稱ES）用於數據存儲和分析。

項目中的存儲的對象有包含關係。

A對象是B對象的集合，即一個A對象包含多個屬於A對象的B對象。在前端展示的時候，需要分別對A和B級別進行查詢彙總。設計的時候，考慮到儘可能的減少存儲量又能滿足各種查詢條件，決定以B爲單位進行存儲，同時B對象擁有屬性Aid，用於表示B的歸屬。

在普通sql數據庫中如此存儲不會有什麼問題，使用distinct可以做到去重查詢，通過對Aid的去重能夠得到A的數量。ES也支持去重查詢，使用cardinality即可。但是，沒有想到的是，ES的去重，只有在基數在100-40000之間纔可以保證基本的查詢準確率。

官方文檔的描述如下：

This example will ensure that fields with 100 or fewer distinct values will be extremely accurate. Although not guaranteed by the algorithm, if a cardinality is under the threshold, it is almost always 100% accurate. Cardinalities above this will begin to trade accuracy for memory savings, and a little error will creep into the metric.

For a given threshold, the HLL data-structure will use about precision_threshold * 8 bytes of memory. So you must balance how much memory you are willing to sacri‐ fice for additional accuracy.

Practically speaking, a threshold of 100 maintains an error under 5% even when counting millions of unique values.

結論：ES的去重，同數據庫查詢的distinct。在基數爲100-40000的前提下，能夠基本準確。且不管查詢的文檔量是多少，即便是百萬級也能夠保證錯誤率在5%以下。（基數的概念，比如咱們用事務id做去重，查詢結果中不同事務id的數量即爲基數）。另外，去重的使用更加消耗內存）

目前，筆者尚無有效的解決辦法。如有解決方案，懇請賜教。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elastic search系列(一)基本概念和增刪改查邏輯

（翻譯:jasonlee [email protected]）分佈式策略： ES致力於分佈式系統實現細節對於用戶的透明性。在ES使用過程中，集羣自動執行一下步驟： 1 分配文檔到相同節點或不同節點的不同分片上。 2 通過集羣中的多節點來

2020-06-21 11:15:16

log4net不打印日誌分析

描述 log4net配置正確，但是沒有日誌輸出。示例代碼： ILog log = LogManager.GetLogger(this.GetType()); log.Warn("bussinessException"); //

2020-07-01 03:30:39

讀取的圖像矩陣出現小數？使用matplotlib.image.imread()和cv2.imread()讀取png圖像的差異

1 問題前幾天在使用matplotlib.image.imread()函數進行讀取的時候，想通過循環查看圖片裏面的RGB矩陣分佈的時候： import matplotlib.image as pim img = pim.imre

2020-06-27 00:10:59

xml提示不允許處理指令目標匹配“[xX][mM][lL]”

原因有：不允許有匹配 “[xX][mM][lL]” 的處理指令目標。說明XML可能不規範，哪裏有些出入？這種異常是XML沒有以<?xml version="1.0" encoding="UTF-8"?> 開頭，也就是說第一個字

2020-06-25 13:10:26

那些年你踩過的坑之三—URL傳參轉義和contentType引起415,400的錯誤

1、js傳遞參數爲url的時候需要去轉義，那麼有哪些特殊字符需要轉義呢？主要有下面這些參數： ‘+’ ：%2B 空格：%20 / : %2F ? : %3F (有時候這個問號

拄杖盲学轻声码

2020-06-20 12:55:01

那些年你踩過的坑之二__傳遞參數轉義還報錯

接着上一個坑後我又遇到另一個坑，那就是還是報錯。又是某個方法找不到，你說煩不煩，然後各種定位，發現。誤區一:function內定義的函數和外定義函數作用域不同第一，方法寫到$(function(){})裏面去了，導致點擊時

拄杖盲学轻声码

2020-06-20 11:49:01

xshell 執行項目報錯 X11 window server

問題在xshell中執行java項目報錯。java.awt.AWTError: Can't connect to X11 window server using 'localhost:10.0' as the val Exceptio

2020-06-16 14:36:08

解決java.lang.IllegalArgumentException: Could not resolve placeholder xx.xx.addr 的問題，思路：一定是配置文件問題

今天啓動SpringBoot遇到一個問題，提示 java.lang.IllegalArgumentException: Could not resolve placeholder 'xx.xx.addr' in value "${xx.

2020-06-15 10:46:40

CodeBlocks有關debug以及容器值的顯示問題

一杯茶一根菸，一個bug一整天既用半小時寫了兩天才解決的bug之後，我成功的被逼會了codeblocks的debug。甚至還配置了一波，讓他能夠顯示容器裏的值。我太難了哇~ ——————————吐槽的分割線—————————

2020-06-13 03:34:31

Python字典數據轉json字符串後進行base64編碼問題

2020-05-26 16:10:15

踩坑日記之windows10家庭版安裝Oracle11g數據庫（一）

weixin_43158997

2020-05-20 14:54:17

@Aspect不起作用

2020-05-14 10:07:06

自定義相機CameraView與踩坑記錄

2020-04-25 01:07:42

springBoot項目替換lib下的依賴jar包 Unable to open nested entry 'BOOT-INF/lib/

2020-04-16 07:47:51

pandas讀取DataFrame的時候df.loc[:x]和普通df[:x]取值範圍是不同的

2020-04-15 18:38:58

24小時熱門文章

最新文章

ElastaticSearch 去重cardinality的坑

最新評論文章