Redis HyperLogLog 是用來做基數統計的算法
什麼是基數?
比如數據集 {1, 3, 5, 7, 5, 7, 8}, 那麼這個數據集的基數集爲 {1, 3, 5 ,7, 8}, 基數(不重複元素)爲5。 基數估計就是在誤差可接受的範圍內,快速計算基數。
有什麼用?
比如統計UV,快速統計出千萬級別的UV
PFADD uv 1001
PFADD uv 1002
PFADD uv 1003
PFCOUNT nv => 3
PFADD uv 1003
PFCOUNT uv. => 3
如何判斷一個元素在億級數據中是否存在?
利用bloom filter算法,可結合redis的bitmap來實現