基數估計算法概覽

譯註:給定一個數據集,求解數據集的基數(Cardinality,也譯作“勢”,表示一個數據集中不同數據項的數量)是非常普遍的一個需求。許多業務需求最終可以歸結爲基數求解,如網站訪問分析中的UV(訪客數,指一段時間內訪問網站的不同用戶的數量)。由於數據集基數是不可聚集指標(兩個數據集總的基數無法通過分別的基數簡單計算),因此如果要得到N個數據集任意組合的基數,需要2N次數據集去重計算,是一個複雜度非常高的計算過程。當數據量較小時,可以採取bitmap“按位或”方法獲得較高的計算速度;而當數據量很大時,一般會採取概率算法對基數進行估計。這篇文章是對基數估計算法的一個非常好的概覽。



http://blog.jobbole.com/30671/


https://github.com/svpcom/hyperloglog

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章