理解BloomFilter

很多时候，我们都有这样一个需求：判断一个元素是否存在于集合中。比如IDEA中的单词拼写检查，要判断一个用户输入的单词是否在词库中。

我们轻易能想到的一个简单的解决方案，就是使用一个Hash表，将所有合法的单词都保存在Hash表中，这样写入和查询的时间复杂度都为O(1)，还是很快的。但是这样做有一个问题，就是太耗费空间。而且由于Hash表的散列冲突问题，就更加剧了空间的占用。这时就可以应用Bloom Filter。

Bloom Filter有两个要素：

布隆过滤器的原理是：当一个元素被加入集合时，通过K个hash函数将这个元素映射成一个位数组中的K个点，并把这K个点置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

可以注意到，上面用了大约、很可能这些修饰词，也就是说，BloomFilter是有一定误判率的：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.