布隆过滤器

布隆过滤器

原創

2020-02-24 20:52

转自：谈谈布隆过滤器，保存在此以学习。

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

设计初衷：
（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的，不知道当时布隆为啥想到设计时究竟是碰到了啥问题，但这确实很有效
**来看下面的问题：
1.检查一个单词是否拼写正确->看它是否在已经字典中
2.网络爬虫->一个网址是否访问过
3.邮件过滤，建立那些发垃圾邮件的地址的黑名单**

你可能会说哈希表不就行了吗，但在2,3的问题中，网页和垃圾邮件地址全球动不动便是几十亿那，哈希的存储效率也就50%左右
一亿Email（一个占16字节）约为1.6GB内存，要是几十亿个地址就几百GB，谁家这么有钱，都去建天河二号
所以啊，能不能少花点内存来干这事：于是布隆过滤器来了，只要12.5%到25%的哈希表空间就能干这事，但是有点小错误，这个小错误概率太小就基本不担心了

工作原理：
一亿Email => 16亿二进制（bit)==2亿字节（哈希就是16亿字节了）

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

1亿个地址放入建好这个布隆过滤器

然后新来一个，同样处理，对应8个二进制位 t1,t2,…,t8
如果全为1，好的=>判定位垃圾邮件

你会想了，这样靠谱不，万一把非垃圾邮件误判了咋办

我们来看看误判的概率：
先来算任何一个位被置为1的概率p，这样你可以简单的就知道
新来一个，有8个位，如果被误判了，此时这8个位全为1，其概率为

p 8

我们来推到下一般的情况，假设有m个位，n个元素，有k个哈希函数，
针对单个元素插入来说：

任 一 个 位 被 置 为 1 的 概 率 ： 1 / m

K 个 函 数 都 没 有 把 它 置 为 1 ： （ 1 - 1 / m) k

插 入 了 那 个 元 素 依 然 没 有 被 置 为 1 ： （ 1 - 1 / m) k n

反 过 来 说 ， 一 个 位 被 置 为 1 ： 1 - （ 1 - 1 / m) k n

同样的新来一个，要命中其概率为：

1−[1−1/m]kn)k近似（1−e−kn/m)k
上次k=8,n/m=1/16,计算值大约在万分之五，误判率非常低，基本可容忍。*

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

转自：谈谈布隆过滤器，保存在此以学习。

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

linux安装cuda和cudnn

测试人员都是画画大神，让我看看谁还不会用代码图？

Object.values()对象遍历

我拍了拍Redis，被移出了群聊···

网络现代化通向云原生应用的高速公路

面试官：说说你对序列化的理解

我宣布，这是我找到的史上AI最全论文体系！

ts知識鏈接

基於BP神經網絡的數據分類

Java中static關鍵詞的作用

重載overload與重寫override的區別

穩定排序與不穩定排序

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結