时隔一年后的面经总结

原創

nuc2015

2020-02-26 04:33

这是一条时隔一年后的面试凉经。当时的目标厂家是字节跳动，目标岗位大数据工程师。在此记录我印象最深刻的一个问题。

由于在大三期间有过实习经历，写过爬虫，并且将这一点写在了我的求职简历中。所以面试官就我在爬虫系统中是如何处理URL的重复问题的。

URL去重问题：爬虫在抓取网页时会抓取到数亿条的URL，而这在互联网种属九牛一毛。并且网页中的URL是相互链接的，如果抓取到相同的URL，会行程闭环，主要也是为了节省资源。所以在抓取URL的时候将抓取到的URL放入一个队列中，对后抓取的URL进行判断，如果已经存在于队列中那么就不进行重复抓取。

我当时的解决办法是使用HashSet进行去重，因为HashSet是一个元素不允许重复的集合，这也是最容易想到的办法，这也是我唯一用过的办法，由于我的爬虫系统只爬取特定的网站，所以HashSet足以解决我的业务场景。所以面对面试官的问题我只有一种答案，并且其他的答案也没跳出set这个范围。

其实URL的去重方法有很多种，而我能想到的只有第一种。

1、将URL放到Set或HashSet中去重（一亿条占用10G内存）。

2、将URL保存到数据库进行去重，创建字段的UNIQUE属性或者创建一个唯一的索引，在插入数据之前检查待插入的数据是否存在。

3、使用Map或是一个定长数组记录某一个URL是否被访问过。

4、使用Bitmap或Bloomfilter方法去重（URL经过hash后映射到bit的每一个位上，一亿URL占用约12M，问题是存在冲突）。

1、2、3解决策略存在的问题

关于Set和Map都是基于内存的（一亿条URL约占用10G内存），随着URL的不断抓取一定会发生内存溢出。对于数据库UNIQUE属性，将相同的URL插入数据库数据库会报错，如果多次报错后数据库会崩溃。如果每次抓取到URL都去数据库查询这样太影响效率。

使用Bitmap方法去重：原理是把URL经过hash后映射到bit的每一个位上，一亿URL占用约12M，主要缺点是去重没那么精准，存在冲突。

BloomFilter（布隆过滤器）去重：Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。

Bloom Filter算法如下：

（1）创建一个m位BitSet，先将所有位初始化为0，然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h（i，str），且h（i，str）的范围是0到m-1 。

（2）将字符串str“记录”到BitSet中：对于字符串str，分别计算h（1，str），h（2，str）…… h（k，str）。然后将BitSet的第h（1，str）、h（2，str）…… h（k，str）位设为1。

（3）然后检查字符串str是否被BitSet记录过的过程：对于字符串str，分别计算h（1，str），h（2，str）…… h（k，str）。然后检查BitSet的第h（1，str）、h（2，str）…… h（k，str）位是否为1，若其中任何一位不为1则可以判定str一定没有被记录过。若全部位都是1，则“认为”字符串str存在。若一个字符串对应的Bit不全为1，则可以肯定该字符串一定没有被Bloom Filter记录过。（这是显然的，因为字符串被记录过，其对应的二进制位肯定全部被设为1了）但是若一个字符串对应的Bit全为1，实际上是不能100%的肯定该字符串被Bloom Filter记录过的。（因为有可能该字符串的所有位都刚好是被其他字符串所对应）这种将该字符串划分错的情况，称为false positive 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

时隔一年后的面经总结

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

dotnet 8 版本与银河麒麟V10和UOS系统的 glibc 兼容性

關於定時任務一個批次起止時間的算法設計與實現

SpringBoot前後端分離跨域導致的Sessionid不一致問題解決辦法

WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

如何運行一個uve.js項目

時隔一年後的面經總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結