搜索引擎，读《数学之美》

原創

2020-06-22 09:23

1.下载网页
把每一个网页当作节点，链接当作弧，组成一个复杂的图，下载则要遍历整个图，采用深
度遍历还是广度遍历？
广度优先：爬虫应该是在有限时间里面爬下最重要的网页，网站最重要的显然是首页。
深度优先：下载服务器和网站的服务器之间建立通信的过程是需要时间的，爬虫是分布式
（如何建立复杂网络系统并协调服务器的任务？）的系统，对于某个特定的网站服务器，
一般由特定的几台服务器专门下载，下载完一个站点再下载下一个站点，而不是先下载每
个站点的首页再轮回第二次下载。
2．建立索引
提取页面url，记录url（防止重复下载），怎么存储？
哈希表（怎么维护？）
实际上是不直接存储url，因为太长。存储下所有的url到哈希表里面，需要100TB的空间。
而且查找的时候是把哈希表放到内存里面，所以这100TB不是硬盘能存储就可以的，需要
用内存来存储。
存储这些url要用信息指纹，将每一个url映射到128位2进制，也就是16字节。这个映射
类似于md5加密，也是一种加密方式。
用一个很长的二进制数表示一个关键词是否出现
比如“原子能”这个关键词
0100100011000001.......表示第2，5，9，10，16篇文章里面含有这个关键字
假定“应用”这个关键字：0010100110000001....
搜索时有这两个关键字时，将这两个二进制数AND一下。
布尔运算，普通计算机一秒可以做10亿次以上。
如何确定网页和查询的相关性，将关键词赋予权重，比如某网页“原子能”出现2次，“的”
出现35次，“应用”出现5次，停止词权重为0，“应用”的权重比“原子能”的权重小，（一
个关键词w在Dw个网页中出现过，Dw越大，w的权重越小）
3．对网页进行排序
大概上是一个网页被其他网页所连接，他的排名就高。
PageRank算法
网页Y的排名来自所有指向这个网页的其他网页X1,X2,X3....Xk的权重之和。
如何度量权重？--->网页本身的排名
解决这个问题，应用了二维矩阵相乘，并用迭代的方法解决。（假定网页权重初值相同）
矩阵太大------>稀疏矩阵
反排名作弊
从通信的角度考虑，抗噪声和过滤噪声

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎，读《数学之美》

素數與字符串匹配問題

細微的優化代碼

PHP error_log日誌A non well formed numeric value encountered原因

搜索引擎，讀《數學之美》

日曆分析(一) java中的日期類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結