搜索引擎的相关技术

 
在整个的搜索过程中,涉及到的技术主要有:中文分词、排序技术、网络蜘蛛等。
(1)中文分词。英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am Chinese,翻译成中文是:“我是中国人”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白「中」、「国」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是中国人,分词的结果是:我 是 中国 人。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
(2)排序技术。类似于曝光率,谁出现的次数最多,谁排在前面。在互联网上,链接就相当于“曝光”,在B网页中链接了A,相当于B在谈话时提到了 A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的,A便会排在最前面。另外还有HillTop算法等等。
(3)网络蜘蛛。网络蜘蛛即Web Spider,是一种很形象的搜索网页的技术。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
在抓取网页的时候,网络蜘蛛一般有两种算法:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。
 
本文经过阅览很多国外和国内的资料编写而成,如果造成侵权问题,请及时联系我,及时更改。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章