搜索引擎的相关技术

原創

自由人2008

2020-03-18 08:16

在整个的搜索过程中，涉及到的技术主要有：中文分词、排序技术、网络蜘蛛等。

（1）中文分词。英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am Chinese，翻译成中文是：“我是中国人”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白「中」、「国」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是中国人，分词的结果是：我是中国人。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

（2）排序技术。类似于曝光率，谁出现的次数最多，谁排在前面。在互联网上，链接就相当于“曝光”，在B网页中链接了A，相当于B在谈话时提到了 A，如果在C、D、E、F中都链接了A，那么说明A网页是最重要的，A便会排在最前面。另外还有HillTop算法等等。

（3）网络蜘蛛。网络蜘蛛即Web Spider，是一种很形象的搜索网页的技术。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

在抓取网页的时候，网络蜘蛛一般有两种算法：广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

本文经过阅览很多国外和国内的资料编写而成，如果造成侵权问题，请及时联系我，及时更改。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎的相关技术

测试人员都是画画大神，让我看看谁还不会用代码图？

Object.values()对象遍历

网络现代化通向云原生应用的高速公路

面试官：说说你对序列化的理解

手機APP與原生APP設計的區別

修改Ubuntu 12.04和Windows 7共存時的啓動順序

原來GitHub真的沒有這麼簡單

關於linux上使用新無線網卡碰到的問題

搜索引擎的相關技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結