搜索與排名

一、搜索
1、爬蟲
一般爬蟲將網絡視爲一張圖,對於圖而言,常見的算法有兩種:深度優先和廣度優先
2、分詞與索引
爬蟲獲取的一般都是文檔,我們需要進行分詞處理,處理之後,搜索引擎要完成從單詞到文檔的映射,一般採取倒排索引的方法。
二、排名
在獲得了與查詢條件相匹配的網頁之後,排名是不可缺少的。
1、基於內容的排名
單詞頻度:一般而言,目標單詞在文檔中出現的次數越多,則相關性越高。
文檔位置:文檔的主題有可能會出現在靠近文檔的開始處。
單詞距離:如果查詢中有多個單詞,則它們在文檔中出現的位置應該靠得更近。
2、基於鏈接
簡單計數:統計每個網頁上鍊接的數目,並將鏈接總數作爲針對網頁的度量。
PageRank:上一種方法中我們看到對於每一個鏈接,我們給予了相同的權重。在PageRank中,爲每一個網頁都賦予了一個指示網頁重要程度的評價值。網頁的重要程度是依據指向該網頁的所有其他網頁的重要性,以及這些網頁中所包含的鏈接數求得的。
利用鏈接文本:這個方法是根據指向某一網頁的鏈接文本來決定網頁的相關程度。大多數時候,相比於被鏈接的網頁自身所提供的信息而言,我們從指向該網頁的鏈接中所得到信息會更有價值。
3、從點擊行爲中學習
構件一個人工神經網絡,向其提供:查詢條件中的單詞,返回給用戶的搜索結果,以及用戶的點擊決策,然後再對其加以訓練。一旦網絡經過了許多不同查詢的訓練之後,我們就可以利用它來改進搜索結果的排序,以更好的反映用戶在過去一段時間裏的實際點擊情況。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章