圖片鏈接 圖1. 互聯網搜索引擎架構圖
- 搜索引擎由抓取器、索引器、排序器、用戶界面組成。
抓取器:從互聯網上抓取網頁,將垃圾網頁過濾;
索引器:分析網頁的內容,計算網頁的重要度,將網頁索引;
用戶界面:接受查詢語句,分析查詢語句的內容;
排序器:從索引中檢索出含有查詢詞的網頁,實行查詢語句與網頁的匹配,將網頁按相關度、重要度等進行排序;
用戶界面將排序結果展示給用戶,同時收集用戶搜索行爲數據。
- 搜索引擎基於大規模分佈式計算和統計機器學習。
- 機器學習在互聯網搜索中的應用
排序學習
網頁重要度學習
匹配學習
話題模型學習
查詢語句轉換學習
- 頭部查詢與尾部查詢
//還需要再深入瞭解