Web Search

一、Introduction

1、web檢索的挑戰
數據規模大、分佈散、不穩定、質量差、無結構、異構、價值低

2、信息檢索
給定查詢和信息庫，找到相關的文檔

3、IR和DB的區別
（1）DB數據結構化、有明確語義，查詢結構化、匹配要精確、次序不重要
（2）IR數據半結構化、無明確語義，查詢爲任意內容、無需精確匹配、次序很重要

4、IR的任務
基於用戶查詢的搜索、信息過濾、分類、問答

5、IR的基礎性問題
相關性計算、檢索模型、評價、信息需求、檢索性能

二、Web Crawler

1、網絡爬蟲的概念
從一個種子站點集合開始，從web種尋找並且下載網頁，獲取排序需要的相關信息，並且剔除低質量的網頁

2、網絡爬蟲基本過程
種子裝入桶中、每次從桶中取出一個網頁、提取出網頁所有url放入桶中、重複

3、網絡爬蟲的主要需求
快、可擴展性、友好性、健壯、持續搜索、時新性

4、網絡爬蟲的常用策略
用棧深度優先、用隊列廣度優先

5、網絡爬蟲涉及的協議
HTTP/HTML、DNS/URL、Robots Exclusion（排斥協議）、Sitemp（允許協議）

6、URL規範化

協議：//主機名[:端口]/路徑/[:參數][？查詢]#Fragment

7、分佈式爬蟲的概念
如何有效地把N個網站的搜索任務分配到M個機器上去使得分配比較均勻

8、一致性Hash的概念
將網頁和機器都映射到環路Hash空間，每個機器負責自身位置與後繼的網頁搜索

三、Text Processing

1、文本處理的概念
將原始文檔轉換成詞項集以方便索引

2、字符編碼的概念
ASCII：美國信息交換標準代碼
Unicode：統一碼，滿足跨語言、跨平臺的需求
UTF-8：針對Unicode的可變長度字符編碼

3、分詞中的概念
（1）分詞：將文檔的字符串序列變成詞序列
（2）語素：最小的語音語義結合體，是最小的語言單位
（3）詞：代表一定的意義，具有固定的語音形式，可以獨立運用的最小的語言單位
（4）交叉歧義：網球/場/ 網/球/場/
（5）組合歧義：我/個人/ 三/個/人
（6）未登陸詞：未包括在分詞詞表中但必須切分出來的詞，包括各類專名、術語、縮略語等
（7）停用詞：在文檔中頻繁出現或與語料庫特性有關的詞

4、中文分詞的挑戰
（1）漢字是字的集合而不是詞的集合
（2）漢字存在着不同的組詞方式
（3）漢語虛詞衆多，大多數漢字在不同的詞語中可能爲關鍵字，也可能爲停用詞
（4）分詞歧義
（5）新詞的頻繁出現

5、常用的分詞方法
（1）機械分詞
正向最大匹配分詞FMM
反向最大匹配分詞BMM/RMM
雙向最大匹配分詞BM：FMM + RMM
最少切分分詞：圖中最短路徑
ASM（d,a,m）： d爲匹配方向，a爲失敗後增/減串長，m爲最大/小匹配
（2）理解分詞
分詞時進行句法、語義分析，從而減少歧義
（3）統計分詞
一元文法模型即最大概率分詞
二元文法模型即每個詞的概率是前一個詞出現後的條件概率
N元文法模型即每個詞的概率爲前N個詞出現後的條件概率

6、詞根化和編輯距離的概念
（1）詞根化：使用一系列後綴變換規則對單詞進行變換
（2）編輯距離：從s轉換爲t使用增加、刪除、替換三種操作的最小次數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Web信息處理與應用（一）

Web Search

一、Introduction

二、Web Crawler

三、Text Processing

Linux和Idea常見指令

Linux中vsftpd配置

IntelliJ IDEA漢化教程

CentOS安裝配置vsftpd文件服務器

CentOS網絡防火牆簡單命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結