Web信息處理與應用(一)

Web Search

一、Introduction

1、web檢索的挑戰
數據規模大、分佈散、不穩定、質量差、無結構、異構、價值低

2、信息檢索
給定查詢和信息庫,找到相關的文檔

3、IR和DB的區別
(1)DB數據結構化、有明確語義,查詢結構化、匹配要精確、次序不重要
(2)IR數據半結構化、無明確語義,查詢爲任意內容、無需精確匹配、次序很重要

4、IR的任務
基於用戶查詢的搜索、信息過濾、分類、問答

5、IR的基礎性問題
相關性計算、檢索模型、評價、信息需求、檢索性能

二、Web Crawler

1、網絡爬蟲的概念
從一個種子站點集合開始,從web種尋找並且下載網頁,獲取排序需要的相關信息,並且剔除低質量的網頁

2、網絡爬蟲基本過程
種子裝入桶中、每次從桶中取出一個網頁、提取出網頁所有url放入桶中、重複

3、網絡爬蟲的主要需求
快、可擴展性、友好性、健壯、持續搜索、時新性

4、網絡爬蟲的常用策略
用棧深度優先、用隊列廣度優先

5、網絡爬蟲涉及的協議
HTTP/HTML、DNS/URL、Robots Exclusion(排斥協議)、Sitemp(允許協議)

6、URL規範化

協議://主機名[:端口]/路徑/[:參數][?查詢]#Fragment

7、分佈式爬蟲的概念
如何有效地把N個網站的搜索任務分配到M個機器上去使得分配比較均勻

8、一致性Hash的概念
將網頁和機器都映射到環路Hash空間,每個機器負責自身位置與後繼的網頁搜索

三、Text Processing

1、文本處理的概念
將原始文檔轉換成詞項集以方便索引

2、字符編碼的概念
ASCII:美國信息交換標準代碼
Unicode:統一碼,滿足跨語言、跨平臺的需求
UTF-8:針對Unicode的可變長度字符編碼

3、分詞中的概念
(1)分詞:將文檔的字符串序列變成詞序列
(2)語素:最小的語音語義結合體,是最小的語言單位
(3)詞:代表一定的意義,具有固定的語音形式,可以獨立運用的最小的語言單位
(4)交叉歧義:網球/場/ 網/球/場/
(5)組合歧義:我/個人/ 三/個/人
(6)未登陸詞:未包括在分詞詞表中但必須切分出來的詞,包括各類專名、術語、縮略語等
(7)停用詞:在文檔中頻繁出現或與語料庫特性有關的詞

4、中文分詞的挑戰
(1)漢字是字的集合而不是詞的集合
(2)漢字存在着不同的組詞方式
(3)漢語虛詞衆多,大多數漢字在不同的詞語中可能爲關鍵字,也可能爲停用詞
(4)分詞歧義
(5)新詞的頻繁出現

5、常用的分詞方法
(1)機械分詞
正向最大匹配分詞FMM
反向最大匹配分詞BMM/RMM
雙向最大匹配分詞BM:FMM + RMM
最少切分分詞:圖中最短路徑
ASM(d,a,m): d爲匹配方向,a爲失敗後增/減串長,m爲最大/小匹配
(2)理解分詞
分詞時進行句法、語義分析,從而減少歧義
(3)統計分詞
一元文法模型 即最大概率分詞
二元文法模型 即每個詞的概率是前一個詞出現後的條件概率
N元文法模型 即每個詞的概率爲前N個詞出現後的條件概率

6、詞根化和編輯距離的概念
(1)詞根化:使用一系列後綴變換規則對單詞進行變換
(2)編輯距離:從s轉換爲t使用增加、刪除、替換三種操作的最小次數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章