web搜索學習筆記

首先是分詞, 即將文本中的詞彙抽取出來, 去掉stop word, 進而建立文本的反向索引.

說明 1: stop word是沒有實體意義的a, the, in等單詞. 值得說明的是, stop word在不同的文本中會有變化. 

說明 2: 最直觀的, 從文檔到文檔所包含的單詞的索引, 稱爲正向索引; 同理, 從單詞到包含該單詞的文檔的索引, 稱爲反向索引.


其次, 是建立查詢模型. 經典的模型包括布爾模型, 向量空間模型和概率模型. 課程中介紹了前面兩種.

說明 1: 布爾模型基於集合操作(與, 或, 非運算). 根據用戶輸入的布爾表達式樹, 自底向上先求出子樹表達式所在的文檔集合, 在根據邏輯運算, 求出父節點表達式所在的文檔集合.

說明 2: 布爾模型的優點是, 簡潔而精確的表達, 以及易於實現. 因此, 絕大部分搜索引擎支持布爾模型.

說明 3: 布爾模型的缺點是, 基於集合操作, 結果集中的所有文檔被視爲權重相等; 用戶需要一定訓練, 才能使用布爾表達式.


說明 4: 向量空間模型基於3個概念: tf(i,j)指單詞j在文檔i中出現的頻率, df(j)指包含單詞j的文檔數目, idf(j)=log( N/df(j) )跟df(j)反關係(其中N爲文檔的總數). 這樣, 單詞j在文檔i中的權重爲tf(i,j) * idf(j), 即出現頻率越高, 在其他文檔中出現越少, 權重越大. 根據該權重, 再採用一種相似性度量方法(比如餘弦函數值)來比較用戶索引詞向量與文檔-單詞權重矩陣, 就可以得到排序後的結果文檔集.

說明 5: 向量空間模型的優點是, 根據詞頻加權, 以及根據相似度排序,  大大改進了搜索效果.

說明 6: 向量空間模型的缺點是, 有一個隱式的假定----各個單詞是獨立的; 同時, 無論是詞頻加權, 還是相似度識別, 都是啓發式的.  (只要結果夠好, 啓發式就是偉大的).


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章