第二章 XML信息檢索基礎

2.1 信息檢索系統

數據檢索系統可分爲四個部分:
1、數據預處理:
從多種格式的數據中提取正文和其他所需的信息。
2、索引生成:
索引是索引項的集合,一個索引項是由一個節點的關鍵碼和該節點的存儲位置組成的關聯。
目前主流的方法是以詞爲單位構造倒排索引表。
3、查詢處理
用戶輸入的查詢條件可以有多種形式,很多系統採用查詢擴展克服這一問題,很多人還採用相關反饋、關聯矩陣等方法對查詢條件進行深入挖掘。
4、檢索
對結果進行重排序,一般的信息檢索系統採用基於內容的計算技術來分析結果和查詢的相關性。

2.2 信息檢索模型

信息檢索模型是指如何對查詢和文檔進行表示,然後對它們進行相似度計算的框架和方法。

2.2.1 布爾模型

一個文檔被表示爲關鍵詞的集合,查詢式(Queries)被表示爲關鍵詞的布爾組合,用“與或非”連接起來,並用括號指示優先次序。

2.2.2 向量空間模型

1、查詢和文檔都被看成是由若干特徵詞組成的向量,每一個文檔都被看成向量空間中的一個點,也就是有若干特徵詞描述的向量。文檔與查詢的相似性問題被描述成向量空間中的兩個向量之間的相似度。按相似度大小將文檔排序後提交給用戶。相似度值的大小反映了文檔與用戶查詢要求的相關程度。
2、術語:
1)文檔d(Document):泛指各種及其可讀的記錄。
2)特徵項t(Term):也稱爲索引項,是指出現在文檔d中而且能夠代表該文檔內容的基本語言單位。
3)特徵項權重Wik (Term Weight):對應t在文獻中的重要程度,

WiktfikidfkWik=tfikidfk=tfik[log2(N/nk)+1]

4)向量空間模型(VSM):t互不相同,可以將文檔看做是m維歐氏空間的向量。
5)查詢(Query):是用戶信息需求的描述形式。
6)相似度(Similarity):衡量一篇文檔向量d與用戶查詢式向量q的相近程度,即判斷某篇文檔是否是用戶所需要的。

2.2.3 概率模型

1、檢索模型是基於一個文件與提問式的相關度是高於還是低於非相關度的概率來進行文檔檢索的檢索方法。
2、概率模型的優點是,文檔可以按照他們相關概率遞減的順序來計算秩(rank),其缺點爲:1)開始時需要猜想吧文檔分爲相關和不想關的兩個集合,一般來說很難;2)世紀這種模型沒有考慮索引術語在文檔中的頻率(因爲所有的權重都是二元的),而索引術語都是相互獨立的;3)概率模型是否要比向量模型好還存在着爭論,但現在向量模型的使用比較廣泛。

2.3 信息檢索評價

1、信息評價是對信息檢索系統性能進行評估的活動。
2、信息檢索系統的目標是在較少消耗情況下儘快、全面返回準確的結果。
3、早期常用的測評指標包括準確率(Precision)、召回率(Recall)、F1值等。其定義如下:

==F=1a1P+(1a)1R=PRaR+(1a)P

2.4 XML信息檢索

XML信息檢索是指對多個XML文檔進行查詢以活得理想結果。目前XML信息檢索的研究主要包括XML索引結構、XML檢索與排序方法,以及XML檢索評價方法等。基於XML的信息檢索系統有兩種信息檢索單位:一種是以文檔爲檢索單位,另一種是以文檔中被標註元素爲檢索單位。

2.4.1 XML索引結構

一般認爲XML文檔的結構信息包含兩方面:一是XML樹中的祖先-後代關係(含父-子關係);二是兄弟之間的關係。

2.4.1.1 支持文檔檢索的索引結構

該方法只適合與以文檔爲檢索單位的XML搜索引擎。

2.4.1.2

1、基於路徑記錄和結構索引思想,本體索引包括所有元素名稱,用來提高檢索效率。
2、基於樹節點編碼思想的索引結構通過對XML文檔樹節點採用不同編碼方案來快速判斷兩個節點是夠存在前後代關係。

2.4.1.3 節點編碼方案、

1、祖先後代編碼(先序,後序),不足之處是不能判定是父子關係,當文檔結構變化時,節點的標識要重新計算,所需花銷較大。
2、間隔編碼,(pre,size),數據庫更新特別是插入時,間隔編碼只需要較少的重新計算量,節點間隔的大小僅在插入節點的祖先節點改變。
3、虛擬節點編碼,虛節點碼採用廣度優先的編碼方式,虛節點編碼模式支持一定程度的插入增量更新。
4、兄弟編碼,具有同一個路徑標識的父節點的子節點由兄弟數來區分。更靈活,支持增量更新。

2.4.2 XML檢索方法

2.4.2.1 基於改進的向量空間檢索方法

1、利用XML文檔的結構和語義信息,考慮檢索單元的結構語義,從而提高查詢效率
2、將XML及路徑語言與傳統的向量空間模型想結合,基於簡單XPath路徑的向量檢索算法來時間線對XML文檔的檢索。
3、此外,在改進的向量空間模型中,特徵詞的權重計算方法大都是對tf*idf的修改,即tf和idf的計算均以XML元素爲單位計算的。

2.4.2.2 基於域加權詞頻法的概率檢索

對於XML文檔來說,不同的結構往往蘊涵了不同的語義信息,即使是XML文檔級的檢索,也與普通文本信息檢索有所不同。XML文檔通常包含一些子元素,考慮文檔的內部結構對提高檢索性能是有幫助的。

2.4.2.3 基於XML查詢語言的方法

這些查詢語言實現的是精確查詢,不支持檢索結果排序、傳統的關鍵詞查詢以及異構數據源的查詢,並不適合於在Web這樣的開放式環境下或實在大型企業的intranets環境下檢索信息。爲此,一些研究致力於對XML查詢語言進行擴展,使其適用於上述環境下的XML檢索。

2.4.3 返回結果的確定

XML檢索系統是以XML元素爲粒度來返回檢索結果的,只返回用戶感興趣且符合檢索條件的元素集,XML檢索不但可以使得檢索結果更爲準確,也使得傳輸的數據量大大減小。節點的權重與節點文本大小成一定的反比關係。

2.4.4 XML信息檢索研究存在的問題

1)不支持檢索結果排序、傳統的關鍵詞查詢以及異構數據源的查詢。
2)沒有從根本上考慮XML文檔結構信息
3)在輸入查詢信息時需要按照查詢語言的語法輸入XML文檔結構信息和關鍵詞
4)不同的標籤可能表示相似的概念

發佈了42 篇原創文章 · 獲贊 10 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章