wrapper的來歷

以下內容摘自文獻
Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, et al. 2006. A Survey of Web Information Extraction Systems. IEEE transactions on knowledge and data engineering, 18(10): 1411-1428

執行信息抽取的程序被稱爲抽取器(extractor)或包裝器(wrapper)。包裝器的最初定義來自於信息集成系統的一個部件,該部件提供一個統一的查詢界面,可以通過該界面從多個異構信息源中獲得數據。在一個信息集成系統中,一個包裝器通常是一段程序,用該程序將一個信息源(例如一個數據庫服務器或一個Web服務器)進行包裝,這樣,信息集成系統不需要改變其核心查詢應答機制,就能夠訪問該信息源。當信息源是Web服務器時,包裝器必須通過超文本傳輸協議(HyperText Transfer Protocol, HTTP)查詢Web服務器,收集查詢結果頁面;然後對HTML (HyperText Mark up Language,超文本標記語言)文檔執行信息抽取,獲取其中的內容;最後把抽取結果和其他數據源的抽取結果集成起來。在這三個過程中,信息抽取往往得到更多的關注,有一些人甚至直接使用包裝器來描述抽取程序。一個包裝器通常執行一個模式匹配過程(如某種有限自動機),匹配過程的依據是一組抽取規則。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章