知識抽取( knowledge extraction) 研究如何根據給定本體從無語義標註的信息中識別並抽取與本體匹配的事實知識,進而實現對 Web 數據充分、有效的利用。該技術既可以抽取出事實知識用於構建基於知識的服務,也能夠爲語義Web的實現提供必要的語義內容。
這裏介紹以下三種方式知識抽取方法:
1)知識工程
知識工程主要包括正則表達式、模板匹配、規則約束等。
在模板匹配中,利用BootStrap從種子數據中識別Patterns,用於抽取更多數據,提取更多的Patterns。
在規則約束中,主要包括POS、NER約束、距離約束等。
2)基於本體的抽取
基於本體的抽取是通過推理進行知識挖掘,主要有PRA(基於圖的抽取)、TransE系列(基於Embedding的抽取)等技術。
3基於模型的抽取
基於模型的抽取主要包括構建模型、訓練等。
構建模型的方法主要有SVM(Logistic Model)、條件隨機場(CRF)、LSTM等循環神經網絡。
訓練方式主要包括有監督學習、無監督聚類、遠程監督(Distant Supervision)(從已有知識庫獲取少量訓練數據)等。
參考文獻:
1、知識圖譜第三課:知識抽取與挖掘I,https://www.bilibili.com/video/av26971363?p=3