基於分佈式表示
關鍵概念獲取
- 生成候選上位詞(hypernyms)或下位詞(hyponyms),這兩類詞通常是key terms,我們可以通過詞性標註(POS tagging)或者命名實體識別(named entity recognition,NER)加上基於規則的匹配來提取。
- 對於專業領域的taxonomies,需要在預處理的最後進行domain filter來過濾掉不在領域內的術語從而提高準確率。過濾的方法包括TF,TF-IDF,domain relevance,domain consensus and domain specificity scores。
- 無監模型
早期的研究大部分都關注對稱度量方法(symmetric measures),例如cosine, Jaccard, Jensen-Shannon divergence(JS散度)以及LIN方法。
其中 和 是候選的下位詞跟上位詞, 是 對應的特徵, 是特徵 對於 的權重。
而非對稱度量方法(asymmetric measures)能夠對is-a
這種非對稱屬性建模,它服從分佈包含假說(Distributional Inclusion Hypothesis,DIH),它假設一個下位詞只出現在它的一些上位詞的語境中,但是上位詞出現在它的下位詞的所有上下文中。WeedsPrec
方法能夠計算 的特徵在 的特徵中的帶權包含(weighted inclusion)。
最近,也有一些研究認爲DIH不是在所有的情況下都是正確的,一個上位詞的絕大部分上下文只能提供少量信息。爲了解決這個問題,Santus et al.提出了一種基於熵的度量方式——SLQS來探測上位詞。
在無監督的方法中,共現次數、詞袋模型、詞向量、word-link-word可以作爲訓練特徵。 監督模型
分類
在分類方法中,往往會用詞向量來表示term,例如Word2Vec、 GloVe、 ivLBL、SensEmbed等。
有了詞向量的表示之後,可以將兩個term的詞向量進行 運算,再將結果餵給現成的分類模型(例如SVM)來判斷這兩個term之間是否有關係。
但是後來有研究工作指出,這種分類方法是有詞彙記憶(lexical memorization)問題的,分類只能學到terms的語義,而不是它們之間的關係。特別在訓練集與測試集差別很大的時候,這類模型的效果很差。
爲了解決上面這個問題,diff model被提出,它使用向量偏移作爲特徵,具體表示爲 。還有人基於這種思想,提出了非對稱模型。simDiff模型以兩個word-context矩陣的差作爲特徵來進行關係分類。另外,還有其它的向量組合方式,例如 或 等。
在neural language model中,具有相似上下文的單詞會具有相似的詞向量。Yu認爲這種建模方式無法對is-a關係進行準確的預測,他提出對每個單詞 ,學習兩個向量 和 ,分別代表 作爲上位詞以及下位詞的詞向量。
基於規則的方法與基於分佈式表示的方法之間的比較
基於規則的方法(例如[Hearst patterns)具有較高的準確率,但它的缺點是由於特徵空間比較稀疏,大多數方法都需要兩個term在一句話中共現,因此召回率比較低。除此以外,這種方法對語言與規則的依賴很高,通用性較差。
相反的,分佈式表示是從一個單詞的上下文中獲取的,與它是上位詞還是下位詞無關,這就相當於讓機器根據整個語料來預測兩個terms之間是否有關係。但是這種方法在尋找特定的、嚴格的is-a關係的時候,表現很差,它往往會認爲具有相似語義的terms之間有關係。並且,分佈式表示對數據集的依賴很高。
儘管它們各自都有缺陷,我們可以將它們組合來相互補充。最近,HyperNEY system通過基於規則和分佈式表示,給出了 的表示,每個規則被一條依賴路徑(dependency path)表示,然後用LSTM模型生成向量,並且取得了非常不錯的結果。
非監督方法比監督方法具有更好的魯棒性,但是監督方法的效果比非監督方法好。