Taxonomy部分方法

基於分佈式表示

關鍵概念獲取

  1. 生成候選上位詞(hypernyms)或下位詞(hyponyms),這兩類詞通常是key terms,我們可以通過詞性標註(POS tagging)或者命名實體識別(named entity recognition,NER)加上基於規則的匹配來提取。
  2. 對於專業領域的taxonomies,需要在預處理的最後進行domain filter來過濾掉不在領域內的術語從而提高準確率。過濾的方法包括TF,TF-IDF,domain relevance,domain consensus and domain specificity scores
  3. 無監模型

    早期的研究大部分都關注對稱度量方法(symmetric measures),例如cosine, Jaccard, Jensen-Shannon divergence(JS散度)以及LIN方法。

    LIN(x,y)=fFxfywx(f)+wy(f)fFxwx(f)+fwy(f)wy(f)

    其中xy 是候選的下位詞跟上位詞,F(x)x 對應的特徵,wx(f) 是特徵f 對於x 的權重。
    非對稱度量方法(asymmetric measures)能夠對is-a這種非對稱屬性建模,它服從分佈包含假說(Distributional Inclusion Hypothesis,DIH),它假設一個下位詞只出現在它的一些上位詞的語境中,但是上位詞出現在它的下位詞的所有上下文中。WeedsPrec方法能夠計算y 的特徵在x 的特徵中的帶權包含(weighted inclusion)。
    WeedsPrec(x,y)=fFxFywy(f)fFywy(f)

    最近,也有一些研究認爲DIH不是在所有的情況下都是正確的,一個上位詞的絕大部分上下文只能提供少量信息。爲了解決這個問題,Santus et al.提出了一種基於熵的度量方式——SLQS來探測上位詞。
    在無監督的方法中,共現次數、詞袋模型、詞向量、word-link-word可以作爲訓練特徵。
  4. 監督模型

    • 分類

      在分類方法中,往往會用詞向量來表示term,例如Word2VecGloVeivLBLSensEmbed等。

      有了詞向量的表示之後,可以將兩個term的詞向量進行xy 運算,再將結果餵給現成的分類模型(例如SVM)來判斷這兩個term之間是否有關係。

      但是後來有研究工作指出,這種分類方法是有詞彙記憶(lexical memorization)問題的,分類只能學到terms的語義,而不是它們之間的關係。特別在訓練集與測試集差別很大的時候,這類模型的效果很差。

      爲了解決上面這個問題,diff model被提出,它使用向量偏移作爲特徵,具體表示爲xy 。還有人基於這種思想,提出了非對稱模型simDiff模型以兩個word-context矩陣的差作爲特徵來進行關係分類。另外,還有其它的向量組合方式,例如x+yxy 等。

      在neural language model中,具有相似上下文的單詞會具有相似的詞向量。Yu認爲這種建模方式無法對is-a關係進行準確的預測,他提出對每個單詞x ,學習兩個向量xoxe ,分別代表x 作爲上位詞以及下位詞的詞向量。

  5. 基於規則的方法與基於分佈式表示的方法之間的比較

    1. 基於規則的方法(例如[Hearst patterns)具有較高的準確率,但它的缺點是由於特徵空間比較稀疏,大多數方法都需要兩個term在一句話中共現,因此召回率比較低。除此以外,這種方法對語言與規則的依賴很高,通用性較差。

    2. 相反的,分佈式表示是從一個單詞的上下文中獲取的,與它是上位詞還是下位詞無關,這就相當於讓機器根據整個語料來預測兩個terms之間是否有關係。但是這種方法在尋找特定的、嚴格的is-a關係的時候,表現很差,它往往會認爲具有相似語義的terms之間有關係。並且,分佈式表示對數據集的依賴很高。

    3. 儘管它們各自都有缺陷,我們可以將它們組合來相互補充。最近,HyperNEY system通過基於規則和分佈式表示,給出了(x,y) 的表示,每個規則被一條依賴路徑(dependency path)表示,然後用LSTM模型生成向量,並且取得了非常不錯的結果。

    4. 非監督方法比監督方法具有更好的魯棒性,但是監督方法的效果比非監督方法好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章