Taxonomy部分方法

原創

大浪中航行

2020-06-16 04:26

基於分佈式表示

關鍵概念獲取

生成候選上位詞(hypernyms)或下位詞(hyponyms)，這兩類詞通常是key terms，我們可以通過詞性標註（POS tagging）或者命名實體識別(named entity recognition,NER)加上基於規則的匹配來提取。
對於專業領域的taxonomies，需要在預處理的最後進行domain filter來過濾掉不在領域內的術語從而提高準確率。過濾的方法包括TF,TF-IDF,domain relevance,domain consensus and domain specificity scores。
無監模型

早期的研究大部分都關注對稱度量方法(symmetric measures)，例如cosine, Jaccard, Jensen-Shannon divergence(JS散度)以及LIN方法。

$L I N (x, y) = \frac{\sum_{f \in F_{x} ⋂ f_{y}} w_{x} (f) + w_{y} (f)}{\sum_{f \in F_{x}} w_{x} (f) + \sum_{f \in w_{y} (f)} w_{y} (f)}$
其中 $x$ 和 $y$ 是候選的下位詞跟上位詞， $F (x)$ 是 $x$ 對應的特徵， $w_{x} (f)$ 是特徵 $f$ 對於 $x$ 的權重。
而非對稱度量方法(asymmetric measures)能夠對is-a這種非對稱屬性建模，它服從分佈包含假說(Distributional Inclusion Hypothesis,DIH)，它假設一個下位詞只出現在它的一些上位詞的語境中，但是上位詞出現在它的下位詞的所有上下文中。WeedsPrec方法能夠計算 $y$ 的特徵在 $x$ 的特徵中的帶權包含(weighted inclusion)。
$W e e d s P r e c (x, y) = \frac{\sum_{f \in F_{x} ⋂ F_{y}} w_{y} (f)}{\sum_{f \in F_{y}} w_{y} (f)}$
最近，也有一些研究認爲DIH不是在所有的情況下都是正確的，一個上位詞的絕大部分上下文只能提供少量信息。爲了解決這個問題，Santus et al.提出了一種基於熵的度量方式——SLQS來探測上位詞。
在無監督的方法中，共現次數、詞袋模型、詞向量、word-link-word可以作爲訓練特徵。
監督模型
- 分類
  
  在分類方法中，往往會用詞向量來表示term，例如Word2Vec、 GloVe、 ivLBL、SensEmbed等。
  
  有了詞向量的表示之後，可以將兩個term的詞向量進行 $\vec{x} \oplus \vec{y}$ 運算，再將結果餵給現成的分類模型（例如SVM）來判斷這兩個term之間是否有關係。
  
  但是後來有研究工作指出，這種分類方法是有詞彙記憶(lexical memorization)問題的，分類只能學到terms的語義，而不是它們之間的關係。特別在訓練集與測試集差別很大的時候，這類模型的效果很差。
  
  爲了解決上面這個問題，diff model被提出，它使用向量偏移作爲特徵，具體表示爲 $\vec{x} - \vec{y}$ 。還有人基於這種思想，提出了非對稱模型。simDiff模型以兩個word-context矩陣的差作爲特徵來進行關係分類。另外，還有其它的向量組合方式，例如 $\vec{x} + \vec{y}$ 或 $\vec{x} \cdot \vec{y}$ 等。
  
  在neural language model中，具有相似上下文的單詞會具有相似的詞向量。Yu認爲這種建模方式無法對is-a關係進行準確的預測，他提出對每個單詞 $x$ ,學習兩個向量 ${\vec{x}}_{o}$ 和 ${\vec{x}}_{e}$ ，分別代表 $x$ 作爲上位詞以及下位詞的詞向量。
基於規則的方法與基於分佈式表示的方法之間的比較
1. 基於規則的方法（例如[Hearst patterns）具有較高的準確率，但它的缺點是由於特徵空間比較稀疏，大多數方法都需要兩個term在一句話中共現，因此召回率比較低。除此以外，這種方法對語言與規則的依賴很高，通用性較差。
2. 相反的，分佈式表示是從一個單詞的上下文中獲取的，與它是上位詞還是下位詞無關，這就相當於讓機器根據整個語料來預測兩個terms之間是否有關係。但是這種方法在尋找特定的、嚴格的is-a關係的時候，表現很差，它往往會認爲具有相似語義的terms之間有關係。並且，分佈式表示對數據集的依賴很高。
3. 儘管它們各自都有缺陷，我們可以將它們組合來相互補充。最近，HyperNEY system通過基於規則和分佈式表示，給出了 $(x, y)$ 的表示，每個規則被一條依賴路徑(dependency path)表示，然後用LSTM模型生成向量，並且取得了非常不錯的結果。
4. 非監督方法比監督方法具有更好的魯棒性，但是監督方法的效果比非監督方法好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Taxonomy部分方法

基於分佈式表示

關鍵概念獲取

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Taxonomy部分方法

安裝gensim的過程中遇到的坑

使用nltk + Stanford parser生成句法樹

Sping Boot+Maven實現多環境切換

判斷一個屬性的修飾詞

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結