面向依存關係語法分析的詞向量裁剪

文獻:Bansal M, Gimpel K, Livescu K. Tailoring Continuous Word Representations for Dependency Parsing[C]//ACL (2). 2014: 809-815.

修正策略

(1)文章採用相對較小的w:實驗發現,在word2vec中,窗口尺寸w越大,則捕獲詞語義的概率越高;窗口尺寸w越小,則捕獲詞POS的概率越高.
(2)negative sampling中的採樣對象,傳統word2vec在目標詞v 的鄰域中進行採樣,而本文的採樣對象是目標詞v 在依存分析樹中的特定集合(目標詞v 的爺爺、父親與孩子)

實驗方案

評價標準1: We compute cosine similarity between the two vectors in each word pair, then order the word pairs by similarity and compute Spearman’s rank correlation coefficient (ρ) with the gold similarities
評價標準2: We use a metric based on unsupervised evaluation of POS taggers, and perform clustering and map each cluster to one POS tag so as to maximize tagging accuracy

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章