【論文筆記】中文詞向量論文綜述(二)

閱讀大概需要5分鐘

跟隨小博主,每天進步一丟丟

沒看過上一個篇的看這裏啦

【論文筆記】中文詞向量論文綜述(一)

一、Improve Chinese Word Embeddings by Exploiting Internal Structure

論文來源

這是一篇2016年發表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)會議上的論文,作者來自於中國科學技術大學 --- Jian Xu。

Abstract

這篇論文的做法比較奇特,而且中間步驟很多。 已經在前面提到的兩篇論文表明中文漢字內部的包含了豐富的語義信息,對中文詞向量的表示有着很重要的作用,這篇論文也是基於此來進行相關工作。

具體來說,是基於前面的CWE模型,雖然CWE已經考慮了詞的內部組成,增加了語義信息的表示,然而,卻忽略了一些問題,在每一個詞和他們的組成部分(單字)之間,CWE把單字和詞之間的貢獻作爲一致的,這篇論文提出,他們之間的貢獻度應該是不同的,CWE忽略了這一問題,本文要利用外部語言來獲取語義信息,計算詞與單字之間的相似度來表示其貢獻的不同,完善相關工作。

論文提出了聯合學習詞與字的方法,該方法可以消除中文單字的歧義性,也可以區別出詞內部無意義的組成,實驗結果表明在 Word SimilarityText Classification 上驗證了其有效性。

Methodology and Model

論文提出的方法可以分爲以下幾個階段,Obtain translations of Chinese words and characters,Perform Chinese character sense disambiguation,Learn word and character embeddings with our model。

Obtain translations of Chinese words and characters

對中文訓練語料使用分詞工具進行分詞,分詞工具可以採用jieba,Zpar,thulac,對分詞之後的數據進行詞性標註(Part-of-Speech tagging),詞性標註的目的是識別出所有的實體(這裏的實體,應該是詞性),因爲實體詞是沒有語義信息的,這些詞被定義爲non-compositional word,也就是詞的內部組成是沒有意義的。

這裏使用了字頻來做了下面的一個篩選,提出計算不同詞內部單字出現的數量,我稱之爲字頻,字頻較低的那些詞被認定爲是single-morpheme multi-character words (像徘徊,琵琶這樣的詞語,其中的單字很難在其他的詞語中使用),定義爲non-compositional word

下一步的工作讓人意想不到,把中文詞語翻譯成了英文,但是這裏面並不包含無意義的詞(non-compositional word),翻譯成英文是爲了下面的工作 --- Perform Chinese character sense disambiguation

Perform Chinese character sense disambiguation

這裏的工作主要是對中文一字多義的單字消除歧義性,對上文得到的英文語料,通過CBOW模型對這份語料進行訓練,得到一份英文詞向量,對其中區別不是很大的字符進行合併。

在中文中,相同的詞和字符,雖然被應用爲不同的詞性,但是想要表達的語義信息是一樣的。因此,這些被合併爲一個,共用一個語義表示。如下圖,多個字可能僅僅在不同的詞性之間有所不同,然而語義信息幾乎相同。

通過計算相似度來消除歧義,具體的公式如下, 其中c_i,c_j代表的是某個詞中的第幾個字,Trans(c_i)表示這個字的英文,stop-words(en)代表英文的停用詞,x是Trans中的英文,具體來說,看上圖,對於音樂這個詞,c_1表示,c_2表示,Trans(c_2)表示的是樂在上圖中的英文集合,x_3就是pleasure或者是enjoyment。

根據上圖的公式就可以計算出字之間的相似度,如果這個值超過了某一個閾值,合併爲同一個語義表示。對此,還進行了簡化,都是針對一個詞被翻譯成多個英文的處理,其中一個是把字英文集合取平均值然後計算similarity,另外一個是在所有的候選英文詞對中選擇相似度值最大的,根據實驗表明,後一種方案效果更佳。根據相似度,就可以把簡單的解決一下字的歧義性。

如果max(Sim(x_t, c_k)) > w, c_k是x_t中的第幾個字,這樣x_t就被定義爲compositional word,對於 compositional word 定義如下圖,對於音樂這個詞來說,就被定義爲(“音樂”, {Sim(“音樂”, “音”), Sim(“音樂”, “ 樂”)},{1,1})。

Learn word and character embeddings with our model --- SCWE

下圖是論文中給出的CWE和SCWE的模型圖, 根據上文的幾個階段和SCWE的模型圖,應該可以理解這篇論文的意圖。

在SCWE中詞的向量被表示爲下圖,

在SCWE的基礎之上,又提出了SCWE+M模型,和SCWE差不多,只是根據上文提供的F的最後一個元素特徵,對於字的不同意義採用不同的character embedding,具體詞向量表示如下圖。

Experiment Result

在 Word Similarity 和 Text Classification 上驗證了其有效性,Word Similarity同樣採用的評測文件是wordsim-240,wordsim-296,Text Classification採用的是 Fudan Corpus,具體的實驗結果如下圖:

二、 Multi-Granularity Chinese Word Embedding

論文來源

這是一篇2016年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文,作者來自於信息內容安全技術國家工程實驗室 --- 殷榮超。

Abstract

與英文等西方語言相比,一箇中文詞通常有很多單個漢字組成,漢字又可以分解成許多的組件,部首就是其中的一個組件,而且其內部豐富的語義信息更能表達詞的意義,在目前存在的中文詞向量模型中,並沒有充分的利用這一特徵。基於此,提出了multi-granularity embedding (MGE)模型,其核心思想是充分利用其word-character-radical組成部分,更加細粒度的結合character和radical(部首)來增強詞的向量表示。在word similarity 和 analogical reasoning任務上驗證了其有效性。

Model

MGE的目的是聯合學習word,character,radical,模型的結構是基於CBOW來完成的,如下圖所示, 其中藍色部分是上下文,綠色部分是上下文詞的character,黃色部分是目標詞的radical。根據圖中的例子,給定的序列是 :”回家,吃飯,會友“,目標詞是會友。

具體的表示如下,MGE的目標函數如下圖,

h_i是一個隱層表示,具體表示如下圖,具體來說就是對於每一個上下文的詞, 對其所有的character embedding求和取平均,然後和word embedding進行addition操作,然後對所有的上下文詞求和取平均,這樣就完成了word 和 character的結合,對於目標詞所有的radical也是一樣的求和取平均的操作,然後word+character與radical再次求和取平均,這樣就完成了h_的隱層表示,至於word和character結合的時候,中間的那個操作符號,可以是addition,也可以是concatenation,這篇論文采用的是addition操作。

也和CWE模型存在一樣的問題,一字多義,音譯詞等character沒有意義的詞,follow了CWE的做法,提出了MGE+P模型,目的和CWE一樣,增加其位置信息,Begin,Middle,End。

Experiment Result

在 Word Similarity 和 Analogical Reasoning 上驗證了其有效性。

Word Similarity同樣採用的評測文件是wordsim-240,wordsim-296,但是對其進行了一定的刪減,把兩份評測文件中沒有在訓練語料中出現的詞進行了刪減,分別刪減了一個詞和三個詞,得到了兩份新的評測文件,wordsim-239,wordsim-293 ,具體的實驗結果如下圖。

Analogical Reasoning採用的是Chen 2015年構造的評測文件,由於所有的詞都包含在訓練語料中,沒有對這個數據進行刪減,具體的實驗結果如下圖。

References

[1] Improve Chinese Word Embeddings by Exploiting Internal Structure

[2] Multi-Granularity Chinese Word Embedding

PS:歡迎大家點贊與轉發呀!

原文地址:

https://bamtercelboo.github.io/2018/08/12/chinese_embedding_paper_senond/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章