語料中詞語變形的識別方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》

讀研期間由於一直在做關於微博方面的一些東西,因此對於如何微博分詞以及識別微博中的出現的諧音詞、隱義詞查閱了一篇資料。今天主要總結一下《Be Appropriate and Funny: Automatic Entity Morph Encoding》這篇文章涉及的一些方法。

該文的主要思想是把我們平時看的論壇、微博中的一些“變形詞”映射爲在社會中比較敏感和比較正式的原生詞。它首先總結了這些變形的一些特點:

(1)變形詞是一種使用自然的語言加密來代替機密信息進行交流,類似於“黑話”;

(2) 映射關係不是全射關係,而是多個變形詞可以對應一個實體詞;

(3) 變形詞和實體詞之間沒有標準的對應關係;

(4)社交網絡在產生變形詞之間起着至關重要的作用。只有產生的映射詞有趣了,才更有可能被廣泛傳播,成爲網絡語言的一部分;

(5) 變形詞可能隨着時間進化很快,例如一些變形詞被作爲敏感詞發現並馬上屏蔽掉,新的替代變形詞會馬上出現。

該文爲了找到實體詞和變形詞之間的對應關係,一共涉及了8種方法進行相應的實驗:

(1)語音替換,先把微博語料變成拼音語料pinyin(e),根據http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals涉及的拼音知識,該文主要列出了以下容易混淆的拼音組合:

拼音映射關係
b p
d t
g k
z c
zh ch
j q
sh r
x h
l n
c ch
s sh
z zh

然後根據上表以及拼音本身的合法組合來構造新的拼音語料pinyin(t),比如說“比爾 蓋茨”的拼音爲pinyin(e) = “Bi Er Gai Ci”,然後可以轉換爲pinyin(t) = “Bi Er Gai Zi”,可以得到變形詞爲“鼻耳 蓋子”,當然了,一個pinyin(t)所對應的詞語不一定是唯一的(事實上大部分情況下都不是唯一的,中華文化博大精深~),則基於以下規則從候選詞中找到變形詞:

①含有更強的否定意義=》含有更多否定詞。

②包括低頻出現的稀疏項

(2) 拆字

由於漢字的特性,某些字拆分後的詞根依舊是表意的詞,因此當給了一個實體名e = C_1…C_n,如果某個字C_k可以被拆分爲,並且它們能轉變爲象形字,比如說”艹“可以轉化爲”草“。因此變形詞就可以產生了,即用替換C_k,

(3)暱稱產生方式

主要是根據重複一個實體名字的最後一個字,譬如說”楊冪“可以表示爲”冪冪“。

(4)翻譯和音譯

當給出一個實體e的時候,我們基於包含9,4,015姓名翻譯對的詞典來對應其英語翻譯EN(e)。如果EN(e)中的一個成分是常見的英文詞,我們基於94,966的詞翻譯對詞典來找到其對應的漢語翻譯,並且使用該漢語翻譯替換e,有點亂哈,舉個栗子:我們有音譯名”拉里 伯德(Larry Bird)“,然後翻譯成英文名”Larry Bird“,然後我們發現”Bird“是一個常用詞,我們把它翻譯爲”鳥“,於是乎,”拉里 伯德“就成了”拉里 鳥兒“~~~

(5)語義解釋

對於實體名e的名C_k,從新華字典中找到該詞的語義解釋。如果一句話中的一個單詞包括C_k,我們給該詞增加e的姓來構造新的變形詞。當然了,選擇更傾向於positive, negative, rare詞。比如說對姓名”薄熙來“,我們構造了變形詞”薄 胡來“,因爲”來“的語義解釋裏面包括消極詞”胡來“。

(6)歷史人物映射

我們首先從網上收集了38個著名歷史人物,包括政治家,皇帝,將軍,部長(大臣),學者。方法還不懂,稍後補上,是這篇論文裏的”Resolving Entity Morphs in Censored Data“)

(7)特徵建模

使用Google公司的Word2Vec模型來產生實體的特徵。當然使用Word2Vec需要大量的語料。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章