字符粒度表示用於詞性標註

簡述

概括來講,就是把單詞的字符序列用CNN來提取特徵,與預訓練的word2vec一併,用於提升詞性標註的效果

文章全名:Learning Character-level Representations for Part-of-Speech Tagging

字符特徵

字符特徵的提取主要是考慮到字母的大小寫、前後綴事實上是傳統優化算法用於詞性標註任務的重要特徵,如果能恰如其分用網絡結構表示出來,可能取得更好的效果

類似於單詞,每個字母都有一個從one-hot到向量的表示,這是第一層

每個單詞可以看成字母的序列,進而可以看成字母序列的ngram,取窗口大小爲k,其中的一個ngram可以表示爲

一個單詞轉化成{z1,...,zm,...zM},經過一層變換後,在M中取最大的,就得到一個單詞的最終表示

最後看到的就是下面這個結構:

每一個單詞都分別對應一個通過word2vec訓練得到的詞向量,和一個字符向量,而字符向量不需要預訓練

其他部分都遵循了C&W的文章的方法

其他細節

文章只用了4線程的CPU來訓練,對硬件要求不高

從結果上看,保持其他設定,對比手工提取前後綴特徵,文章的方法有細微的提升;在遇到未登陸詞的時候,在不同的語料上互有勝負。但如果徹底不用形態特徵,遇到未登陸詞時效果就很差了

字符向量相似度最高的詞舉例:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章