簡述

概括來講，就是把單詞的字符序列用CNN來提取特徵，與預訓練的word2vec一併，用於提升詞性標註的效果

文章全名：Learning Character-level Representations for Part-of-Speech Tagging

字符特徵

字符特徵的提取主要是考慮到字母的大小寫、前後綴事實上是傳統優化算法用於詞性標註任務的重要特徵，如果能恰如其分用網絡結構表示出來，可能取得更好的效果

類似於單詞，每個字母都有一個從one-hot到向量的表示，這是第一層

每個單詞可以看成字母的序列，進而可以看成字母序列的ngram，取窗口大小爲k，其中的一個ngram可以表示爲

一個單詞轉化成{z1,...,zm,...zM}，經過一層變換後，在M中取最大的，就得到一個單詞的最終表示

最後看到的就是下面這個結構：

每一個單詞都分別對應一個通過word2vec訓練得到的詞向量，和一個字符向量，而字符向量不需要預訓練

其他部分都遵循了C&W的文章的方法

文章只用了4線程的CPU來訓練，對硬件要求不高

從結果上看，保持其他設定，對比手工提取前後綴特徵，文章的方法有細微的提升；在遇到未登陸詞的時候，在不同的語料上互有勝負。但如果徹底不用形態特徵，遇到未登陸詞時效果就很差了

字符向量相似度最高的詞舉例：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.