簡述
概括來講,就是把單詞的字符序列用CNN來提取特徵,與預訓練的word2vec一併,用於提升詞性標註的效果
文章全名:Learning Character-level Representations for Part-of-Speech Tagging
字符特徵
字符特徵的提取主要是考慮到字母的大小寫、前後綴事實上是傳統優化算法用於詞性標註任務的重要特徵,如果能恰如其分用網絡結構表示出來,可能取得更好的效果
類似於單詞,每個字母都有一個從one-hot到向量的表示,這是第一層
每個單詞可以看成字母的序列,進而可以看成字母序列的ngram,取窗口大小爲k,其中的一個ngram可以表示爲
一個單詞轉化成{z1,...,zm,...zM},經過一層變換後,在M中取最大的,就得到一個單詞的最終表示
最後看到的就是下面這個結構:
每一個單詞都分別對應一個通過word2vec訓練得到的詞向量,和一個字符向量,而字符向量不需要預訓練
其他部分都遵循了C&W的文章的方法
其他細節
文章只用了4線程的CPU來訓練,對硬件要求不高
從結果上看,保持其他設定,對比手工提取前後綴特徵,文章的方法有細微的提升;在遇到未登陸詞的時候,在不同的語料上互有勝負。但如果徹底不用形態特徵,遇到未登陸詞時效果就很差了
字符向量相似度最高的詞舉例: