這篇文章主要是提出了一種embedding方法。
首先作者介紹了現有sota的embedding方法:
- classical word embedding,在超大語料上預訓練;
- character-level features,在領域內的數據集上訓練,以捕捉任務相關的subword特性;
- 情境化的embedding,捕捉一些多義詞和任務相關的詞;
作者提出了一種上下文字符embedding,以期能夠融合上述三種sota embedding的特性,提出的這種上下文字符embedding隨後被送入下游的sequence labeling任務中,比如說BiLSTM+CRF,整個模型的架構如下:
主要貢獻是在最下層的character language model那塊,具體實現方式見下圖:
就是分別從前往後和從後往前對一個詞建模,比如說上圖中的Washington這個詞,首先是獲取Washington最後一個字母"n"的隱層狀態,然後從後往前,獲取到“w”這個字母的隱層表徵,將這兩部分的狀態concat起來,即:
實驗部分,作者分別在NER、chunking、POS等任務上,做了很多的嘗試,實驗結果見下:
下一步閱讀下這篇文章的代碼。