在回顧elmo能發現是從word2vec的一大進步,在bert,XL-Net橫空出世的現在,elmo也是起到承上啓下的作用,現在就總結下elmo吧。
1.ELMo是一種新型深度語境化詞表徵,可對詞進行復雜特徵(如句法和語義)和詞在語言語境中的變化進行建模,利用了隱狀態Ht
2.通過雙向語言模型進行建模,雖然現在看起來不管是前向還是反向拼接在一起有點粗暴
3.前後向語言模型爲LSTM所構建
4.Elmo就是把輸入x,前向輸出hL,後向輸出hL
5.ELMO模型的主要結構就是L層的雙向LSTM,對於L層的雙向lstm語言模型,一共會有有2L+1個representations。在多層模型中,淺層往往蘊含的是句法,語法信息,而高層蘊含的是語義信息,因此你可以選擇ELMO中各層的輸出作爲最後的輸出,也可以將各層的輸出進行綜合作爲最後的輸出。
6.ELMO的各層參數實際上就是爲各種有監督的下游任務準備的,因此ELMO可以被認爲是一種遷移學習(transfer learning)。
通過這樣的遷移策略,那些對詞義消歧有需求的任務就更容易通過訓練給第二隱層一個很大的權重,而對詞性、句法有明顯需求的任務則可能對第一隱層的參數學習到比較大的值(實驗結論)。總之,這樣便得到了一份”可以被下游任務定製“的特徵更爲豐富的詞向量。
7.相比於Transformer,lstm提取特徵的能力還是不夠的