讀ELMO文章

      全稱是Embeddings from Language Models,從語言模型中學習到詞向量。word2vec訓練出的詞向量有一個問題,一個詞只有一個embbeding,實際上一個詞會有多個含義,例如 蘋果,可以代表水果,也可以代表手機,那麼具體表示哪個可以根據上下文的語義來推測,這也是ELMO模型要解決的關鍵問題。

 

模型:

1.雙向語言模型

  • 雙向體現在,使用雙向的LSTM模型
  • 語言模型體現在Ngram模式 p(tk | t1,t2,...,tk-1)

目標log似然函數爲:

雙向LSTM的參數是共享的。

 

2.ELMO

因爲有L層LSTM,並且是雙向的,所以有2L個representation,然後再加上token的一個representation,所以一共有2L+1個,這些都用來預測下一個詞。

例如: 上圖顯示L=3, 要預測t5,就需要標紅的7個representation來去做預測。

那麼這7個representation,如何去預測t5呢? 

最簡單的版本,就用最上層的LSTM的2個representation去預測,這篇文章中,7個representation都要用上去。

其中=

公式中,參數sj 是做了softmax-normalized,是需要結合任務去學出來的。

 

 

 

 

 

 

 

 

 

refer : https://arxiv.org/abs/1802.05365

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章