自然語言處理(NLP) - 前預訓練時代的自監督學習

前預訓練時代的自監督學習自迴歸、自編碼預訓練的前世
image
神經網絡(Neural Network, NN)
image
image

損失函數,度量神經網絡的預測結果真實結果相差多少

  • 平方差損失(歐式距離角度)預測概率分部和實際標籤概率的歐式距離
  • 交叉熵損失(信息量角度)預測概率分部和真實概率分部的差異,指導神經網絡學習時,更加穩定
    image
    對參數W更新損失的負梯度
    image
    One-hot 人爲規定,不需要學習,在推薦裏有非常多的用處,(可以理解成完全命中)
    image
    詞向量需要學習,可以很好的泛化結果,泛化性能比 one-hot 更好(可以理解成泛化關係的建模)
    評估模型的好壞:有全體指標,以及一些公開的數據集,去評估詞向量的相關性
    image

image

Skip-gram: 給定一箇中間值,預測上下文窗口中的一個詞
image
image
CBoW:給定一個上下文詞,預測中間值
image

image

image

RNN 拋開馬爾科夫假設,
image

Self-Attention:每個單詞和整句所有話進行匹配,來獲取當前單詞對每個單詞的重視程度,利用這個重視程序,對整句話的每個單詞進行加權,加權的結果用於表示當前這個單詞
image
Self-Attention:也是非常流行的 Transformer 的核心模塊,
Seft-Attention 沒有考慮單詞的順序,所以爲了更精裝的表示位置信息,需要對句子的輸入加個位置的序號 Positional Embedding
image

殘差連接,很好的緩解梯度消失的問題,包括映射和直連接部分
image
image
image

https://aistudio.baidu.com/aistudio/education/lessonvideo/1451160

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章