前預訓練時代的自監督學習自迴歸、自編碼預訓練的前世
神經網絡(Neural Network, NN)
損失函數,度量神經網絡的預測結果和真實結果相差多少
- 平方差損失(歐式距離角度)預測概率分部和實際標籤概率的歐式距離
- 交叉熵損失(信息量角度)預測概率分部和真實概率分部的差異,指導神經網絡學習時,更加穩定
對參數W更新損失的負梯度
One-hot 人爲規定,不需要學習,在推薦裏有非常多的用處,(可以理解成完全命中)
詞向量需要學習,可以很好的泛化結果,泛化性能比 one-hot 更好(可以理解成泛化關係的建模)
評估模型的好壞:有全體指標,以及一些公開的數據集,去評估詞向量的相關性
Skip-gram: 給定一箇中間值,預測上下文窗口中的一個詞
CBoW:給定一個上下文詞,預測中間值
RNN 拋開馬爾科夫假設,
Self-Attention:每個單詞和整句所有話進行匹配,來獲取當前單詞對每個單詞的重視程度,利用這個重視程序,對整句話的每個單詞進行加權,加權的結果用於表示當前這個單詞
Self-Attention:也是非常流行的 Transformer 的核心模塊,
Seft-Attention 沒有考慮單詞的順序,所以爲了更精裝的表示位置信息,需要對句子的輸入加個位置的序號 Positional Embedding
殘差連接,很好的緩解梯度消失的問題,包括映射和直連接部分
https://aistudio.baidu.com/aistudio/education/lessonvideo/1451160