17 Transformer 的解碼器(Decoders)——我要生成一個又一個單詞


Transformer 編碼器

編碼器在幹嗎:詞向量、圖片向量,總而言之,編碼器就是讓計算機能夠更合理地(不確定性的)認識人類世界客觀存在的一些東西

Transformer 解碼器

解碼器會接收編碼器生成的詞向量,然後通過這個詞向量去生成翻譯的結果。

img

解碼器的 Self-Attention 在編碼已經生成的單詞

假如目標詞“我是一個學生”---》masked Self-Attention

訓練階段:目標詞“我是一個學生”是已知的,然後 Self-Attention 是對“我是一個學生” 做計算

如果不做 masked,每次訓練階段,都會獲得全部的信息

如果做 masked,Self-Attention 第一次對“我”做計算

Self-Attention 第二次對“我是”做計算

……

測試階段:

  1. 目標詞未知,假設目標詞是“我是一個學生”(未知),Self-Attention 第一次對“我”做計算
  2. 第二次對“我是”做計算
  3. ……

而測試階段,沒生成一點,獲得一點

生成詞

img

Linear 層轉換成詞表的維度

softmax 得到最大詞的概率

softmax 細話

img

單詞表

img
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章