Transformer 編碼器
編碼器在幹嗎:詞向量、圖片向量,總而言之,編碼器就是讓計算機能夠更合理地(不確定性的)認識人類世界客觀存在的一些東西
Transformer 解碼器
解碼器會接收編碼器生成的詞向量,然後通過這個詞向量去生成翻譯的結果。
解碼器的 Self-Attention 在編碼已經生成的單詞
假如目標詞“我是一個學生”---》masked Self-Attention
訓練階段:目標詞“我是一個學生”是已知的,然後 Self-Attention 是對“我是一個學生” 做計算
如果不做 masked,每次訓練階段,都會獲得全部的信息
如果做 masked,Self-Attention 第一次對“我”做計算
Self-Attention 第二次對“我是”做計算
……
測試階段:
- 目標詞未知,假設目標詞是“我是一個學生”(未知),Self-Attention 第一次對“我”做計算
- 第二次對“我是”做計算
- ……
而測試階段,沒生成一點,獲得一點
生成詞
Linear 層轉換成詞表的維度
softmax 得到最大詞的概率
softmax 細話
單詞表