第三週學得有點懵懵懂懂,教學視頻已經看完了,吳恩達老師最後的總結髮言還是挺感人的(DL superman)。
1. Sequence to sequence model
從Encoder到decoder
看圖說話
2.選擇最有可能的句子
機器翻譯和傳統的語言模型很像
選擇最佳的翻譯,而不是從候選項中隨機選擇一個。
貪婪搜索法並不能保證整體的概率最大
3. Beam Search
Beam search的第一步是選擇翻譯句子的一個單詞,
第二步,分別基於每個種子首詞(B3)預測下一個單詞,留下預測概率最高的前B個選擇。
後面每一步都執行與第二步相似的操作:
因此,Beam Search實際上就是每次總選擇前三個概率最高的選擇,當B設置爲1時,Beam Search就相當於Greedy Search。
4. Refinements to Beam Search
從候選翻譯句子中挑選最佳選擇時,首先應該對候選句子進行長度標準化,通常的策略是乘以一個包含長度的係數。
當把B設置的越大,越有可能找到最佳結果,然而也會導致計算量激增。
5. Error analysis in beam search
當你對模型翻譯的一個句子不夠滿意時,你需要懷疑是RNN模型的問題,還是beam search 沒找到的問題。
這時你需要比較RNN模型計算的滿意翻譯的概率 和RNN模型計算的不滿意翻譯的概率 。
當 時,說明是beam search 沒有搜索到最佳翻譯。
當 時,說明是RNN有問題。
多找幾個實例,重複以上錯誤查找步驟,統計各種出錯的比例,以確定下一步優化方向。
6. Bleu Score
同一個句子對應多個同樣好的翻譯(答案)時,怎樣評價一個機器翻譯的準確性呢?Bleu score就是用來做這樣一件事的,簡單地說,就是查看機器翻譯的詞彙是否出現在任意一個人工翻譯的句子裏。
孤立的單詞統計意義有限,我們也可以採取統計兩個連續詞彙是否出現在標準答案裏。
事實上,人們常組合多個grams(如1-gram, 2-gram, 3-gram)共同打分。
7. Attention Model Intuition
前面我們學習的模型在做翻譯時,採用encoder到decoder的方法,然而這種方法對於翻譯較長的句子時效果往往不好。
The problem of long sequences
Attention model intuition
Attention model 在做翻譯時,會考慮附近的詞彙環境。
8. Attention Model
事實用到的attention係數需要額外建立模型去學習
9. Speech recognition
從聲音到文字
可以採用CTC的策略處理從聲音到文字過程中輸入、輸出長度不一致的問題。
10. Trigger Word Detection
採用喚醒詞喚醒語音識別系統。
注:如無特殊說明,以上所有圖片均截選自吳恩達在Coursera開設的神經網絡系列課程的講義。