《百面》-10.循環神經網絡

1.循環神經網絡和卷積神經網絡

問題1:處理文本數據時,循環神經網絡與前饋神經網絡相比有什麼特點?

答:在這裏插入圖片描述
nett=Uxt+Wht1,hf=f(nett),y=g(VhT) net_t=Ux_t+Wh_{t-1},h_f=f(net_t),y=g(Vh_T)
f,g爲激活函數,U爲輸入層到隱含層的權重矩陣,W爲隱含層從上一時刻到下一時刻狀態轉移的權重矩陣。在分本分類任務中,f可以選取Tanh函數或者Relu函數,g可以採用Softmax函數。

2.循環神經網絡的梯度消失問題

問題1:循環神經網絡爲什麼會出現梯度消失或梯度爆炸?有哪些改進方案?

答:
梯度爆炸可以通過梯度裁剪來緩解,即當梯度的範式大於某個給定值時,對梯度進行等比例收縮。
梯度消失需要對模型本身進行改進。長短時記憶模型及其變種門控制循環單元

3.循環神經網絡中的激活函數

問題1:在循環神經網絡中能否使用Relu作爲激活函數?

答:能,但是要對W初始化爲單位矩陣。

4.長短期記憶網絡

問題1:LSTM是如何實現長短期記憶功能的?

答:在這裏插入圖片描述

問題2:LSTM裏各模塊分別使用什麼激活函數,可以使用別的激活函數嗎?

答:遺忘門、輸入門和輸出門使用Sigmoid函數作爲激活函數,在生成候選記憶時,使用雙曲正切函數Tanh作爲激活函數

5.Seq2Seq模型

問題1:什麼是Seq2Seq模型?Seq2Seq模型有哪些優點?

答:在這裏插入圖片描述

問題2:Seq2Seq模型在解碼時,有哪些常用的辦法?

答:
1.貪心法,獲得局部最優解。
2.技術搜索

6.注意力機制

問題1:Seq2Seq模型引入注意力機制是爲了解決什麼問題?爲什麼選用了雙向的循環神經網絡模型?

答:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章