1.循環神經網絡和卷積神經網絡
問題1:處理文本數據時,循環神經網絡與前饋神經網絡相比有什麼特點?
答:
f,g爲激活函數,U爲輸入層到隱含層的權重矩陣,W爲隱含層從上一時刻到下一時刻狀態轉移的權重矩陣。在分本分類任務中,f可以選取Tanh函數或者Relu函數,g可以採用Softmax函數。
2.循環神經網絡的梯度消失問題
問題1:循環神經網絡爲什麼會出現梯度消失或梯度爆炸?有哪些改進方案?
答:
梯度爆炸可以通過梯度裁剪來緩解,即當梯度的範式大於某個給定值時,對梯度進行等比例收縮。
梯度消失需要對模型本身進行改進。長短時記憶模型及其變種門控制循環單元
3.循環神經網絡中的激活函數
問題1:在循環神經網絡中能否使用Relu作爲激活函數?
答:能,但是要對W初始化爲單位矩陣。
4.長短期記憶網絡
問題1:LSTM是如何實現長短期記憶功能的?
答:
問題2:LSTM裏各模塊分別使用什麼激活函數,可以使用別的激活函數嗎?
答:遺忘門、輸入門和輸出門使用Sigmoid函數作爲激活函數,在生成候選記憶時,使用雙曲正切函數Tanh作爲激活函數
5.Seq2Seq模型
問題1:什麼是Seq2Seq模型?Seq2Seq模型有哪些優點?
答:
問題2:Seq2Seq模型在解碼時,有哪些常用的辦法?
答:
1.貪心法,獲得局部最優解。
2.技術搜索
6.注意力機制
問題1:Seq2Seq模型引入注意力機制是爲了解決什麼問題?爲什麼選用了雙向的循環神經網絡模型?
答: