1、下面關於梯度消失和梯度爆炸描述正確的是?
A. 靠近output layer的hidden layer 參數更新相對正常,但靠近input layer的hidden layer 參數更新幾乎接近於初始化值
B. 靠近input layer的hidden layer 參數更新相對正常,但靠近output layer的hidden layer 參數更新幾乎接近於初始化值
C. 誤差梯度在更新中累積,變成非常大的梯度,導致網絡參數的值NAN值
D. 初始參數值過大,靠近input layer的hidden layer 參數更新比靠近output layer的hidden layer 參數更新更快,就會引起梯度爆炸
答案:A, C, D
難易程度:中
題型:多選題
2、下面關於產生梯度消失和梯度爆炸的原因描述正確的是?
A. sigmoid函數作爲激活函數,其導數 最大值<1
B. tanh函數作爲激活函數,其導數也小於1
C.激活函數導數大於1,則層數增多,梯度更新以指數形式增加
D.激活函數導數小於1,則層數增多,梯度更新以指數形式衰減
答案:A, B, C, D
難易程度:中
題型:多選題
3、下面關於Model Fine-tuning缺陷描述正確的是:
A. 因爲Target data數據量少,容易出現training時性能好,testing時性能差
B. 可以通過設定最小化Target data training 的模型和Source data training 的模型的距離來規避缺陷(conservative traing)
C. 可以通過將source data training的部分中間層移花接木到Target data training 的模型中並且Target data training只training剩下沒有training過的層的參數(layer transfer)
D. 可以通過設定相同輸入數據條件下最小化Target data training 的模型輸出數據和Source data training 的模型輸出數據的二範數來規避缺陷
答案:A, B, C, D
難易程度:中
題型:多選題
4、下面爲Tomas Mikolov提出的以解決rough error surface of RNN描述正確的是:
A. 使用ReLU激活函數
B. 使用LSTM網絡
C. 使用梯度截斷
D. 預訓練加fine tunning
答案:C
難易程度:中
題型:單選題
5、{
簡述Gated Recurrent unit(GRU) 有哪兩個gate?GRU的精神/主旨是什麼?
}
{
答案:GRU由reset gate(重置門,選擇性遺忘)和update gate(更新門,選擇性記憶)組成。它的精神是放入新的值就清掉原來的值,即舊的不去新的不來,等價於RNN input門和forget門連動,若input門打開,則forget門自動關閉,洗掉memory值。
}
難易程度:中
題型:簡答題
6、下面屬於解決梯度消失的RNN的是
A. LSTM
B. GAN
C. clockwise RNN
D. structurally constrained Recurrent network(SCRN)
E. vanilla RNN
答案:A, B, C, D, E
難易程度:中
題型:多選題
7、{
簡述爲什麼LSTM可以handle梯度消失問題?
}
{
答案:LSTM與RNN相比,兩者對memory 的操作不一樣。RNN是每一個時間點memory裏的值都會被覆蓋掉,memory裏之前參數的影響就消失。LSTM memory裏的值乘以一個值再加上input值放入cell中,一旦參數影響memory,則影響會一直會存在直到forget門啓用刷新memory。
}
難易程度:中
題型:簡答題
8、下面屬於用到memory的Neural Network是?
A. RNN
B. GAN
C. LSTM
D. Attention-based model(Neural Turing Machine、Reading comprehension)
答案:A, B, C, D
難易程度:中
題型:多選題
9、下面是Deep learning integrated with structured learning?
A. semantic Tagging: Bi-directional LSTM+CRF/Structured SVM
B. GAN
C. conditional GAN
D. speech recognition: CNN/LSTM/DNN+HMM
答案:A, D
難易程度:中
題型:多選題