3.12 總結-深度學習第五課《序列模型》-Stanford吳恩達教授

習題

第二週 - 自然語言處理與詞嵌入

第 151 題

假設你爲10000個單詞學習詞嵌入,爲了捕獲全部範圍的單詞的變化以及意義,那麼詞嵌入向量應該是10000維的。

A.正確 B.錯誤

第 152 題

什麼是t-SNE?

A.一種非線性降維算法

B.一種能夠解決詞向量上的類比的線性變換

C.一種用於學習詞嵌入的監督學習算法

D.一個開源序列模型庫

第 153 題

假設你下載了一個已經在一個很大的文本語料庫上訓練過的詞嵌入的數據,然後你要用這個詞嵌入來訓練RNN並用於識別一段文字中的情感,判斷這段文字的內容是否表達了“快樂”。

x(輸入文本) y(是否快樂)
我今天感覺很好! 1
我覺得很沮喪,因爲我的貓生病了。 0
真的很享受這個! 1

那麼即使“欣喜若狂”這個詞沒有出現在你的小訓練集中,你的RNN也會認爲“我欣喜若狂”應該被貼上 y=1y=1 的標籤。

A.正確 B.錯誤

第 154 題

對於詞嵌入而言,下面哪一個(些)方程是成立的?

A. eboyegirlebrotheresistere_{boy} - e_{girl} \approx e_{brother} - e_{sister}
B. eboyegirlesisterebrothere_{boy} - e_{girl} \approx e_{sister} - e_{brother}
C. eboyebrotheregirlesistere_{boy} - e_{brother} \approx e_{girl} - e_{sister}
D. eboyebrotheresisteregirle_{boy} - e_{brother} \approx e_{sister} - e_{girl}

第 155 題

EE 爲嵌入矩陣, e1234e_{1234} 對應的是詞“1234”的獨熱向量,爲了獲得1234的詞嵌入,爲什麼不直接在Python中使用代碼 Ee1234E*e_{1234} 呢?

A.因爲這個操作是在浪費計算資源

B.因爲正確的計算方式是 ETe1234E^T*e_{1234}

C.因爲它沒有辦法處理未知的單詞(<UNK>)

D.以上全都不對,因爲直接調用 Ee1234E*e_{1234} 是最好的方案

第 156 題

在學習詞嵌入時,我們創建了一個預測 P(targetcontext)P(target|context) 的任務,如果這個預測做的不是很好那也是沒有關係的,因爲這個任務更重要的是學習了一組有用的嵌入詞。

A.正確 B.錯誤

第 157 題

在word2vec算法中,你要預測 P(tc)P(t|c) ,其中 tt 是目標詞(target word), cc 是語境詞(context word)。你應當在訓練集中怎樣選擇 ttcc 呢?

A. ttcc 應當在附近詞中

B. cctt 在前面的一個詞

C. cctt 之前句子中所有單詞的序列

D. cctt 之前句子中幾個單詞的序列

第 158 題

假設你有1000個單詞詞彙,並且正在學習500維的詞嵌入,word2vec模型使用下面的softmax函數:

P(tc)=exp(θtTec)t=110,000exp(θtTec)P(t|c)=\frac{exp(\theta^T_te_c)}{\sum_{t\prime=1}^{10,000}exp(\theta^T_{t\prime}e_c)}

以下說法中哪一個(些)是正確的?

A. θt\theta_tece_c 都是500維的向量

B. θt\theta_tece_c 都是10000維的向量

C. θt\theta_tece_c 都是通過Adam或梯度下降等優化算法進行訓練的

D.訓練之後, θt\theta_t 應該非常接近 ece_c ,因爲ttt和ccc是一個詞

第 159 題

假設你有10000個單詞詞彙,並且正在學習500維的詞嵌入,GloVe模型最小化了這個目標:

mini=110,000j=110,000f(Xi,j)(θiTej+bi+bjlogXij)2\min\sum_{i=1}^{10,000}\sum_{j=1}^{10,000}f(X_{i,j})(\theta^T_ie_j+b_i+b_j^\prime-\log X_{ij})^2

以下說法中哪一個(些)是正確的?

A. θi\theta_ieje_j 應當初始化爲0

B. θi\theta_ieje_j 與應當使用隨機數進行初始化

C. Xi,jX_{i,j} 是單詞 iijj 中出現的次數

D.加權函數 f(.)f(.) 必須滿足 f(0)=0f(0)=0

第 160 題

你已經在文本數據集上 m1m_1 訓練了詞嵌入,現在準備將它用於一個語言任務中,對於這個任務,你有一個單獨標記的數據集 m2m_2 ,請記住,使用詞嵌入是一種遷移學習的形式。在以下那種情況中,詞嵌入會有幫助?

A. m1>>m2m_1>>m_2
B. m1<<m2m_1<<m_2

151-160題 答案

151.B 152.A 153.A 154.AC 155.A 156.B 157.A 158.AC 159.BCD 160.A

第三週 - 序列模型與注意力機制

第 161 題

想一想使用如下的編碼-解碼模型來進行機器翻譯:

在這裏插入圖片描述

這個模型是“條件語言模型”,編碼器部分(綠色顯示)的意義是建模中輸入句子x的概率

A.正確 B.錯誤

第 162 題

在集束搜索中,如果增加集束寬度 bb ,以下哪一項是正確的?

A.集束搜索將運行的更慢

B.集束搜索將使用更多的內存

C.集束搜索通常將找到更好地解決方案(比如:在最大化概率 P(yx)P(y|x) 上做的更好)

D.集束搜索將在更少的步驟後收斂

第 163 題

在機器翻譯中,如果我們在不使用句子歸一化的情況下使用集束搜索,那麼算法會輸出過短的譯文。

A.正確 B.錯誤

第 164 題

假設你正在構建一個能夠讓語音片段 xx 轉爲譯文 yy 的基於RNN模型的語音識別系統,你的程序使用了集束搜索來試着找尋最大的 P(yx)P(y|x) 的值yyy。在開發集樣本中,給定一個輸入音頻,你的程序會輸出譯文 y^\hat{y} = “I’m building an A Eye system in Silly con Valley.”,人工翻譯爲 yy* = “I’m building an AI system in Silicon Valley.”
在你的模型中,

P(y^x)=1.09107P(\hat{y}|x)=1.09*10^{-7}P(yx)=7.21108 P(y*|x)=7.21*10^{-8}

那麼,你會增加集束寬度 BB 來幫助修正這個樣本嗎?

A.不會,因爲 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 說明了問題在RNN,而不是搜索算法

B.不會,因爲 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 說明了問題在搜索算法,而不是RNN

C.會的,因爲 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 說明了問題在RNN,而不是搜索算法

D.會的,因爲 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 說明了問題在搜索算法,而不是RNN

第 165 題

接着使用第4題的樣本,假設你花了幾周的時間來研究你的算法,現在你發現,對於絕大多數讓算法出錯的例子而言,P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x),這表明你應該將注意力集中在改進搜索算法上,對嗎?

A.正確 B.錯誤

第 166 題

回想一下機器翻譯的模型:

在這裏插入圖片描述

除此之外,還有個公式 α<t,t>=exp(e<t,t>)t=1Txexp(<t,t>)\alpha^{<t,t\prime>}=\frac{exp(e^{<t,t\prime>})}{\sum_{t\prime=1}^{T_x}exp(^{<t,t\prime>})}下面關於 α<t,t>\alpha^{<t,t\prime>} 的選項那個(些)是正確的?

A.對於網絡中與輸出 y<t>y^{<t>} 高度相關的 α<t>\alpha^{<t\prime>} 而言,我們通常希望α<t,t>\alpha^{<t,t>}的值更大(請注意上標)

B.對於網絡中與輸出 y<t>y^{<t>} 高度相關的 α<t>\alpha^{<t>} 而言,我們通常希望 α<t,t>\alpha^{<t,t\prime>} 的值更大(請注意上標)

C. tα<t,t>=1\sum_t\alpha^{<t,t\prime>}=1 (注意是和除以t)

D. tα<t,t>=1\sum_{t\prime}\alpha^{<t,t\prime>}=1 (注意是和除以t’)

第 167 題

網絡通過學習的值 e<t,t>e^{<t,t\prime>} 來學習在哪裏關注“關注點”,這個值是用一個小的神經網絡的計算出來的:

這個神經網絡的輸入中,我們不能將 s<t>s^{<t>} 替換爲 s<t1>s^{<t-1>} 這是因爲 s<t>s^{<t>} 依賴於 α<t,t>\alpha^{<t,t\prime>} ,而 α<t,t>\alpha^{<t,t\prime>} 又依賴於 e<t,t>e^{<t,t\prime>} ;所以在我們需要評估這個網絡時,我們還沒有計算出 sts^t

A.正確 B.錯誤

第 168 題

與題1中的編碼-解碼模型(沒有使用注意力機制)相比,我們希望有注意力機制的模型在下面的情況下有着最大的優勢:

A.輸入序列的長度 TxT_x 比較大

B.輸入序列的長度 TxT_x 比較小

第 169 題

在CTC模型下,不使用"空白"字符(_)分割的相同字符串將會被摺疊。那麼在CTC模型下,以下字符串將會被摺疊成什麼樣子?__c_oo_o_kk___booooo_oo__kkk

A.cokbok

B.cookbook

C.cook book

D.coookkboooooookkk

第 170 題

在觸發詞檢測中, x<t>x^{<t>} 是:

A.時間 tt 時的音頻特徵(就像是頻譜特徵一樣)

B.第 tt 個輸入字,其被表示爲一個獨熱向量或者一個字嵌入

C.是否在第 tt 時刻說出了觸發詞

D.是否有人在第 tt 時刻說完了觸發詞

161-170題 答案

161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章