3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授

习题

第二周 - 自然语言处理与词嵌入

第 151 题

假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。

A.正确 B.错误

第 152 题

什么是t-SNE?

A.一种非线性降维算法

B.一种能够解决词向量上的类比的线性变换

C.一种用于学习词嵌入的监督学习算法

D.一个开源序列模型库

第 153 题

假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。

x(输入文本) y(是否快乐)
我今天感觉很好! 1
我觉得很沮丧,因为我的猫生病了。 0
真的很享受这个! 1

那么即使“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上 y=1y=1 的标签。

A.正确 B.错误

第 154 题

对于词嵌入而言,下面哪一个(些)方程是成立的?

A. eboyegirlebrotheresistere_{boy} - e_{girl} \approx e_{brother} - e_{sister}
B. eboyegirlesisterebrothere_{boy} - e_{girl} \approx e_{sister} - e_{brother}
C. eboyebrotheregirlesistere_{boy} - e_{brother} \approx e_{girl} - e_{sister}
D. eboyebrotheresisteregirle_{boy} - e_{brother} \approx e_{sister} - e_{girl}

第 155 题

EE 为嵌入矩阵, e1234e_{1234} 对应的是词“1234”的独热向量,为了获得1234的词嵌入,为什么不直接在Python中使用代码 Ee1234E*e_{1234} 呢?

A.因为这个操作是在浪费计算资源

B.因为正确的计算方式是 ETe1234E^T*e_{1234}

C.因为它没有办法处理未知的单词(<UNK>)

D.以上全都不对,因为直接调用 Ee1234E*e_{1234} 是最好的方案

第 156 题

在学习词嵌入时,我们创建了一个预测 P(targetcontext)P(target|context) 的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。

A.正确 B.错误

第 157 题

在word2vec算法中,你要预测 P(tc)P(t|c) ,其中 tt 是目标词(target word), cc 是语境词(context word)。你应当在训练集中怎样选择 ttcc 呢?

A. ttcc 应当在附近词中

B. cctt 在前面的一个词

C. cctt 之前句子中所有单词的序列

D. cctt 之前句子中几个单词的序列

第 158 题

假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数:

P(tc)=exp(θtTec)t=110,000exp(θtTec)P(t|c)=\frac{exp(\theta^T_te_c)}{\sum_{t\prime=1}^{10,000}exp(\theta^T_{t\prime}e_c)}

以下说法中哪一个(些)是正确的?

A. θt\theta_tece_c 都是500维的向量

B. θt\theta_tece_c 都是10000维的向量

C. θt\theta_tece_c 都是通过Adam或梯度下降等优化算法进行训练的

D.训练之后, θt\theta_t 应该非常接近 ece_c ,因为ttt和ccc是一个词

第 159 题

假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标:

mini=110,000j=110,000f(Xi,j)(θiTej+bi+bjlogXij)2\min\sum_{i=1}^{10,000}\sum_{j=1}^{10,000}f(X_{i,j})(\theta^T_ie_j+b_i+b_j^\prime-\log X_{ij})^2

以下说法中哪一个(些)是正确的?

A. θi\theta_ieje_j 应当初始化为0

B. θi\theta_ieje_j 与应当使用随机数进行初始化

C. Xi,jX_{i,j} 是单词 iijj 中出现的次数

D.加权函数 f(.)f(.) 必须满足 f(0)=0f(0)=0

第 160 题

你已经在文本数据集上 m1m_1 训练了词嵌入,现在准备将它用于一个语言任务中,对于这个任务,你有一个单独标记的数据集 m2m_2 ,请记住,使用词嵌入是一种迁移学习的形式。在以下那种情况中,词嵌入会有帮助?

A. m1>>m2m_1>>m_2
B. m1<<m2m_1<<m_2

151-160题 答案

151.B 152.A 153.A 154.AC 155.A 156.B 157.A 158.AC 159.BCD 160.A

第三周 - 序列模型与注意力机制

第 161 题

想一想使用如下的编码-解码模型来进行机器翻译:

在这里插入图片描述

这个模型是“条件语言模型”,编码器部分(绿色显示)的意义是建模中输入句子x的概率

A.正确 B.错误

第 162 题

在集束搜索中,如果增加集束宽度 bb ,以下哪一项是正确的?

A.集束搜索将运行的更慢

B.集束搜索将使用更多的内存

C.集束搜索通常将找到更好地解决方案(比如:在最大化概率 P(yx)P(y|x) 上做的更好)

D.集束搜索将在更少的步骤后收敛

第 163 题

在机器翻译中,如果我们在不使用句子归一化的情况下使用集束搜索,那么算法会输出过短的译文。

A.正确 B.错误

第 164 题

假设你正在构建一个能够让语音片段 xx 转为译文 yy 的基于RNN模型的语音识别系统,你的程序使用了集束搜索来试着找寻最大的 P(yx)P(y|x) 的值yyy。在开发集样本中,给定一个输入音频,你的程序会输出译文 y^\hat{y} = “I’m building an A Eye system in Silly con Valley.”,人工翻译为 yy* = “I’m building an AI system in Silicon Valley.”
在你的模型中,

P(y^x)=1.09107P(\hat{y}|x)=1.09*10^{-7}P(yx)=7.21108 P(y*|x)=7.21*10^{-8}

那么,你会增加集束宽度 BB 来帮助修正这个样本吗?

A.不会,因为 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 说明了问题在RNN,而不是搜索算法

B.不会,因为 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 说明了问题在搜索算法,而不是RNN

C.会的,因为 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 说明了问题在RNN,而不是搜索算法

D.会的,因为 P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x) 说明了问题在搜索算法,而不是RNN

第 165 题

接着使用第4题的样本,假设你花了几周的时间来研究你的算法,现在你发现,对于绝大多数让算法出错的例子而言,P(yx)<=P(y^x)P(y*|x)<=P(\hat{y}|x),这表明你应该将注意力集中在改进搜索算法上,对吗?

A.正确 B.错误

第 166 题

回想一下机器翻译的模型:

在这里插入图片描述

除此之外,还有个公式 α<t,t>=exp(e<t,t>)t=1Txexp(<t,t>)\alpha^{<t,t\prime>}=\frac{exp(e^{<t,t\prime>})}{\sum_{t\prime=1}^{T_x}exp(^{<t,t\prime>})}下面关于 α<t,t>\alpha^{<t,t\prime>} 的选项那个(些)是正确的?

A.对于网络中与输出 y<t>y^{<t>} 高度相关的 α<t>\alpha^{<t\prime>} 而言,我们通常希望α<t,t>\alpha^{<t,t>}的值更大(请注意上标)

B.对于网络中与输出 y<t>y^{<t>} 高度相关的 α<t>\alpha^{<t>} 而言,我们通常希望 α<t,t>\alpha^{<t,t\prime>} 的值更大(请注意上标)

C. tα<t,t>=1\sum_t\alpha^{<t,t\prime>}=1 (注意是和除以t)

D. tα<t,t>=1\sum_{t\prime}\alpha^{<t,t\prime>}=1 (注意是和除以t’)

第 167 题

网络通过学习的值 e<t,t>e^{<t,t\prime>} 来学习在哪里关注“关注点”,这个值是用一个小的神经网络的计算出来的:

这个神经网络的输入中,我们不能将 s<t>s^{<t>} 替换为 s<t1>s^{<t-1>} 这是因为 s<t>s^{<t>} 依赖于 α<t,t>\alpha^{<t,t\prime>} ,而 α<t,t>\alpha^{<t,t\prime>} 又依赖于 e<t,t>e^{<t,t\prime>} ;所以在我们需要评估这个网络时,我们还没有计算出 sts^t

A.正确 B.错误

第 168 题

与题1中的编码-解码模型(没有使用注意力机制)相比,我们希望有注意力机制的模型在下面的情况下有着最大的优势:

A.输入序列的长度 TxT_x 比较大

B.输入序列的长度 TxT_x 比较小

第 169 题

在CTC模型下,不使用"空白"字符(_)分割的相同字符串将会被折叠。那么在CTC模型下,以下字符串将会被折叠成什么样子?__c_oo_o_kk___booooo_oo__kkk

A.cokbok

B.cookbook

C.cook book

D.coookkboooooookkk

第 170 题

在触发词检测中, x<t>x^{<t>} 是:

A.时间 tt 时的音频特征(就像是频谱特征一样)

B.第 tt 个输入字,其被表示为一个独热向量或者一个字嵌入

C.是否在第 tt 时刻说出了触发词

D.是否有人在第 tt 时刻说完了触发词

161-170题 答案

161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章