《TensorFlow与自然语言处理应用》勘误表

原創

2020-06-30 13:45

2019年8月，小作《TensorFlow与自然语言处理应用》（清华大学出版社）正式发行，非常感谢清华大学出版社夏毓彦等各位老师。个人对于机器学习、深度学习和NLP也是略懂皮毛，搬砖多些，加之时间有限，书中难免有些错谬之处，如有读者发现问题，欢迎您的批评指正。个人也在学习中，希望今后与大家一起学习探讨，共同进步。现将书中一些问题做些梳理，后期发现新的问题也会不断更新，谢谢大家。

ＰＳ: 环境--ubuntu18.04系统、python3.6+tensorflow1.8．

《TensorFlow与自然语言处理应用》（李孟全，清华大学出版社，2019.08）勘误表

位置	原始	现在	操作
第20页第2段			等式右侧下标“i”调整为”j”
第21页第4段	ELU（指数线性单位）	ELU（指数线性单元）
第28页第1段	上图是一个包含了输入层L1、一个隐藏层L2和输出层L3的简单神经网络	上图是一个包含了输入层、一个隐藏层和输出层的简单神经网络	字母”L”下标调整
第44页倒数第2段	我们的代码可以要求TensorFlow执行此该图，	我们的代码可以要求TensorFlow执行此图，	删除“该”
第57页第2段	而unit8是8位无符号整形	而unit8是8位无符号整数型
第79页倒数第1段	确定矩阵在中元素的值	确定在矩阵中元素的值
第82页第1段	就C&W 模型（图 4-5）与 NNLM（图 4-2）之间的差异而言	就C&W 模型（图 4-6）与 NNLM（图 4-3）之间的差异而言
第99页第2段	但是，在CBOW模型中，我们将从上下文词预测目标词	但是，在CBOW模型中，我们将从上下文词中预测目标词
第121页第2段	我们会分析4类常见的经典卷积网络的结架构体系和特性	我们会分析4类常见的经典卷积网络的结构体系和特性
第129页第5段			后面一个公式删除
第138页倒数第3段	实际上意味着ConvNet的所有权重值和参数已经过优化	实际上意味着ConvNet的所有权重值和参数已经优化过
第169页倒数第2段	假设我们将W的取值初始化得非常大（比如1000.00），则在时间步长n取100时，梯度将变得非常大（比例为）。	假设我们将W的取值初始化得非常大（比如1000.00），则在时间步长n取100时，梯度将变得非常大（比如为）。
第181页第2段	前面我们已经讨论了RNN-CF包含的额外的状态向量以及它如何帮助防止梯度消失	前面我们已经讨论了RNN-CF包含的额外的状态向量以及它如何防止梯度消失的
第200页第3段	主要区别之一是LSTM具有两种不同的状态：细胞状态ct和最终隐藏状态	主要区别之一是LSTM具有两种不同的状态：细胞状态ct和最终隐藏状态ht
第210页倒数第4段	我们考虑的最终扩展是BiLSTM或双向LSTM。	我们考虑的最终扩展是BiLSTM（双向LSTM）。
第223页第2段	1. 一种这样的初始化技术被称为Xavier初始化， 2.https://www.tensorflow.org/api_docs/python/tf/contrib/layers/xavier_initializer	1. 有一种这样的初始化技术被称为Xavier初始化， 2.https://tensorflow.google.cn/api_docs/python/tf/contrib/layers/xavier_initializer
第259页第2段	不过，ImageNet包含约1MB的图像	不过，ImageNet中有约100万张图像和1000个图像类别
第260页第3段	网站http://www.cs.toronto.edu/~frossard/post/vgg16/上提供了权重值来作为NumPy数组的字典，	网站http://www.cs.toronto.edu/~frossard/post/vgg16/上提供了以NumPy数组字典形式的权重值，
第270页倒数第2段	注意，一种精确的表示形式。	注意，一种精度的表示形式。
第342页倒数第2段	例如，有些人可能认为cat’s、cat和Cta是同一个单词，	例如，有些人可能认为cat’s、cat和Cat是同一个单词，
第351页第2段	这里，f 是解码器的非线性变换函数。	这里，f 是编码器的非线性变换函数。
第351页倒数第2段	模型里每个词对于目标词“汤姆”的翻译贡献度是相同的，这明显是符合要求的，这里只有“Tom”翻译成“汤姆”更合理。	模型里每个词对于目标词“汤姆”的翻译贡献度是相同的，这明显是不符合要求的，这里只有“Tom”翻译成“汤姆”更合理。
第357页第3段	h_i_unrolled：这些是num_enc_unrolling编码器的LSTM细胞的输出，我们在将源语句提供给编码器期间进行计算。这将是num_enc_unrolling张量的列表，其中每个张量的大小为[batch_size，num_nodes]。	h_j_unrolled：这些是num_enc_unrolling编码器的LSTM细胞的输出，我们在将源语句提供给编码器期间进行计算。这将是num_enc_unrolling张量的列表，其中每个张量的大小为[batch_size，num_nodes]。
第369页、第370页	2. 使用CNN嵌入特征 3. 利用注意力机制嵌入特征 4. 利用记忆机制回答问题	3. 使用CNN嵌入特征 4. 利用注意力机制嵌入特征 5. 利用记忆机制回答问题
第373页第2段	其实，已经有人多次使用CNN或RNN模型在探索词汇或句法特征的关系提取中尝试应用了深度学习方法很多次（Zeng等人，2014；Liu等人，2015；Xu等人，2015）。	其实，已经有人使用CNN或RNN模型在探索词汇或句法特征的关系提取中尝试应用了深度学习方法很多次（Zeng等人，2014；Liu等人，2015；Xu等人，2015）。
第373页倒数第1段	Xu等人（2016）提出了一种多通道卷积神经网络（MCCNN）模型，从词法和句法两方面学习紧凑性、稳健的关系表示	Xu等人（2016）提出了一种多通道卷积神经网络（MCCNN）模型，从词法和句法两方面学习紧凑、稳健的关系表示
第397页倒数第1段	特别是对于文档，文档中的主题或逻辑结构不能通过神经网络容轻松建模，而且在知识库中嵌入项目没有有效的方法。	特别是对于文档，文档中的主题或逻辑结构不能通过神经网络容轻松建模，而且在知识库中嵌入问题没有有效的方法。