《Pointer Networks》

这周读的是《Pointer Networks》这篇文章。作者是Google brain和UC Berkeley的研究人员,作者在本文中通过对编码器-解码器机制和注意力机制进行改进,提出了新的网络结构pointer network,并将其运用到解决组合最优化问题。下图为seq2seq模型与指针网络的对比:

可以看出传统的seq2seq模型最终产生的是一个序列,且序列中包含的元素个数与输入序列中的元素个数相同;指针网络则是产生了一个指针,通过解码器之后通过计算对应的注意力系数产生到输入序列对应元素的指针。

作者的改进是通过对注意力机制进行改进实现的,传统的注意力机制是通过计算解码器中的隐层向量同编码器各个阶段输出的隐层向量的相关性,加权之后作为额外信息输入到解码器,起到软对齐的作用,来提高模型的性能。其计算过程如下:

改进之后的注意力机制则是将第二三步省略直接通过对向量u进行softmax得到系数最大相关向量,由此产生指针。

作者在凸包问题、德劳内三角形问题和旅行商问题上进行了实验。下图为凸包问题和德劳内问题:同时作者使用精度和几何覆盖率进行模型性能的评估。且作者在进行网络训练时使用了相同的超参数。下图为在图报问题上的实验结果:可以看到在输入输出维度相同的情况下:使用LSTM效果不理想;加入attention之后精度和区域覆盖率得到显著提升;使用指针网络效果是最好的;而且指针网络可以使用不同长度的序列进行训练,去预测更长的序列的情况下的解,这是普通的seq2seq模型所不具备的

下图为旅行商问题的实验结果:在上半部分的实验中,指针网络均取得了最优效果,值得注意的是n=50时,使用A1和A3是数据进行训练,指针网络取得了比其更优的结果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章