《Pointer Networks》

這周讀的是《Pointer Networks》這篇文章。作者是Google brain和UC Berkeley的研究人員,作者在本文中通過對編碼器-解碼器機制和注意力機制進行改進,提出了新的網絡結構pointer network,並將其運用到解決組合最優化問題。下圖爲seq2seq模型與指針網絡的對比:

可以看出傳統的seq2seq模型最終產生的是一個序列,且序列中包含的元素個數與輸入序列中的元素個數相同;指針網絡則是產生了一個指針,通過解碼器之後通過計算對應的注意力係數產生到輸入序列對應元素的指針。

作者的改進是通過對注意力機制進行改進實現的,傳統的注意力機制是通過計算解碼器中的隱層向量同編碼器各個階段輸出的隱層向量的相關性,加權之後作爲額外信息輸入到解碼器,起到軟對齊的作用,來提高模型的性能。其計算過程如下:

改進之後的注意力機制則是將第二三步省略直接通過對向量u進行softmax得到係數最大相關向量,由此產生指針。

作者在凸包問題、德勞內三角形問題和旅行商問題上進行了實驗。下圖爲凸包問題和德勞內問題:同時作者使用精度和幾何覆蓋率進行模型性能的評估。且作者在進行網絡訓練時使用了相同的超參數。下圖爲在圖報問題上的實驗結果:可以看到在輸入輸出維度相同的情況下:使用LSTM效果不理想;加入attention之後精度和區域覆蓋率得到顯著提升;使用指針網絡效果是最好的;而且指針網絡可以使用不同長度的序列進行訓練,去預測更長的序列的情況下的解,這是普通的seq2seq模型所不具備的

下圖爲旅行商問題的實驗結果:在上半部分的實驗中,指針網絡均取得了最優效果,值得注意的是n=50時,使用A1和A3是數據進行訓練,指針網絡取得了比其更優的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章