李宏毅:Pointer Network

1、

2、下圖所示:input 4個data point的座標,得到一個紅色的vector,再把vector放到decoder中去,得到distribution,再做sample(比如做argmax,決定要輸出token 1...),最終看看work不work,結果是不work。比如:訓練的時候有50 個點,編號1-50,但是測試的時候有100個點,但是它只能選擇 1-50編號的點,後面的點就選不了了。

改進:attention,可以讓network動態的決定輸出的set有多大

x0,y0代表END這些詞,每一個input都會得到一個attention的weight=output的distribution。

3、application:summarization;machine translation;chat-bot

上圖中:如果用seq-to-seq可能不能認出人名、地名等詞,如果用pointer network就可以從input中選擇一些詞彙直接貼到response中去。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章