李宏毅:RL and GAN for sentence generation and chat-bot

1、review

1)chat-bot

2)encoder

把之前的information另做encoder,目前的這句話單獨做encoder,再把兩者合併,放入generator。

3)generator

4)training generator

訓練的時候input的是reference。condition from encoder不是decoder

2、RL(reinforcement learning強化學習) for sentence generation

θ其實隱含了。

某一個response是對的,我們就增加這件事發生的機率,如果這個response是錯的,我們就減少這件事發生的機率。比如:說這個response比較好,那我們給的reward就高一點(假設4分),如果response很一般就給低一點的分數(假設1分),那我們在training的時候就可以把擁有比較好response的duplicate 4次,比較差的response duplicate 1次。

可能會導致有一個case(h,x1)沒有被sample到,導致它的reward會下降(因爲他們的概率值之和要爲1),解決方法:就是把你的reward減去一個正值b,讓這一項是有正有負的。

因爲(h,x2)的reward是比較小的,加了baseline以後,它的值會下降。

3、alpha go style training

4、sequence GAN

1)basic idea:sentence generation

2)basic idea:chat bot

用一般的GAN沒法做backpropogation。

用WGAN:

用reinforcement learning

本來是對每一句話一個reward,現在是對每一句話的每一個word一個reward。

teacher forcing

3)seqGAN的應用

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章