Disentangling the independently controllable factors of variation by interacting with the world


發表時間:2018(Learning Disentangled Representations, NIPS 2017 Workshop)
文章要點:這篇文章想說,可以分解出獨立的可控的各種因素的表徵才叫好的representation,作者就說通過policy和環境交互的過程是可以實現這種表徵的。具體的,作者定義了一個度量標準來作爲policy學習的reward

這裏\(h\)是經過編碼的初始狀態,\(h^\prime\)是經過編碼的終止狀態,\(\phi\)代表變化的因子。\(A\)就度量由\(\phi\)造成的\(h,h^\prime\)之間的變化。

作者還舉了個開關燈的例子來解釋

然後訓練policy的目標就是找一個最大化相應表徵的策略

總結:感覺也過於抽象了吧,感覺很高深,但是又感覺啥都沒講,完全看不懂啊。而且最後還掛了Yoshua Bengio的名字,估計還是我太菜了。
疑問:裏面這個訓練過程也沒細說,實驗部分也不知道在幹啥。不過作者還是個實在人,直接就說不好訓

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章