Disentangling the independently controllable factors of variation by interacting with the world


发表时间:2018(Learning Disentangled Representations, NIPS 2017 Workshop)
文章要点:这篇文章想说,可以分解出独立的可控的各种因素的表征才叫好的representation,作者就说通过policy和环境交互的过程是可以实现这种表征的。具体的,作者定义了一个度量标准来作为policy学习的reward

这里\(h\)是经过编码的初始状态,\(h^\prime\)是经过编码的终止状态,\(\phi\)代表变化的因子。\(A\)就度量由\(\phi\)造成的\(h,h^\prime\)之间的变化。

作者还举了个开关灯的例子来解释

然后训练policy的目标就是找一个最大化相应表征的策略

总结:感觉也过于抽象了吧,感觉很高深,但是又感觉啥都没讲,完全看不懂啊。而且最后还挂了Yoshua Bengio的名字,估计还是我太菜了。
疑问:里面这个训练过程也没细说,实验部分也不知道在干啥。不过作者还是个实在人,直接就说不好训

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章