-------------------------------------------------------------------------------------------------------

【李宏毅深度強化學習】視頻地址：https://www.bilibili.com/video/av63546968?p=7

課件地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

-------------------------------------------------------------------------------------------------------

在強化學習的訓練過程中，當環境的reward很少時（指出現的次數），這樣對agent的訓練是很不利的。比如，讓一個機器人拿起螺絲刀，再把螺絲擰進去才能得到reward。這一系列操作組合起來對於一個一開始什麼都不懂的機器人無疑是很難的，因爲它一開始不管做什麼動作都不會得到reward，即便有exploration也只有極小的機率能成功獲得reward。

所以下面介紹幾種方法來處理這種Sparse Reward的方法。

1、Reward Shaping

既然環境的reward很稀疏，那我們就自己設定一些假的reward去引導agent往我們想要的方向。

舉個例子，這裏agent是這個小孩。它有兩個動作，如果選擇出去玩，短時間內能得到reward +1，但是之後的考試可能很很差（reward -100）；如果選擇學習，短時間內可能會不爽，所以reward是-1，但是之後能獲得reward +100。

所以，爲了引導這個小孩（agent）能往去好好學習，就會騙他說坐下來念書給棒棒糖吃，所以對他來說下一個時間點的reward就變成+1。然後他就會選擇學習這個動作，即便這個reward不是實際存在的。

這是一個比較簡單的例子，所以比較容易假設。而在現實中要引導agent需要設定正確的reward才能得到好的訓練效果，這個reward可能不是很直觀就能想到的。

所以下面要介紹一些比較通用的可以加進去reward。

Curiosity

由於環境中的reward很少，導致agent不知道要幹嘛，一直在裏面瞎轉。所以要製造一些reward使這個agent去探索一些沒做過的事情，其實這是一種exploration的技術。

以論文（https://arxiv.org/pdf/1705.05363.pdf）中的提到的例子，在Mario遊戲中，智能體(Mario)純粹利用好奇心進行探索，而不從殺死敵人或者躲避危險中得到任何激勵信號。這樣的智能體仍然學會了如何殺死敵人和躲避攻擊。原因是因爲被敵人殺掉會導致智能體只能看到一小部分的遊戲空間，從而迅速導致其好奇心飽和。爲了保持"好奇心"，智能體必須學會殺死敵人和躲避危險，以到達更多更新的遊戲空間。（此段落參考博文：https://blog.csdn.net/triplemeng/article/details/84912694）

下面看具體的過程：

左圖是之前的圖，以在執行獲得。然後累加整個過程的作爲total reward。

右圖是加入Curiosity技術的ICM模塊的圖，ICM以，， $s_{t+1}$ 爲輸入，輸出一個，然後累加整個過程的，的總和作爲total reward。所以現在不僅希望越大越好，還希望也越大越好。

ICM的設計

輸入到ICM的，作爲模塊中的一個網絡Network 1的輸入，去預測接下來會遇到的狀態，然後和實際下一個狀態去作對比。預測的狀態和實際的狀態越不像，這個reward就越大，所以agent就會越傾向於去冒險以滿足自己的好奇心。

注意：其中的Network 1是另外訓練出來的，訓練好後在ICM中運用的時候，它的參數是被固定住的。

這是ICM最原始的樣子，但是這是不夠的。因爲在實際中，有一些state雖然難預測，但是不代表就要讓agent往這些state靠近，有可能這些state是無關緊要的。比如agent站下樹下看樹葉飄動，而樹葉飄動很難預測，但是由於好奇心驅使就導致agent一直站在原地看樹葉飄動了。。

所以需要讓agent知道哪些事情纔是應該要關注的。

在剛纔的基礎上，再增加Feature Ext這個網絡，Feature Ext先把、 $s_{t+1}$ 變爲 $\Phi (s_t)$ 、 $\Phi (s_{t+1})$ （這一步可以理解爲把狀態輸入CNN後把遊戲畫面變成電腦看得懂的東西），再送到Network 2去預測由跳到 $s_{t+1}$ 需要執行的動作。把和實際做的動作作對比，如果比較接近則說明、 $s_{t+1}$ 是有用的狀態；如果相差較大，則說明、 $s_{t+1}$ 是和agent要採取的動作無關的沒用場景，這時就把這些狀態過濾掉。