百度飛槳從零實踐強化學習第四天
這裏是三歲,這裏吧第四的素材和資料整理了一下,大家康康,有什麼不足的歡迎提出,批評指正!!!
基於策略梯度求解RL
Value-based vs policy-based
Value-based
Value-based 是基於價值的,屬於一種確定性策略
在計算時先求出Q的值然後把Q網絡調到最優以後用間接方式輸出action,屬於確定性的策略,
policy-based
policy-based 是基於策略的,屬於一種隨機策略
policy-based使用神經網絡擬合直接一步到位求出action輸出的是一種概率最後是一種隨機的策略。適用於隨機性比較大的項目。
πθ(at|st)代表在st的轉態下輸出at的概率有多大、所有的概率之和爲一,概率越大的越容易被採樣到。
爲了輸出概率會在神經網絡最後加上一個softmax的函數。將多個輸出映射到一個(0,1)的區間中去,可以看成是一個概率。
整個優化的目的是爲了使每一個Episode(幕)可以理解爲每一場比賽,的總的reward(分數,利益)最大化
軌跡Trajectory
智能體的選擇是我們需要優化的策略,智能體不斷的和環境發生交互,在不同的環境中隨機選擇最好的策略,已獲得最好的結果,然而環境是不可選擇的,只能夠不斷的在交互過程中選擇最好的策略。
一條智能體的選擇與環境的交互選擇連起來直到結束成爲一條軌跡也就相當於這個episode的結束。
期望回報
當求出所有的軌跡的回報值(收益)的時候可以求出來他的平均回報值,通過該回報值來判斷該策略的好壞。
但是因爲策略軌跡太多了是無窮的所以採用了採樣的方式來獲取,當數據樣本足夠大的時候就可以近似爲平均回報。
優化策略
-
Q網絡
Q的預測值和Q的預期值進行對比要求Loss越低越好,越低距離預期越遠。 -
policy 網絡
由於policy網絡的策略梯度是沒有預期值的所以就需要上面說到的期望回報,只有結果越高才能夠有更大的收益。通過軌跡的收益,不斷強化網路,促使收益高的出現概率更高。
蒙特卡洛MC與時間差分TD
- 蒙特卡洛 回合更新制度,每一回合進行一次更新
- 時序差分 爲每一步都更新
PEINFORCE
先產生一個回合的數據,利用公式計算每一回合的總收益,用來更新網絡
以上基本上就是今天的理論知識啦,這裏是三歲,有是和你白話的一天,希望大家多多支持,點贊關注收藏評論,有問題可以私聊呦!!!