時間差分
背景
時間差分學習簡稱TD學習,和蒙特卡洛一樣,他也從Episode學習,不需要了解模型本身,但是它可以學習不完整的Episode。
模型狀態轉移及獎勵的情況下,學習不完整的軌跡,通過貝爾曼遞推公式(自舉的方法)求取值函數,獲得最優解。。
優點:可在線實時學習,可學習不完整的軌跡。比較適用於控制工程。
同策略VS異策略
同策略:產生採樣的策略和評估控制的策略是同一個策略。
異策略:產生採樣的策略和評控制的策略是不同的策略。比較容易的從人類經驗或其他個體的經驗中學習,有人可以從一些舊的策略中學習,可以比較兩份策略的優劣,其中可能也是最主要的原因就是遵循一個探索式策略的基礎上優化現有得策略。
同策略時間差分:
算法步驟;
Step1:算法輸入Initialize S,迭代次數 T,狀態集合 S,動作集合 A,即初始化。
Step2.Choose A from S從當前狀態下所選擇的動作;
Step3.Take action A,observe R,S’,狀態執行當前動作,得到新的狀態 S’ 和新的獎勵 R;
Step4:更新價值函數;
Step5:把下一個狀態重新賦值一個新的狀態。