強化學習
知識回顧
- 機器學習方法
強化學習
馬爾可夫決策
- S是離散狀態;A可能是離散,也可能是連續的;P通常用來描述模型
- 馬爾可夫假設:狀態不斷轉移,隨着時間可以寫成St→St+1→St+2,而在St+2這個時間段時若給定了St+1狀態,那麼它跟St及以前的狀態是沒有關係的。
- 在馬爾可夫決策過程中,最終需要求解一個策略,它是行動和狀態之間的映射,分爲確定性策略和隨機性策略
- 目標
強化學習的方法分類
- 狀態價值函數
- 狀態-行動價值函數
QLearning
- 引入參數學習
- 基於策略方法
小結
- 機器學習/數據科學的知識體系
數學方面:微積分,概率論,優化方法,統計學
計算機方面:python,數據結構與算法,數據庫
數據方面:數據採集,數據管理,數據清洗,數據可視化,分佈平臺(Hadoop,Spark,Flink)
行業認識:對涉及的領域要有一定的理解,並將其他知識融入進去
- 學習建議