機器學習十講第十講

強化學習

知識回顧

  • 機器學習方法

1624635441149

強化學習

1624635488033

馬爾可夫決策

1624635543749

  • S是離散狀態;A可能是離散,也可能是連續的;P通常用來描述模型
  • 馬爾可夫假設:狀態不斷轉移,隨着時間可以寫成St→St+1→St+2,而在St+2這個時間段時若給定了St+1狀態,那麼它跟St及以前的狀態是沒有關係的。
  • 在馬爾可夫決策過程中,最終需要求解一個策略,它是行動和狀態之間的映射,分爲確定性策略和隨機性策略

1624635658063

  • 目標

1624635702670

強化學習的方法分類

1624635805753

  • 狀態價值函數

1624635858500

  • 狀態-行動價值函數

1624635889634

QLearning

1624635961545

  • 引入參數學習

1624635989982

  • 基於策略方法

1624636039106

小結

  • 機器學習/數據科學的知識體系

數學方面:微積分,概率論,優化方法,統計學

計算機方面:python,數據結構與算法,數據庫

數據方面:數據採集,數據管理,數據清洗,數據可視化,分佈平臺(Hadoop,Spark,Flink)

行業認識:對涉及的領域要有一定的理解,並將其他知識融入進去

  • 學習建議

1624636130907

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章