對強化學習的幾點理解

    1.強化學習的本質是在大空間中尋找最優解,是介於窮舉和貪婪之間的一種探索機制,這種探索機制是學習得來的。

    2.強化學習的設計是用來解決離散問題的。

    3.“介於窮舉和貪婪之間”:不用窮舉可以減少搜索量,提升速度;不用貪婪可以儘量避免局部最優解。因此可以說是在計算時間與全局最優之間的權衡。

    4.最難是建模,弄清楚什麼是狀態空間,什麼是動作空間,什麼是轉移概率,什麼是獎勵函數就夠了。理解了問題本質,萬事皆可盤。

    5.感覺自己像個馴獸員,在教電腦演雜技。做強化學習跟訓練我們家狗子有什麼本質區別。。。。。。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章