關於百度強化學習七日打卡營——一個菜鳥的學習感悟

1.剛開始第一個作業搭建環境PARL:
PARL是一個算法庫,是對Agent的框架抽象。簡單來說就是在一臺機器上調用pip install parl,就可以啓動集羣並行計算,使運算加速。

PS:心裏竊喜,對於我們小白,非常友好,因爲之前有機器學習的基礎,又經常白嫖 參加aistudio的活動,所以上手非常快,沒有兩分鐘就幹完了。

2.迷宮遊戲對比Sarsa和Q-learning
Sarsa的學習過程和Q-Learning差不多一樣,**不同的地方是Q-Learning在走下一步的時候是先看下一步應該走哪,但是最後不一定走,而Sarsa是決定完要走的步之後一定會去走那一步。**換句話說,Q-Learning在更新當前位置的Q值的時候會參考表中收益最大的那個值,但下一步不一定會走到那個位置,而Sarsa是先選取下一步要走的位置的Q值來更新當前位置的Q值,當然,選完它下一步一定會去走那一步。
Sarsa雖然說是說到做到,但是由於它選取下一步的位置是嚴格按照已有學習到的經驗來選擇,所以它探索未知位置的能力就會很差,相對於說了不一定算的Q-Learning來說,反而Q-Learning更勇敢一些。

PS:作業難度稍微增加,但是算法基礎還算在我本科生的理解範圍之內

3. DQN解決MountainCar
強化學習算法可以分爲三大類:value based, policy based 和 actor critic。常見的是以DQN爲代表的value based算法,這種算法中只有一個值函數網絡,沒有policy網絡,以及以DDPG,TRPO爲代表的actor-critic算法,這種算法中既有值函數網絡,又有policy網絡。
具體算法原理,我查了一下資料,直接甩鏈接吧: DQN算法原理

PS:可能是運氣好吧,第一次調參就成功了,看羣裏的小夥伴試了很多次都沒有成功。

4.PG解決Pong
PG算法的全稱是Policy Gradient,前面提到過強化學習算法可以分爲三大類,Policy-based的算法的典型代表爲Policy Gradient,直接優化策略函數。細節請移步:PG算法理解或者看科科老師的講解比較通俗易懂,B站關注百度飛槳。

PS:這個作業真正體驗到了煉丹的辛苦,由於電腦會崩潰,我不得不另闢蹊徑,於是我用我的樹莓派,低功耗煉丹,並且增加了訓練的回合數,直接跑3000次,經過一個晚上,跑到2900的時候心態崩了,還是沒有收斂,直到剛好跑到3000,奇蹟發生了,這麼多回合都是負數,最後一次居然是正數,心裏竊喜,興奮了一個晚上。

在這裏插入圖片描述

在這裏插入圖片描述

PS:最後要感謝人美心善代碼6的百度資深研發工程師科科老師通俗易懂的講解課程,雖然是快餐式的入門,但介紹了那麼多幹貨,下來夠琢磨一陣子了,不枉期末冒着掛科風險來參加這次課程o(╥﹏╥)o,加油,衝鴨,奧利給!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章