關於百度強化學習七日打卡營——一個菜鳥的學習感悟

原創

2020-07-05 08:06

1.剛開始第一個作業搭建環境PARL：
PARL是一個算法庫，是對Agent的框架抽象。簡單來說就是在一臺機器上調用pip install parl,就可以啓動集羣並行計算，使運算加速。

PS:心裏竊喜，對於我們小白，非常友好，因爲之前有機器學習的基礎，又經常白嫖參加aistudio的活動，所以上手非常快，沒有兩分鐘就幹完了。

2.迷宮遊戲對比Sarsa和Q-learning
Sarsa的學習過程和Q-Learning差不多一樣，**不同的地方是Q-Learning在走下一步的時候是先看下一步應該走哪，但是最後不一定走，而Sarsa是決定完要走的步之後一定會去走那一步。**換句話說，Q-Learning在更新當前位置的Q值的時候會參考表中收益最大的那個值，但下一步不一定會走到那個位置，而Sarsa是先選取下一步要走的位置的Q值來更新當前位置的Q值，當然，選完它下一步一定會去走那一步。
Sarsa雖然說是說到做到，但是由於它選取下一步的位置是嚴格按照已有學習到的經驗來選擇，所以它探索未知位置的能力就會很差，相對於說了不一定算的Q-Learning來說，反而Q-Learning更勇敢一些。

PS:作業難度稍微增加，但是算法基礎還算在我本科生的理解範圍之內

3. DQN解決MountainCar
強化學習算法可以分爲三大類：value based, policy based 和 actor critic。常見的是以DQN爲代表的value based算法，這種算法中只有一個值函數網絡，沒有policy網絡，以及以DDPG,TRPO爲代表的actor-critic算法，這種算法中既有值函數網絡，又有policy網絡。
具體算法原理，我查了一下資料，直接甩鏈接吧： DQN算法原理

PS:可能是運氣好吧，第一次調參就成功了，看羣裏的小夥伴試了很多次都沒有成功。

4.PG解決Pong
PG算法的全稱是Policy Gradient，前面提到過強化學習算法可以分爲三大類，Policy-based的算法的典型代表爲Policy Gradient，直接優化策略函數。細節請移步：PG算法理解或者看科科老師的講解比較通俗易懂，B站關注百度飛槳。

PS:這個作業真正體驗到了煉丹的辛苦，由於電腦會崩潰，我不得不另闢蹊徑，於是我用我的樹莓派，低功耗煉丹，並且增加了訓練的回合數，直接跑3000次，經過一個晚上，跑到2900的時候心態崩了，還是沒有收斂，直到剛好跑到3000，奇蹟發生了，這麼多回合都是負數，最後一次居然是正數，心裏竊喜，興奮了一個晚上。

PS：最後要感謝人美心善代碼6的百度資深研發工程師科科老師通俗易懂的講解課程，雖然是快餐式的入門，但介紹了那麼多幹貨，下來夠琢磨一陣子了，不枉期末冒着掛科風險來參加這次課程o(╥﹏╥)o，加油，衝鴨，奧利給！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於百度強化學習七日打卡營——一個菜鳥的學習感悟

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

關於百度強化學習七日打卡營——一個菜鳥的學習感悟

一個大二窮屌絲利用端午節一文錢都不花自建一個服務器

小程序插入激勵視頻廣告例子

如何用100多行python代碼寫昆明

人臉識別馬賽克

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結