【強化學習】百度Paddle7日打卡營學習心得

【前言】

挺想爲每一個課節的學習內容都做個介紹,但是最近太忙沒時間弄,加上還是想後面深入理解透了再說。簡單做個心得記錄,順便開個坑篇

【認識強化學習】

智能的核心:與環境中交互學習
在這裏插入圖片描述

像人一樣的自學?

環境:已知的→規劃、未知的→探索和試錯‘

核心思想:

智能體agent 在環境environment 中學習,根據環境的狀態 state ,執行動作action 並根據環境的反饋 reward(獎勵)來指導更好的動作
在這裏插入圖片描述

強化學習和其他機器學習關係

在這裏插入圖片描述

Agent學習的兩種方案

在這裏插入圖片描述

RL經典模型

在這裏插入圖片描述

Agent 與 environment進行交互的方法

快速搭建,採用百度PARL框架
在這裏插入圖片描述

求解RL方法

(後面再開篇說)
1.基於表格型方法求解
2.基於神經網絡方法
3.基於策略梯度求解
4.連續動作空間上求解

基本學習框架的主要內容差不多,感受:科科老師是我的智慧女神,講的實在太好了,淺顯易懂。適合入門有個初步把握,對於後面深入學習心裏有底

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章