Day 2247:學習
(1)強化學習會試錯探索,它通過探索環境來獲取對環境的理解。
(2)強化學習智能體會從環境中獲得延遲的獎勵。
(3)在強化學習的訓練過程中,時間非常重要。因爲我們得到的是有時間關聯的數據(sequential data),而不是獨立同分布的數據。在機器學習中,如果觀測數據有非常強的關聯,會使得訓練非常不穩定。這也是爲什麼在監督學習中,我們希望數據儘量滿足獨立同分布,這樣就可以消除數據之間的相關性。
(4)智能體的動作會影響它隨後得到的數據,這一點是非常重要的。在訓練智能體的過程中,很多時候我們也是通過正在學習的智能體與環境交互來得到數據的。所以如果在訓練過程中,智能體不能保持穩定,就會使我們採集到的數據非常糟糕。我們通過數據來訓練智能體,如果數據有問題,整個訓練過程就會失敗。所以在強化學習中一個非常重要的問題就是,怎麼讓智能體的動作一直穩定地提升。
(2)強化學習智能體會從環境中獲得延遲的獎勵。
(3)在強化學習的訓練過程中,時間非常重要。因爲我們得到的是有時間關聯的數據(sequential data),而不是獨立同分布的數據。在機器學習中,如果觀測數據有非常強的關聯,會使得訓練非常不穩定。這也是爲什麼在監督學習中,我們希望數據儘量滿足獨立同分布,這樣就可以消除數據之間的相關性。
(4)智能體的動作會影響它隨後得到的數據,這一點是非常重要的。在訓練智能體的過程中,很多時候我們也是通過正在學習的智能體與環境交互來得到數據的。所以如果在訓練過程中,智能體不能保持穩定,就會使我們採集到的數據非常糟糕。我們通過數據來訓練智能體,如果數據有問題,整個訓練過程就會失敗。所以在強化學習中一個非常重要的問題就是,怎麼讓智能體的動作一直穩定地提升。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
C#開源的兩款功能強大的錄屏神器
追逐時光
2024-05-03 14:28:27
前端 Vue yarn.lock文件:詳解和使用指南
emanlee
2024-05-03 14:15:26
前端 Vue webpack配置之 webpack.config.js 文件配置
emanlee
2024-05-03 14:15:26
Vue package-lock.json的作用
package-lock.json的作用 "node_modules/@aashutoshrathi/word-wrap": { "version": "1.2.6", "resolved": "h
emanlee
2024-05-03 14:15:26
前端 Vue-cli中 vue.config.js 的配置詳解
Vue-cli 3 / Vue-cli 4 目錄結構 ├── README.md # 說明 |-- dist # 打包後文件夾 ├── babel.config.js
emanlee
2024-05-03 14:15:26
druid數據源 xml配置
tono
2024-05-03 14:14:55
JDK8和JDK17共存以及切換的方法
久曲健
2024-05-03 14:11:15
centos7修改redis密碼
久曲健
2024-05-03 14:11:15
基於SSM的在線外賣訂餐系統畢業設計論文【範文】
Lucky帥小武
2024-05-03 14:08:24
基於CodeMirror開發在線編輯器時遇到的問題及解決方案
致愛麗絲
2024-05-03 14:04:44
《軟件性能測試、分析與調優實踐之路》(第2版) PPT課件流出
掃描圖書前言中的如下圖所示的二維碼,即可進入到下載頁面。 如下圖所示即爲課件的下載頁面,免費提供下載
張永清
2024-05-03 14:01:24
AWS S3 Lambda Python腳本函數實現圖片自動轉換爲webp並上傳至s3
翎野
2024-05-03 13:51:42