人工智能教程 - 專業選修課程4.3.12 - 高級人工智能 5.多臂賭博機

多臂賭博機(Multi-armed bandit)

在這裏插入圖片描述

問題形式化

在這裏插入圖片描述

使用貪心策略

在這裏插入圖片描述

利用和探索

在這裏插入圖片描述

貪心策略和ε\varepsilon貪心策略

在這裏插入圖片描述

例子

在這裏插入圖片描述

行爲估值方法

在這裏插入圖片描述

行爲估值的增量式實現

在這裏插入圖片描述
貪心策略的算法僞代碼
在這裏插入圖片描述


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章