人工智能教程 - 專業選修課程4.3.5 - 強化學習 3.行動決策,價值函數,模型,迷宮問題

原創

KuFun人工智能

2020-03-01 13:05

行動決策 policy

行動決策 A policy is the agent’s behaviour
是狀態到行動的映射 It is a map from state to action, e.g.
選擇的決策 Deterministic policy: $a = \pi(s)$
隨機的解決 Stochastic policy： $\pi (a|s)=P[A_t = a|S_t = s]$

價值函數 Value Function

對於未來獎勵的預測。Value function is a prediction of future reward
有兩個狀態的話，如何在狀態1和狀態2做出選擇，他們又分別代表着行動1和行動2，需要根據我們的偏好進行，而偏好又是由期望得到最大的獎勵。Used to evaluate the goodness/badness of states
And therefore to select between actions, e.g.

$V_{\pi}(s)=\mathbb{E}_{\pi}[R_t+\gamma R_{t+1}+\gamma ^2 R_{t+2}+...|S_t=s]$

model (不是必須項)

模型對於下一步的行動很有好處。A model predicts what the environment will do next
1).狀態轉換模型 Transitions model :預測下一個狀態的環境的動態變化 P predicts the next state
$\LARGE P_{ss'}^a =\mathbb{P}[S'=s'|S=s,A=a]$
2).獎勵模型 Rewards model :R predicts the next (immediate) reward, e.g.
$\LARGE R_{s}^a =\mathbb{E}[R|S=s,A=a]$

迷宮的例子

迷宮行動決策 policy

迷宮價值函數

迷宮model

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 7.在線算法,貪心算法,完美匹配

在線算法 on-line 在線on-line 算法通常會包含一個“貪心算法”(greedy)的方法算法的工作流程：一開始先進行離線 off-line 算法首先，將算法所需要的所有數據準備好然後，算法以任意次序訪

KuFun人工智能

2020-07-01 03:14:58

人工智能筆記之專業選修課4.1.5 - 博弈論 1.退避機制，博弈基本概念，重要元素，形式

博弈論 Game Theory 博弈論研究的是自利者(self-interested)的策略性互動。博弈論應用及其廣發，在經濟學，計算機科學，政治學，心理學以及其他學科都非常重要。同時我們需要考慮這些互動如何去結構化

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

無模型預測 Model-Free Prediction 蒙特卡羅強化學習 Monte-Carlo Reinforcement Learning 從經歷完整的經驗序列來估計狀態值 MC methods learn directly

KuFun人工智能

2020-07-01 03:14:58

人工智能筆記之專業選修課4.1.5 - 博弈論 2.經典囚徒困境等經典博弈場景

經典囚徒困境兩個囚徒選擇合作或不合作？不合作被稱爲背叛(defect) 如果他們合作他們得到結果A 如果都背叛他們會得到另一個結果D 不過A比D更優然而如果他們合作失敗其中一方選擇合作一方背叛

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 8.推薦系統,大數據注意事項

推薦系統分類基於內容的系統(Content-Based System) 目前的主流這類系統主要考察的是推薦項的性質。例如，如果一個用戶觀看了同一類型的電影的多部電影，那麼系統就會將數據庫中的同一類型的電影推薦給該用戶。

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 1.介紹

數據挖掘數據包含價值(value)和知識，而我們要做的事就是要提取知識數據需要三部分： 1.存儲（系統課程） 2.管理（數據庫課程） 3.分析數據 ANALYZED (此數據挖掘課程的目標) 數據挖掘 ≈ 大數據 ≈ 預測分析

KuFun人工智能

2020-07-01 03:14:58

人工智能筆記之專業選修課4.1.5 - 博弈論 3.納什均衡

納什均衡分析凱恩斯的選美比賽博弈每個玩家都選擇1到100之間的一個整數然後你有一羣參與者那個選擇的整數最接近平均數的2/3的人贏得這個比賽其餘人一無所得平局會按均勻分佈隨機確定勝者策略推理第一次遊戲

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 5.PageRank技術

PageRank技術使用PageRank技術可以用來對抗詞項作弊(term spam)。問題：詞項作弊。是一種欺騙搜索引擎讓其相信一個本來不相關的頁面，使其排名靠前的技術。解決方案：使用PageRank技術來模擬web衝浪者

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 3.關聯規則,頻繁項集

關聯規則探索目標：確定同時購買的幾樣物品方法：處理通過以下渠道收集的銷售數據條形碼掃描儀以查找依賴關係經典法則：如果有人購買尿布和牛奶，那麼他/她就可能買啤酒如果在尿布旁邊發現六包，不要感到驚訝！定義頻繁

KuFun人工智能

2020-07-01 03:14:58

人工智能筆記之專業選修課4.1.5 - 博弈論 4.佔優，帕累托最優理論，混合策略

佔優帕累托最優理論帕累托最優的定義經典博弈中的帕累托最優混合策略：

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.5 - 強化學習 11.價值迭代,預測和控制問題解決方案彙總

最優化原則 Principle of Optimality 價值迭代的定義 Value Iteration 反覆的迭代的過程。最短路徑的例子此類情況是在不知道終點在哪兒的情況。從初始狀態0開始出發，逐步擴散迭代直到找到

KuFun人工智能

2020-07-01 03:14:58

人工智能教程 - 專業選修課程4.3.5 - 強化學習 4.智能體分類,規劃,預測和控制等簡介

智能體分類 Categorizing RL agents 基於價值 Value Based No Policy (Implicit) Value Function 基於行動決策 Policy Based Polic

KuFun人工智能

2020-07-01 03:14:58

人工智能筆記之專業選修課4.1.5 - 博弈論 6.嚴格劣勢策略

嚴格劣勢策略 strictly dominated strategies 在穩定性和預測上analyzing games in terms of stability, in terms of predicting. ，人們可以想到

KuFun人工智能

2020-06-15 06:07:44

人工智能筆記之專業選修課4.1.5 - 博弈論 8.完全信息擴展式博弈，子博弈

完全信息擴展式博弈 perfect information extensive-form games 是一種涉及時間的博弈。回想一下規範式博弈模型當中，所有參與者同時採取行動。這意味着很難用它們考慮人們要按順序做事的一些

KuFun人工智能

2020-06-15 06:07:44

人工智能筆記之專業選修課4.1.5 - 博弈論 10.博弈學習，虛構博弈簡介，無悔學習簡介，後悔匹配簡介

博弈學習 (learning) 我們會看學習在重複博弈中的兩種學習類型虛構博弈 (fictitious play) 無悔學習(no-regret learning) ，尤其是一個算法叫後悔匹配 (regret match

KuFun人工智能

2020-06-15 06:07:34

24小時熱門文章

最新文章

最新評論文章