人智导（六）：“不可测”问题的求解

原創

2020-07-02 17:48

人智导（六）：“不可测”问题的求解

动作效果的不确定性

如图所示：

智能体不能确切地直到其动作的效果，可能有多个结果状态
- 表示为： $[s_1,\dots ,s_n]=result(s_0,a)$
- 动作效果不确定，需要与环境交互
在执行动作之前，智能体需要计算所用结果状态的概率 $P(s_i|a)$
动作的期望效用(Expected Utility)： $EU(a)=\Sigma_iP(s_i|a)V(s_i)$
- 状态价值函数 $V(s)$ ：状态到实数值的映射
- 智能体应当选择当前状态下具有最大期望效用(MEU)的动作

最优策略

动作后续状态确定(deterministic)的搜索问题
- 发现最优(optimal)plan，从初始状态到目标状态的一个动作序列
动作后续状态不确定(nondeterministic)
- 发现一个最优(optimal)policy $\pi ^* :s\to a$
- policy策略为一个状态确定应采取的动作(what to do)
- 最优的policy是满足MEU的

不确定条件下的搜索问题

如图：

“不可测”问题
- 目标导向(goal-seeking)
- 与环境交互，只有动作执行后才能确定后续状态
- 趋向目标的累计回报(reward)，而非动作直接的回报值
求解方法
- 发现最优policy策略 $\pi ^*: s\to a$
- 即在任何一个状态 $s$ ，确定趋向目标的最佳动作 $a$
- 定义Q-state状态表示（计算）EU

与环境交互模型

如图：

定义三个本体元素：
状态(state)、动作(action)、回报(reward)
智能体所面对的问题：
与环境交互中确定动作的后续状态，达到目标

马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process)：

一个状态(state)集合： $S$
一个动作(actions)集合： $A$
一个后继函数 $T(s,a,s')$ ，且从状态 $s$ 到 $s'$ 的概率为 $P(s'|s,a)$
一个回报(reward)函数： $R(s,a,s')$
初始状态 $s_0$
一个或多个目标（结束）状态

马尔可夫过程

基本性质

无记忆性(memoryless)
动作和后继状态仅取决于当前所在状态，与之前的状态无关
$P(S_{t+1}=s'|S_t=s_t, A_t=a_t,S_{t-1}=s_{t-1},A_{t-1},\dots ,S_0=s_0)=P(S_{t+1}=s'|S_t=s_t,A_t=a_t)$
正如标准搜索模型，后续函数仅依赖于当前状态

Markov搜索树

如图：

MDP：求解动作效果不确定问题

对任意状态 $s$ 下的动作选择： $policy~\pi^*(s):s\to a$
任意状态 $s$ 选这样的动作，使得价值函数 $V(s)$ 计算累计回报(sum of rewards)期望最大化

如何选择最优动作

对任意一个状态 $s$ ，都通过价值函数对应一个值
$V(s)=$ 累计回报最大期望值{目标状态 $V$ 值为0}
最优策略： $\pi ^* =arg_{\pi}~max~V^{\pi}(s),(\forall s)$

示例：

如上图
$V_0=max_{a\in 1, \dots ,N}(r_a+\gamma V_a)$

非确定动作的最大期望值（如下图） $V_0=max_{a\in A}\Sigma _{s\in S}P_{a, s_0\to s}(r_s+\gamma V_s)$
同时体现了当前动作对后续进程的影响 $V^{\pi}(s_t)=r_t +\gamma r_{t+1} +\gamma^2r_{t+2}+\dots =\Sigma^{\infty}_{i=0}\gamma ^i r_{t+i}$

引入 $Q(s,a)$ 状态表示

状态 $s$ 及其状态值： $V(s)=$ 始于 $s$ 按最优策略行动的累计回报
$Q(s,a)$ 的值： $Q(s,a)=EU(a)$ ，在 $s$ 状态下执行 $a$
最优策略policy: $\pi ^* (s)$ $\pi ^*=arg_{\pi}max~V^{|pi}(s),(\forall s)$

最优策略的计算

有如下等式 $(0\le \gamma\le 1)$ : $V(s)=max_a ~Q(s,a)$ $Q(s,a)=\Sigma_{s'}P(s,a,s')[r(s,a,s')+\gamma V(s')]$ $(Bellman~equation)~V(s)=max_a\Sigma_{s'}P(s,s,s')[r(s,a,s')+\gamma V(s')]$
迭代计算： $V_{k+1}(s) \leftarrow max_a\Sigma_{s'}P(s,a,s')[r(s,a,s')+\gamma V_k(s')]$
状态值迭代计算方法：

状态空间：
$S=\{s_1, \dots ,s_n\}$
Bellman方程组（每个状态对应一个方程）：
$\left[ \begin{matrix} V_{s1}\\ \vdots \\ V_{sn} \end{matrix} \right] = \left[ \begin{matrix} P_{11} &\cdots &P_{1n}\\ \vdots &\ddots &\vdots \\ P_{n1} &\cdots &P_{nn} \end{matrix} \right] \left[ \begin{matrix} V_{s1}\\ \vdots \\ V_{sn} \end{matrix} \right]$
其中：
$P_{ij}=\begin{cases}p_{i\to j} &if~j\in successor(i) \\ 0 & otherwise \end{cases}$
向量表示：
$V_{k+1} = PV_k$
初始条件：
$V_0=\left[\begin{matrix}0\\ \vdots \\0 \end{matrix}\right]$

举例

问题：

MDP搜索树：

迭代计算：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人智导（六）：“不可测”问题的求解

人智导（六）：“不可测”问题的求解

动作效果的不确定性

最优策略

不确定条件下的搜索问题

与环境交互模型

马尔可夫决策过程

马尔可夫过程

基本性质

Markov搜索树

如何选择最优动作

引入 $Q(s,a)$ 状态表示

最优策略的计算

举例

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

2019.5.32

人智導（十）：迴歸方法的擴展

2019.5.33

人智導（九）：迴歸方法的精化

2019.4.34

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

人智导（六）：“不可测”问题的求解

人智导（六）：“不可测”问题的求解

动作效果的不确定性

最优策略

不确定条件下的搜索问题

与环境交互模型

马尔可夫决策过程

马尔可夫过程

基本性质

Markov搜索树

如何选择最优动作

引入Q(s,a)Q(s,a)Q(s,a)状态表示

最优策略的计算

举例

引入 $Q(s,a)$ 状态表示