Abstract

Lecture 1主要是對強化學習整體的一個簡單介紹，描述了強化學習的概念，有哪些組成部分，能夠解決什麼問題，RL框架有哪些類別等。在這一講中我們僅需要對強化學習有一個大概的認識即可。

1. 強化學習的特點

強化學習不同於監督式學習與非監督式學習：

強化學習訓練時不存在監督者，只有獎勵信號；
反饋結果是滯後的，不是實時得到的；
數據是具有時序性的，不是獨立同分布（IID）的；
Agent 的動作會影響到之後所獲取到的數據，即這是一種主動學習過程。

強化學習的應用廣泛：如直升機特技飛行、經典遊戲、投資管理、發電站控制、讓雙足機器人行走等。

2. 強化學習的組成要素

2.1 Reward（獎勵）

強化學習中最重要的信息之一就是Reward。

Reward $R_t$ 是一個標量反饋信號；
Reward 告訴我們Agent 在第 t 步做的怎麼樣；
Agent 的工作是最大化累計Reward。

強化學習是基於”獎勵假設”的：所有問題解決的目標都可以被描述成最大化預期累積獎勵。

Sequential Decision Making

強化學習框架的目標是通過選擇不同的動作以實現最大化總的未來獎勵；
動作所產生的結果可能是長期性的；
動作所獲得的獎勵可能是滯後的；
爲了獲得更多的長期獎勵，可能需要放棄眼前的即時獎勵。

2.2 Agent（智能體）與 Environment（環境）

Agent與environment間的交互關係如下所示

2.3 Histor（歷史）和State（狀態）

History 是目前 Agent 所知道的東西，即一系列的觀察、動作與獎勵。 $H_t=O_1, R_1, A_1, ..., A_{t-1}, O_t, R_t$ ，即直到時間步t的所有觀察到的變量（Agent感官儀器獲取到的數據流）；
History 決定了接下來將會發生的事情；
– Agent 根據 History 選擇 Actions；
– Environment 根據 History 選擇 observations/rewards。
History 信息量往往會很大，我們希望 Agents 可以在很短的時間內進行交互。因此我們一般研究的是狀態 State，State 是對歷史信息的總結，是 History 的函數， $S_t=f(H_t)$ 。

State 具體可分爲三種：
(1) Environment state

根據 Environment state 我們可以知道接下來會發生什麼，以獲取下一步的 observation/reward；
Environment state 對於 Agent 並不總是可見的；
Environment state 可能包含不相關信息；

(2) Agent state

Agent state 決定了下一個 Action，即我們的決策算法是作用於Agent state上的。Agent state是前述history的函數，我們可以選擇建立我們的映射函數，這是 Agent 的一部分，Agent 決定採用哪一個函數，如何將history、action、observation和reward聯繫起來，並將有用的信息保存下來。

(3) Information state（Markov state）

Markov 性指的是下一時刻的狀態僅由當前狀態決定，與過去的狀態並沒有太大關係，即可拋棄 History。Markov 狀態包含了足夠多的信息來得出未來的所有獎勵。Markov的強大之處在於當定義 History 具備 Markov 性時它就不需要佔據太大的空間。

例如環境狀態是Markov的，因爲環境狀態包含了環境決定下一個觀測/獎勵的所有信息；同樣，（完整的）歷史 $H_{t}$ 也是馬爾可夫的。

Fully Observable Environments：

Agent 能夠真正地觀測到環境狀態的變化，即 Environment state 映射關係已知。另一種說法即Agent state與 Environment state相同。

Partially Observable Environments：

Agent並不能知道環境的所有信息。

Agent 必須構建它自己的狀態呈現形式：

記錄完整的歷史數據： $S^{a}_{t} = H_{t}$ ；
利用已有經驗知識（數據），用各種智能體已知狀態的概率分佈作爲當前時刻智能體狀態的估計；
構建當前時刻智能體狀態和觀測的多項式，輸入到循環神經網絡中得到一個當前智能體狀態的估計。

3. Agent（智能體）的組成要素

強化學習中的智能體可以由以下三個組成部分中的一個或多個組成：

Policy

Policy就是我們需要學習得到的東西，它不一定是確定的，也可以是隨機的。
Value function

我們可以爲Value function中未來時間步可能獲得的Reward加上權重以告訴模型更重視眼前的Reward。
Model
智能體對環境的建模，智能體通過模型模擬環境與智能體的交互機制。
一般而言model可以分爲transition model（ $P$ ）和reward model（ $R$ ），前者用於預測環境的動態變化，後者用於估計我們得到的獎勵；
從transition model公式中可以看出，其根據先前的狀態和動作預測環境所處下一個狀態的概率；
從Reward model 的公式中可以看出，預期的獎勵是基於先前的狀態與動作的。
（如今很多強化學習方法都是基於無模型的）