台部落从流域到海域

MDP Control 在這節內容裏我們不討論如何學習策略，我們僅僅探討計算最佳策略。計算最佳策略和計算最佳價值都屬於MDP Control。計算最佳策略 π∗(s)=argmaxπVπ(s)\pi^*(s)=\math

2020-06-23 13:35:43

Monte Carlo Tree Search 爲什麼要學習MCTS 一部分原因是過去12年AI最大的成就莫過於Alpha Go，一個超越任何人類的圍棋玩家引入基於模型的RL思想和規劃(planning)的好處 Introu

2020-06-23 13:35:43

這篇博文中的Imitation learning關注於和強化學習的結合，但imitation learning自身其實是一個獨立的概念。這篇博文面向強化學習，如果你單純想了解imitation learning，請參閱其他地方。

2020-06-23 13:35:43

注意力機制起源於應用於NLP的RNN模型，但也在其他的領域有所應用。對注意力機制的理解也是算法面試經常提及的一道基礎面試題，在這篇博文裏我們彙總吳恩達深度學習視頻序列模型3.7和3.8以及臺大李宏毅教授對Attenion Mec

2020-06-23 13:35:33

正則化本身是一種參數範數懲罰，即權重衰減。 L2參數正則化 L2參數正則化策略通過向目標函數添加一個正則項Ω(θ=12∥w∥22)\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})Ω(

2020-06-23 13:35:33

Mode-Free Policy Evaluation: Policy Evaluation Without Knowing How the World Works Policy evaluation without known

2020-06-23 13:35:32

self attention是提出Transformer的論文《Attention is all you need》中提出的一種新的注意力機制，這篇博文僅聚焦於self attention，不談transformer的其他機制。

2020-06-23 13:35:32

評估估計/預測一個給定策略的獎勵期望。在強化學習中，我們可以脫離策略實現對它的評估。這意味着我們可以使用從其他策略收集到的數據來評估一些反直覺的不同的策略會怎樣做。這非常有用，因爲我們不需要以測試的方式窮盡所有的策略。控

2020-06-23 13:35:32

Recall: Markov Property information state: sufficient statistic of history State sts_tst is Markov if and only if

2020-06-23 13:35:21

本篇博文介紹的Attention，全部是Seq2Sqeq的attention機制的變種，本質上也還是Seq2Seq的attention，區別於Transformer的self attention，下一篇博文會介紹self att

2020-06-23 13:35:21

劍指Offer系列是一本國內互聯網公司計算機、軟件、測試、運維等方向招聘筆試及面試經常會考的編程題合集，一共67道題，其中部分題目與LeetCode上的題目相一致，題目的難易度比較適中，有同名圖書出版。該博客Github鏈接指向

2020-06-23 13:35:21

前面的一篇博客:Model-free control：如何從經驗中學習一個好的策略到目前爲止，我們都假設了可以將價值函數或state-action價值(即Q函數)表示成向量或者矩陣表格表示法很多現實世界的問題會有巨大的狀

2020-06-23 13:35:21

RNN解決長期依賴的能力隨着文本長度的增加越來越差，attention機制是解決這種問題的一種思路，今天我們再來看另外一種思路，深度記憶網絡。Deep Memory Network在QA和Aspect based Sentime

2020-06-23 13:35:21

前面的一篇博文介紹了函數價值近似，是以簡單的線性函數來做的，這篇博文介紹使用深度神經網絡來做函數近似，也就是Deep RL。這篇博文前半部分介紹DNN、CNN，熟悉這些的讀者可以跳過，直接看後半部分的Deep Q Learnin

2020-06-23 13:35:21

這算是一篇綜述性文章，講的不深，但是可以瞭解做planning都有哪些方法。這篇文章裏全部使用了Q的說法，因爲實現上可能是網絡DQN，也可以是經典的Table。 Models and Planning Models指的是Env

2020-06-23 13:35:21