台部落从流域到海域

Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神經網絡來表示價值函數策略模型使用隨機梯度下降(SGD)優化loss函數 Deep

2020-06-23 13:35:21

首先，基本的Memorry Network中是使用sentence(passage)來構造memory，然後計算和query的匹配程度，再根據匹配程度計算輸出，用於下游任務。而Key-Value Memory Network則是

2020-04-14 05:07:39

前面的博文Deep Memory Network 深度記憶網絡已經非常詳細地介紹了該種網絡架構，下面我們來研究一下其在基於方面的情感分類的應用。Aspect Based Sentiment是一種細粒度的情感分析問題，一個句子中可

2020-03-12 00:07:53

常見的policy gradient算法，寫出來挺簡單的，但是有一個複雜的推導過程，這裏就略去了。 Vanilla Policy Gradient Algorithm GtiG_t^iGti可以是TD estimate、

2020-02-22 05:09:50

策略梯度算法(PG) 策略梯度迭代，通過計算策略梯度的估計，並利用隨機梯度上升算法進行迭代。其常用的梯度估計形式爲： E^t[∇θlogπθ(at∣st)A^t] \hat{\mathbb{E}}_t[\nabla_\theta

2020-02-22 05:09:50

這篇博文是Model-Free Control的一部分，事實上SARSA和Q-learning with ϵ-greedy Exploration都是不依賴模型的控制的一部分，如果你想要全面的瞭解它們，建議閱讀原文。 SARS

2019-10-27 22:06:42

Control(making decisions) without a model of how the world works. Control的意思是尋求最佳策略，這可以被視爲對agent的一種控制。 Evaluation

2019-10-26 09:22:00

ϵ\epsilonϵ-greedy Policies 非常簡單的平衡探索(Explotation)和利用(Exploitation)的思想是通過確保整個過程隨機來實現的。實際上這個策略在論文裏一般一句話就可以概括:ϵ\ep

2019-10-26 09:21:59

這篇博文是另一篇博文Model-Free Policy Evaluation 無模型策略評估的一個小節，因爲蒙特·卡羅爾策略評估本身就是一種無模型策略評估方法，原博文有對無模型策略評估方法的詳細概述。簡單而言，蒙特·卡羅

2019-10-25 23:12:13

Importance Sampling(重要性採樣)，也是常用估計函數價值在某個概率分佈下的期望的一個方法。這篇博文先簡要介紹IS，再將其在策略評估中的應用。 Importance Sampling 目標：估計一個函數f(x

2019-10-25 23:12:13

這篇博客是前面一篇博客Model-Free Policy Evaluation 無模型策略評估的一個小節，因爲TD本身也是一種無模型策略評估方法。原博文有對無模型策略評估方法的詳細概述。 Temporal Difference

2019-10-25 23:12:13

隨着諸如DBPedia和FreeBase等大規模知識圖譜的快速發展。知識圖譜知識問答在過去幾年引起了廣泛注意。 KBQA: 知識圖譜上的問答系統給定自然語言(NL)形式的問題，KBQA的目標是在潛在的知識圖譜上自動尋求答案。

2019-10-25 23:12:13

簡單問題的界定是能通過查找一個事實就可以解答。本文關注baseline方法，是一篇概述博客。本文介紹的方法屬於pipeline風格，即分解問題到幾個階段，分階段用對應的模塊解決，最後的模塊輸出最後的結果。最新的研究進展也有構建

2019-10-25 23:12:13

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡羅爾策略評估介紹的是On-Policy的策略評估。簡而言之，On-Policy就是說做評估的時候就是在目標策略本身上做的評估，而Off-

2019-10-25 23:12:13

IOB Inside-outside-beginning (tagging) IOB是一種標記技術，IOB foramt是一種在計算機語言學斷句中常用的符號(tokens)的形式。 B前綴指代一個語句塊的開始；I前綴指代在該語句塊

2019-10-25 23:12:13