原创 Deep Q learning: DQN及其改進

Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神經網絡來表示 價值函數 策略 模型 使用隨機梯度下降(SGD)優化loss函數 Deep

原创 Key-Value Memory Network

首先,基本的Memorry Network中是使用sentence(passage)來構造memory,然後計算和query的匹配程度,再根據匹配程度計算輸出,用於下游任務。而Key-Value Memory Network則是

原创 Deep Memory Network在Aspect Based Sentiment方向上的應用

前面的博文Deep Memory Network 深度記憶網絡已經非常詳細地介紹了該種網絡架構,下面我們來研究一下其在基於方面的情感分類的應用。Aspect Based Sentiment是一種細粒度的情感分析問題,一個句子中可

原创 Policy Gradient 算法

常見的policy gradient算法,寫出來挺簡單的,但是有一個複雜的推導過程,這裏就略去了。 Vanilla Policy Gradient Algorithm GtiG_t^iGti​可以是TD estimate、

原创 近端策略優化算法(PPO)

策略梯度算法(PG) 策略梯度迭代,通過計算策略梯度的估計,並利用隨機梯度上升算法進行迭代。其常用的梯度估計形式爲: E^t[∇θlogπθ(at∣st)A^t] \hat{\mathbb{E}}_t[\nabla_\theta

原创 從SARSA算法到Q-learning with ϵ-greedy Exploration算法

這篇博文是Model-Free Control的一部分,事實上SARSA和Q-learning with ϵ-greedy Exploration都是不依賴模型的控制的一部分,如果你想要全面的瞭解它們,建議閱讀原文。 SARS

原创 Model-Free Control

Control(making decisions) without a model of how the world works. Control的意思是尋求最佳策略,這可以被視爲對agent的一種控制。 Evaluation

原创 ϵ-greedy Policies

ϵ\epsilonϵ-greedy Policies 非常簡單的平衡探索(Explotation)和利用(Exploitation)的思想是通過確保整個過程隨機來實現的。 實際上這個策略在論文裏一般一句話就可以概括:ϵ\ep

原创 Monte Carlo(MC) Policy Evaluation 蒙特·卡羅爾策略評估

這篇博文是另一篇博文Model-Free Policy Evaluation 無模型策略評估的一個小節,因爲 蒙特·卡羅爾策略評估本身就是一種無模型策略評估方法,原博文有對無模型策略評估方法的詳細概述。 簡單而言, 蒙特·卡羅

原创 Importance Sampling 重要性採樣

Importance Sampling(重要性採樣),也是常用估計函數價值在某個概率分佈下的期望的一個方法。這篇博文先簡要介紹IS,再將其在策略評估中的應用。 Importance Sampling 目標:估計一個函數f(x

原创 Temporal Difference - 時序差分學習

這篇博客是前面一篇博客Model-Free Policy Evaluation 無模型策略評估的一個小節,因爲TD本身也是一種無模型策略評估方法。原博文有對無模型策略評估方法的詳細概述。 Temporal Difference

原创 KBQA: 知識圖譜上的問答系統概述

隨着諸如DBPedia和FreeBase等大規模知識圖譜的快速發展。知識圖譜知識問答在過去幾年引起了廣泛注意。 KBQA: 知識圖譜上的問答系統 給定自然語言(NL)形式的問題,KBQA的目標是在潛在的知識圖譜上自動尋求答案。

原创 知識圖譜上簡單問題的知識問答

簡單問題的界定是能通過查找一個事實就可以解答。本文關注baseline方法,是一篇概述博客。 本文介紹的方法屬於pipeline風格,即分解問題到幾個階段,分階段用對應的模塊解決,最後的模塊輸出最後的結果。最新的研究進展也有構建

原创 Monte Carlo Off Policy Evaluation

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡羅爾策略評估 介紹的是On-Policy的策略評估。簡而言之,On-Policy就是說做評估的時候就是在目標策略本身上做的評估,而Off-

原创 IOB Inside-outside-beginning (tagging)

IOB Inside-outside-beginning (tagging) IOB是一種標記技術,IOB foramt是一種在計算機語言學斷句中常用的符號(tokens)的形式。 B前綴指代一個語句塊的開始;I前綴指代在該語句塊