原创 強化學習導論 | 第三章 有限馬爾科夫決策過程

本章將講解有限馬爾科夫決策過程中的有關反饋、策略和價值函數的內容。這個問題也是評估性反饋(evaluative feedback),但和上一章中講到的多臂賭博機不同,多臂賭博機僅包含一個狀態。在包含多個狀態的情況下,我們需要考慮在

原创 強化學習導論 | 第八章 規劃和學習

前面幾章已經講了model-based (如:動態規劃)和model-free (蒙特卡洛、時序差分)方法。這兩種方法的區別在於計算價值函數的時候是否已知模型(這裏指狀態轉移概率)。雖然這兩種強化學習方法不同,但也有相同的地方,比

原创 論文筆記 | Tree-structured Decoding for Solving Math Word Problems

這篇文章是由京都大學和北京大學合作發表在EMNLP 2019上的。主要是在seq2seq架構上做了改進,用樹結構的decoder來生成抽象語法樹(也可簡單理解爲表達式樹)。並且利用棧結構輔助,能夠清楚的知道下一次要生成的token

原创 論文筆記 | Learning Fine-Grained Expressions to Solve Math Word Problems

這篇文章是騰訊人工智能實驗室發表在EMNLP 2017上的文章,基於細粒度的模板解數學應用題。 文章目錄貢獻點整體思路1. 模板歸納 sketch for template2. 訓練過程3. 測試過程分析 貢獻點 學習問題文本到

原创 DeepWalk代碼解釋

代碼運行 對給定的圖數據集生成節點的embedding: 先對圖中的節點進行隨機遊走 再將隨機遊走的路徑作爲Word2Vec的輸入,生成節點的embedding 執行代碼如下: python __main__.py --inp

原创 強化學習導論 | 第六章 時序差分方法

前面講到的動態規劃方法和蒙特卡洛方法都可以用來計算價值函數。動態規劃方法是model-based的,需要知道狀態的轉換概率,某個狀態的價值是根據其後續的狀態價值計算的;蒙特卡洛方法是model-free的,不需要知道狀態的轉換概率

原创 MNIST入門——softmax迴歸

Softmax迴歸形式: y=softmax(Wx+b)y = softmax(Wx+b)y=softmax(Wx+b) 交叉熵損失函數 Hy′(y)=−∑iyi′log(yi)H_{y'}(y) = -\sum_{i

原创 論文筆記 | 語義解析相關論文

文章目錄1. Language to Logical Form with Neural Attention2. Abstract Syntax Networks for Code Generation and Semantic P

原创 強化學習導論 | 第10章 On-policyControl with Approximation

上一章講了on-policy策略下,怎樣估計狀態價值函數,也就是“預測”任務。對應的還有一個“控制”任務,就是要找到最優策略。並且,在控制任務中,我們現在要估計的是動作價值函數,即q^(s,a,w)≈q∗(s,a)\hat{q}(

原创 全面理解RNN(包括GRU、LSTM)以及對應pytorch實現

之前在學習RNN的時候,總是零零散散的搜一些東西。這次想要將關於RNN的知識總結起來,包括各種RNN網絡的結構、輸入輸出以及pytorch代碼實現。 文章目錄單向RNN網絡簡介Vanilla RNN / GRU 的結構LSTM 的

原创 強化學習導論 | 第九章 on-policy的近似預測

本章的題目爲"on-policy prediction with approximation",之前幾章的內容也涉及到了on-policy prediction,這裏的不同就在於“估計”。因爲前面講到的內容是根據策略採樣軌跡,再基

原创 強化學習導論 | 第七章 n步時序差分算法

前面講到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根據採樣到的經驗軌跡實際得到的獎勵來更新軌跡中出現的狀態的價值,即在每個軌跡結束之後更新。TD(0)方法中某個狀態的價值是根據從當前狀態走一步的即時獎勵和後續狀態的估計價值

原创 論文筆記 | Learning Fine-Grained Expressions to Solve MathWord Problems

這篇文章是騰訊人工智能實驗室發表在EMNLP 2017上的文章,基於細粒度的模板解數學應用題。 文章目錄貢獻點整體思路1. 模板歸納 sketch for template2. 訓練過程3. 測試過程分析 貢獻點 學習問題文本到

原创 強化學習導論 | 第五章 蒙特卡洛方法

在第四章 動態規劃中,已知模型(即狀態轉換概率)能夠對策略進行評估和更新,最終得到最優的策略和最優價值函數。但是,很多情況下,狀態轉移概率p(s′,r∣s,a)p(s', r | s, a)p(s′,r∣s,a)並不知道,那要怎麼

原创 強化學習導論 | 第四章 動態規劃

文章目錄1. 策略評估(Policy Evaluation)1.1 策略評估和動態規劃1.2 策略評估的例子2. 策略更新(Policy Improvement)3. 策略迭代(Policy Iteration)4. 價值迭代(V