原创 論文筆記:Dyna, an Integrated Architecture for Learning, Planning, and Reacting

文章基本概況 標題:Dyna, an Integrated Architecture for Learning, Planning, and Reacting 作者:Richard S. Sutton,強化學習教父,被認爲是現代計算的強化

原创 北大信科夏令營機考題分類彙總

巧妙的方法 1. 護林員蓋房子(2019信科研究生上機測試) 這個題目與leetcode85題爲一題。利用了一個很玄妙的棧。 #include <iostream> #include<string> #include <algorit

原创 南大lamda實驗室失敗面經分享

2019年保研基本上塵埃落定,博主最後去了北大信科讀研。關於北大的夏令營,把北大往年的夏令營真題刷一刷https://blog.csdn.net/caozixuan98724/article/details/93521208,面試就個憑造

原创 算法筆記:Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning   比較尷尬,上篇文章不是DQN的來源,這篇纔是。上篇Nature文章對於DQN做出的改進上次沒讀明白,查看其他資料,做實踐的時候才明白。關於N

原创 論文筆記:Dueling Network Architectures for Deep Reinforcement Learning

題目:Dueling Network Architectures for Deep Reinforcement Learning 來源:ICML 2016 Best Paper   摘要 在最近幾年中,在強化學習中使用深度學習的表示取得了

原创 面向初學者的蒙特卡洛樹搜索MCTS詳解及其實現

目錄   0. 序言 1. 蒙特卡洛算法的前身今世 2. 蒙特卡洛搜索算法的原理 2.1 Exploration and Exploitation(探索與利用) 2.2 Upper Confidence Bounds(UCB) 2.3 蒙

原创 leetcode第181場周賽題解

1389. 按照既定順序創建目標數組 給你兩個整數數組 nums 和 index。你需要按照以下規則創建目標數組: 目標數組 target 最初爲空。 按從左到右的順序依次讀取 nums[i] 和 index[i],在 target 數組

原创 未來兩個月要完成的博文

1. 蒙特卡洛搜索算法 2. 有限馬爾可夫決策過程 3. Dynamic Programming 4. Temporal-Difference Learning 5. Boot-strapping 6. Tabular Methods 7

原创 算法筆記:從極端情況到目標情況的優化求解

最近心情是非常沉鬱啊,南大面試真是搞我心態。哎,也沒啥好抱怨的,寫篇博客舒緩一下心情,總結總結經驗之後繼續面吧。 這篇博客的靈感是來自於在論文中實際應用的一個算法,最開始面對我要求解的問題的時候,算法的時間複雜度令我非常的絕望,是一個指數

原创 Leetcode第185場周賽

1417. 重新格式化字符串   簽到題,沒什麼好說的,比賽的時候寫的複雜了一些。 class Solution { public String reformat(String s) { char [] arr

原创 編程題:青蛙過河

某家公司的筆試題~ 題目鏈接:http://cpp.zjut.edu.cn/ShowProblem.aspx?ShowID=1313 Description: 池塘中有一條由荷葉拼湊而成的、長爲N*2+1(1<=N<=30)的獨木橋。如下

原创 強化學習:Actor-Critic如何指導蒙特卡洛搜索

最近自己寫這個五子棋的強化學習AI遇到了很多困難,而且在如何使用訓練結果來指導蒙特卡洛搜索方面遇到了障礙。又重新回看了這個AlphaZero-Gomuku項目的源碼,從中學到了很多東西,以及許多遇到的問題的具體解決方案。啊啊啊,好後悔,應

原创 模仿學習(Imitation Learning)概述

本篇文章是基於臺大李宏毅老師的課程寫的,如有疏漏,請看原課程。https://www.youtube.com/watch?v=rl_ozvqQUU8 1. 什麼是模仿學習? 模仿學習(Imitation Learning)也被稱爲基於演示

原创 提升對抗神經網絡GAN的表現的方法(GAN — Ways to improve GAN performance)

最近一直在琢磨Generative Adversarial Imitation Learning這篇文章的內容和實現,也自己實現了幾個GAN,但是效果都不是很理想,因此找到了一篇專門講提升GAN表現的文章,用幾個小時的時間把這篇文章翻譯一

原创 Leetcode 第174場周賽題解

這兩天在央視上看了很多關於武漢醫生的報道,頗受觸動。每個人都有每個人的職責,對於賦閒在家的我們,除了老老實實自我隔離,爲武漢加油鼓勁外,唯一能做的,可能就是不讓每一天的時光荒廢了。 武漢加油!!!   昨天進行的Leetcode第174場