原创 論文筆記:Dyna, an Integrated Architecture for Learning, Planning, and Reacting
文章基本概況 標題:Dyna, an Integrated Architecture for Learning, Planning, and Reacting 作者:Richard S. Sutton,強化學習教父,被認爲是現代計算的強化
原创 北大信科夏令營機考題分類彙總
巧妙的方法 1. 護林員蓋房子(2019信科研究生上機測試) 這個題目與leetcode85題爲一題。利用了一個很玄妙的棧。 #include <iostream> #include<string> #include <algorit
原创 南大lamda實驗室失敗面經分享
2019年保研基本上塵埃落定,博主最後去了北大信科讀研。關於北大的夏令營,把北大往年的夏令營真題刷一刷https://blog.csdn.net/caozixuan98724/article/details/93521208,面試就個憑造
原创 算法筆記:Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning 比較尷尬,上篇文章不是DQN的來源,這篇纔是。上篇Nature文章對於DQN做出的改進上次沒讀明白,查看其他資料,做實踐的時候才明白。關於N
原创 論文筆記:Dueling Network Architectures for Deep Reinforcement Learning
題目:Dueling Network Architectures for Deep Reinforcement Learning 來源:ICML 2016 Best Paper 摘要 在最近幾年中,在強化學習中使用深度學習的表示取得了
原创 面向初學者的蒙特卡洛樹搜索MCTS詳解及其實現
目錄 0. 序言 1. 蒙特卡洛算法的前身今世 2. 蒙特卡洛搜索算法的原理 2.1 Exploration and Exploitation(探索與利用) 2.2 Upper Confidence Bounds(UCB) 2.3 蒙
原创 leetcode第181場周賽題解
1389. 按照既定順序創建目標數組 給你兩個整數數組 nums 和 index。你需要按照以下規則創建目標數組: 目標數組 target 最初爲空。 按從左到右的順序依次讀取 nums[i] 和 index[i],在 target 數組
原创 未來兩個月要完成的博文
1. 蒙特卡洛搜索算法 2. 有限馬爾可夫決策過程 3. Dynamic Programming 4. Temporal-Difference Learning 5. Boot-strapping 6. Tabular Methods 7
原创 算法筆記:從極端情況到目標情況的優化求解
最近心情是非常沉鬱啊,南大面試真是搞我心態。哎,也沒啥好抱怨的,寫篇博客舒緩一下心情,總結總結經驗之後繼續面吧。 這篇博客的靈感是來自於在論文中實際應用的一個算法,最開始面對我要求解的問題的時候,算法的時間複雜度令我非常的絕望,是一個指數
原创 Leetcode第185場周賽
1417. 重新格式化字符串 簽到題,沒什麼好說的,比賽的時候寫的複雜了一些。 class Solution { public String reformat(String s) { char [] arr
原创 編程題:青蛙過河
某家公司的筆試題~ 題目鏈接:http://cpp.zjut.edu.cn/ShowProblem.aspx?ShowID=1313 Description: 池塘中有一條由荷葉拼湊而成的、長爲N*2+1(1<=N<=30)的獨木橋。如下
原创 強化學習:Actor-Critic如何指導蒙特卡洛搜索
最近自己寫這個五子棋的強化學習AI遇到了很多困難,而且在如何使用訓練結果來指導蒙特卡洛搜索方面遇到了障礙。又重新回看了這個AlphaZero-Gomuku項目的源碼,從中學到了很多東西,以及許多遇到的問題的具體解決方案。啊啊啊,好後悔,應
原创 模仿學習(Imitation Learning)概述
本篇文章是基於臺大李宏毅老師的課程寫的,如有疏漏,請看原課程。https://www.youtube.com/watch?v=rl_ozvqQUU8 1. 什麼是模仿學習? 模仿學習(Imitation Learning)也被稱爲基於演示
原创 提升對抗神經網絡GAN的表現的方法(GAN — Ways to improve GAN performance)
最近一直在琢磨Generative Adversarial Imitation Learning這篇文章的內容和實現,也自己實現了幾個GAN,但是效果都不是很理想,因此找到了一篇專門講提升GAN表現的文章,用幾個小時的時間把這篇文章翻譯一
原创 Leetcode 第174場周賽題解
這兩天在央視上看了很多關於武漢醫生的報道,頗受觸動。每個人都有每個人的職責,對於賦閒在家的我們,除了老老實實自我隔離,爲武漢加油鼓勁外,唯一能做的,可能就是不讓每一天的時光荒廢了。 武漢加油!!! 昨天進行的Leetcode第174場