台部落彩虹糖梦

文章基本概況標題：Dyna, an Integrated Architecture for Learning, Planning, and Reacting 作者：Richard S. Sutton，強化學習教父，被認爲是現代計算的強化

2020-06-28 00:42:30

巧妙的方法 1. 護林員蓋房子（2019信科研究生上機測試）這個題目與leetcode85題爲一題。利用了一個很玄妙的棧。 #include <iostream> #include<string> #include <algorit

2020-06-28 00:42:30

2019年保研基本上塵埃落定，博主最後去了北大信科讀研。關於北大的夏令營，把北大往年的夏令營真題刷一刷https://blog.csdn.net/caozixuan98724/article/details/93521208，面試就個憑造

2020-06-28 00:42:20

Playing Atari with Deep Reinforcement Learning 比較尷尬，上篇文章不是DQN的來源，這篇纔是。上篇Nature文章對於DQN做出的改進上次沒讀明白，查看其他資料，做實踐的時候才明白。關於N

2020-06-28 00:42:20

題目：Dueling Network Architectures for Deep Reinforcement Learning 來源：ICML 2016 Best Paper 摘要在最近幾年中，在強化學習中使用深度學習的表示取得了

2020-06-28 00:42:20

目錄 0. 序言 1. 蒙特卡洛算法的前身今世 2. 蒙特卡洛搜索算法的原理 2.1 Exploration and Exploitation（探索與利用） 2.2 Upper Confidence Bounds（UCB） 2.3 蒙

2020-06-28 00:42:20

1389. 按照既定順序創建目標數組給你兩個整數數組 nums 和 index。你需要按照以下規則創建目標數組：目標數組 target 最初爲空。按從左到右的順序依次讀取 nums[i] 和 index[i]，在 target 數組

2020-06-28 00:42:20

1. 蒙特卡洛搜索算法 2. 有限馬爾可夫決策過程 3. Dynamic Programming 4. Temporal-Difference Learning 5. Boot-strapping 6. Tabular Methods 7

2020-06-28 00:42:20

最近心情是非常沉鬱啊，南大面試真是搞我心態。哎，也沒啥好抱怨的，寫篇博客舒緩一下心情，總結總結經驗之後繼續面吧。這篇博客的靈感是來自於在論文中實際應用的一個算法，最開始面對我要求解的問題的時候，算法的時間複雜度令我非常的絕望，是一個指數

2020-06-06 16:45:19

1417. 重新格式化字符串簽到題，沒什麼好說的，比賽的時候寫的複雜了一些。 class Solution { public String reformat(String s) { char [] arr

2020-04-21 14:12:04

某家公司的筆試題~ 題目鏈接：http://cpp.zjut.edu.cn/ShowProblem.aspx?ShowID=1313 Description: 池塘中有一條由荷葉拼湊而成的、長爲N*2+1（1<=N<=30）的獨木橋。如下

2020-02-21 05:34:55

最近自己寫這個五子棋的強化學習AI遇到了很多困難，而且在如何使用訓練結果來指導蒙特卡洛搜索方面遇到了障礙。又重新回看了這個AlphaZero-Gomuku項目的源碼，從中學到了很多東西，以及許多遇到的問題的具體解決方案。啊啊啊，好後悔，應

2020-02-21 05:34:55

本篇文章是基於臺大李宏毅老師的課程寫的，如有疏漏，請看原課程。https://www.youtube.com/watch?v=rl_ozvqQUU8 1. 什麼是模仿學習？模仿學習（Imitation Learning）也被稱爲基於演示

2020-02-21 05:34:55

最近一直在琢磨Generative Adversarial Imitation Learning這篇文章的內容和實現，也自己實現了幾個GAN，但是效果都不是很理想，因此找到了一篇專門講提升GAN表現的文章，用幾個小時的時間把這篇文章翻譯一

2020-02-21 05:34:55

這兩天在央視上看了很多關於武漢醫生的報道，頗受觸動。每個人都有每個人的職責，對於賦閒在家的我們，除了老老實實自我隔離，爲武漢加油鼓勁外，唯一能做的，可能就是不讓每一天的時光荒廢了。武漢加油！！！昨天進行的Leetcode第174場

2020-02-21 05:34:54