原创 <計算機網絡 / 基礎知識> 路由選擇算法
./keep
原创 線性支持向量機中的硬間隔(hard margin)和軟間隔(soft margin)
intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptua
原创 <計算機網絡 / 基礎知識> 對原始的"報文交換"作出改進,得到"分組交換"技術
intro 分組交換是以報文交換爲基礎的,所以分組交換其實也可以叫做“報文分組交換”。 statement 報文的傳送過程依賴於“存儲轉發機制”, 從發送端開始,每經過一個交換機,該交換機的任務是: 接收完整的報文,然後對報文進行緩存,此
原创 circle loss一遍過 / 2020
intro 剛看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》,隨手寫了一個overview。 一句話總結這篇paper幹了什麼事情---- "an
原创 針對PPO的一些Code-level性能優化技巧
Intro 這篇blog是我在看過Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之後的總結。 reward cl
原创 Proximal Policy Optimization(PPO)算法 / 2017
Intro PPO在2017年提出後就刷新了continous control領域的SOTA記錄,並且成爲了OPENAI的default algorithm。雖然現在它已經不是領域的SOTA算法了,但因爲PPO易於部署而且迭代過程方差小,訓
原创 prioritied replay buffer / 2016
重要性採樣權重 intro priority replay buffer提出於2016年。當時Deepmind的Tom Schaul等人對DQN中vanilla replay buffer不滿意,於是在原來的ReplayBuffer基礎
原创 DQN中的ReplayBuffer和TargetNetwork有什麼好處?
Intro 衆所周知,在2014年,Deepmind使用DQN刷新了強化學習在Atari遊戲上的SOTA記錄。使DQN成爲當年的SOTA,主要依靠兩大利器:ReplayBuffer和TargetNetwork。 ReplayBuffer
原创 linux中使用awk命令
準備 awk的取名是貝爾實驗室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三個人的名字取首字母組成的。awk命令能從一個或多個文本文件或字符串中逐個記錄或逐行掃描;將每個記錄與匹配模式相比較;當發
原创 刪除github倉庫的commit歷史記錄
清空commit歷史記錄 建立並切換到新分支 git checkout --orphan new_branch 將工作區和暫存區的內容全部入庫 git add -A git commit -am "reinitialize"
原创 linux中使用sed命令
準備 sed是“stream editor”的簡稱。sed命令有兩種玩法,一個是直接在命令行使用,一個是寫成seq腳本使用。 sed命令行 sed命令格式如下: sed [options] [command] [files] 例如: $
原创 python是如何自動管理內存的
./keep
原创 ML框架之靜態圖和動態圖的區別
./keep
原创 <操作系統> 虛擬內存
./keep
原创 <操作系統>進程同步進程互斥
1.Intro 爲了實現多道程序環境,操作系統設計引入了進程Process的概念。 爲了協調進程間的相互制約,則又引入了進程同步進程互斥的概念。 爲了更直觀地處理進程相互制約的問題,我們把一次僅允許一個進程使用的資源稱爲臨界資源。把進程