原创 線性支持向量機中的硬間隔(hard margin)和軟間隔(soft margin)

intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptua

原创 <計算機網絡 / 基礎知識> 對原始的"報文交換"作出改進,得到"分組交換"技術

intro 分組交換是以報文交換爲基礎的,所以分組交換其實也可以叫做“報文分組交換”。 statement 報文的傳送過程依賴於“存儲轉發機制”, 從發送端開始,每經過一個交換機,該交換機的任務是: 接收完整的報文,然後對報文進行緩存,此

原创 circle loss一遍過 / 2020

intro 剛看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》,隨手寫了一個overview。 一句話總結這篇paper幹了什麼事情---- "an

原创 針對PPO的一些Code-level性能優化技巧

Intro 這篇blog是我在看過Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之後的總結。 reward cl

原创 Proximal Policy Optimization(PPO)算法 / 2017

Intro PPO在2017年提出後就刷新了continous control領域的SOTA記錄,並且成爲了OPENAI的default algorithm。雖然現在它已經不是領域的SOTA算法了,但因爲PPO易於部署而且迭代過程方差小,訓

原创 prioritied replay buffer / 2016

重要性採樣權重 intro priority replay buffer提出於2016年。當時Deepmind的Tom Schaul等人對DQN中vanilla replay buffer不滿意,於是在原來的ReplayBuffer基礎

原创 DQN中的ReplayBuffer和TargetNetwork有什麼好處?

Intro 衆所周知,在2014年,Deepmind使用DQN刷新了強化學習在Atari遊戲上的SOTA記錄。使DQN成爲當年的SOTA,主要依靠兩大利器:ReplayBuffer和TargetNetwork。 ReplayBuffer

原创 linux中使用awk命令

準備 awk的取名是貝爾實驗室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三個人的名字取首字母組成的。awk命令能從一個或多個文本文件或字符串中逐個記錄或逐行掃描;將每個記錄與匹配模式相比較;當發

原创 刪除github倉庫的commit歷史記錄

清空commit歷史記錄 建立並切換到新分支 git checkout --orphan new_branch 將工作區和暫存區的內容全部入庫 git add -A git commit -am "reinitialize"

原创 linux中使用sed命令

準備 sed是“stream editor”的簡稱。sed命令有兩種玩法,一個是直接在命令行使用,一個是寫成seq腳本使用。 sed命令行 sed命令格式如下: sed [options] [command] [files] 例如: $

原创 <操作系統> 虛擬內存

./keep

原创 <操作系統>進程同步進程互斥

1.Intro 爲了實現多道程序環境,操作系統設計引入了進程Process的概念。 爲了協調進程間的相互制約,則又引入了進程同步進程互斥的概念。 爲了更直觀地處理進程相互制約的問題,我們把一次僅允許一個進程使用的資源稱爲臨界資源。把進程