原创 XGBoost類庫使用小結 scikit-learn 梯度提升樹(GBDT)調參小結

    在XGBoost算法原理小結中,我們討論了XGBoost的算法原理,這一片我們討論如何使用XGBoost的Python類庫,以及一些重要參數的意義和調參思路。     本文主要參考了XGBoost的Python文檔 和 XGBoos

原创 XGBoost算法原理小結 梯度提升樹(GBDT)原理小結 梯度提升樹(GBDT)原理小結 梯度提升樹(GBDT)原理小結

    在兩年半之前作過梯度提升樹(GBDT)原理小結,但是對GBDT的算法庫XGBoost沒有單獨拿出來分析。雖然XGBoost是GBDT的一種高效實現,但是裏面也加入了很多獨有的思路和方法,值得單獨講一講。因此討論的時候,我會重點分析和

原创 機器學習中的矩陣向量求導(五) 矩陣對矩陣的求導 機器學習中的矩陣向量求導(三) 矩陣向量求導之微分法

    在矩陣向量求導前4篇文章中,我們主要討論了標量對向量矩陣的求導,以及向量對向量的求導。本文我們就討論下之前沒有涉及到的矩陣對矩陣的求導,還有矩陣對向量,向量對矩陣求導這幾種形式的求導方法。     本文所有求導佈局以分母佈局爲準,爲

原创 機器學習中的矩陣向量求導(四) 矩陣向量求導鏈式法則

    在機器學習中的矩陣向量求導(三) 矩陣向量求導之微分法中,我們討論了使用微分法來求解矩陣向量求導的方法。但是很多時候,求導的自變量和因變量直接有複雜的多層鏈式求導的關係,此時微分法使用起來也有些麻煩。需要一些簡潔的方法。     本

原创 機器學習中的矩陣向量求導(三) 矩陣向量求導之微分法 機器學習中的矩陣向量求導(二) 矩陣向量求導之定義法

    在機器學習中的矩陣向量求導(二) 矩陣向量求導之定義法中,我們討論了定義法求解矩陣向量求導的方法,但是這個方法對於比較複雜的求導式子,中間運算會很複雜,同時排列求導出的結果也很麻煩。因此我們需要其他的一些求導方法。本文我們討論使用微

原创 機器學習中的矩陣向量求導(二) 矩陣向量求導之定義法

    在機器學習中的矩陣向量求導(一) 求導定義與求導佈局中,我們討論了向量矩陣求導的9種定義與求導佈局的概念。今天我們就討論下其中的標量對向量求導,標量對矩陣求導, 以及向量對向量求導這三種場景的基本求解思路。     對於本文中的標量

原创 機器學習中的矩陣向量求導(一) 求導定義與求導佈局

    在之前寫的上百篇機器學習博客中,不時會使用矩陣向量求導的方法來簡化公式推演,但是並沒有系統性的進行過講解,因此讓很多朋友迷惑矩陣向量求導的具體過程爲什麼會是這樣的。這裏準備用幾篇博文來討論下機器學習中的矩陣向量求導,今天是第一篇。

原创 強化學習(十九) AlphaGo Zero強化學習原理 強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS) 強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS)

    在強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS)中,我們討論了MCTS的原理和在棋類中的基本應用。這裏我們在前一節MCTS的基礎上,討論下DeepMind的AlphaGo Zero強化學習原理。     本篇主要參考了

原创 強化學習(十八) 基於模擬的搜索與蒙特卡羅樹搜索(MCTS)

    在強化學習(十七) 基於模型的強化學習與Dyna算法框架中,我們討論基於模型的強化學習方法的基本思路,以及集合基於模型與不基於模型的強化學習框架Dyna。本文我們討論另一種非常流行的集合基於模型與不基於模型的強化學習方法:基於模擬的

原创 強化學習(十七) 基於模型的強化學習與Dyna算法框架

    在前面我們討論了基於價值的強化學習(Value Based RL)和基於策略的強化學習模型(Policy Based RL),本篇我們討論最後一種強化學習流派,基於模型的強化學習(Model Based RL),以及基於模型的強化學

原创 強化學習(十六) 深度確定性策略梯度(DDPG)

    在強化學習(十五) A3C中,我們討論了使用多線程的方法來解決Actor-Critic難收斂的問題,今天我們不使用多線程,而是使用和DDQN類似的方法:即經驗回放和雙網絡的方法來改進Actor-Critic難收斂的問題,這個算法就是

原创 強化學習(十五) A3C

    在強化學習(十四) Actor-Critic中,我們討論了Actor-Critic的算法流程,但是由於普通的Actor-Critic算法難以收斂,需要一些其他的優化。而Asynchronous Advantage Actor-cri

原创 強化學習(十四) Actor-Critic

    在強化學習(十三) 策略梯度(Policy Gradient)中,我們講到了基於策略(Policy Based)的強化學習方法的基本思路,並討論了蒙特卡羅策略梯度reinforce算法。但是由於該算法需要完整的狀態序列,同時單獨對策

原创 強化學習(十三) 策略梯度(Policy Gradient)

    在前面講到的DQN系列強化學習算法中,我們主要對價值函數進行了近似表示,基於價值來學習。這種Value Based強化學習方法在很多領域都得到比較好的應用,但是Value Based強化學習方法也有很多侷限性,因此在另一些場景下我們

原创 強化學習(十二) Dueling DQN

    在強化學習(十一) Prioritized Replay DQN中,我們討論了對DQN的經驗回放池按權重採樣來優化DQN算法的方法,本文討論另一種優化方法,Dueling DQN。本章內容主要參考了ICML 2016的deep RL