原创 決策樹(Decision Tree)算法原理總結(一)

        如同上幾篇我們探討的SVM一樣,決策樹算法既可以處理分類問題(二分類和多分類),又可以處理迴歸問題。同時,決策樹也廣泛的運用在集成算法中,比如隨機森林算法。本篇我們沿着決策樹算法的發展,來探討下決策樹ID3算法和C

原创 集成學習方法之Bagging,Boosting,Stacking

        “團結就是力量,這力量是鐵,這力量是鋼… …”,小學學的一首歌,至今還刻骨銘心。“團結就是力量”,完美的闡述了機器學習中非常強大的集成學習方法的思想。其實,集成學習方法就這麼簡單,將多個模型組合在一起會得到更強大的

原创 AdaBoost算法原理詳細總結

        在集成學習方法之Bagging,Boosting,Stacking篇章中,我們談論boosting框架的原理,在boosting系列算法中,AdaBoost是著名的算法之一。AdaBoost是英文"Adaptive

原创 隨機森林(Random Forest)算法原理總結

        前面幾篇我們探討了決策樹算法,集成學習方法,今天我們就來探討下基於bagging集成的決策樹算法——隨機森林(Random Forest)。隨機森林雖然簡單,但它是最強大的機器學習算法之一,也是實際應用中非常常用的

原创 Scikit-learn 支持向量機算法庫總結與簡單實踐

        前兩篇我們簡單的探討了SVM的原理,趁熱我們來進行一些簡單實踐操作。磨刀不誤砍柴工,先來認識下scikit-learn中集成的SVM算法庫。scikit-learn中SVM的算法庫分爲兩類,一類是分類的算法庫,包括

原创 自然語言處理基礎之信息熵,聯合熵,條件熵,交叉熵,相對熵

本文主要介紹信息論基本相關知識,這些知識在機器學習中的相關算法的基礎,是學習機器學習及深度學習的基礎知識。本文具體介紹信息熵、交叉熵及相對熵,需要深入瞭解信息論知識,請參考《信息論基礎》。 1)信息熵(Information En

原创 決策樹(Decision Tree)算法原理總結(二)

        上篇我們探討了ID3算法,以及C4.5算法,也瞭解了C4.5算法的不足,比如不能處理迴歸任務,多叉樹效率低等。本篇我們來探討CART算法是如何改進C4.5算法的不足,以及決策樹是如何應對過擬合問題的,最後我們對決策

原创 邏輯迴歸(Logistic Regression)原理詳細總結

       邏輯迴歸(Logistic Regression)是一個分類算法,既可以用來解決二分類問題也可以解決多分類問題。那麼爲什麼名爲“迴歸“的算法卻是用來解決分類問題的呢?本文將對邏輯迴歸的由來及原理做出詳細的總結。 1)

原创 Scikit-learn隨機森林算法庫總結與調參實踐

        上篇我們對隨機森林的算法原理進行了探討,以及算法的優缺點進行了總結。我們知道隨機森林是在bagging框架下,組合多顆隨機特徵生成的CART樹形成隨機森林,是一種非常強大的算法。本篇我們就來探討Scikit-lea

原创 Scikit-learn決策樹算法庫總結與簡單實踐

       上兩篇我們探討了決策樹ID3算法,C4.5算法以及CART算法。CART算法在ID3,C4.5的基礎上進行了不少優化,也是Scikit-learn決策樹庫使用的算法,是我們必須要掌握的算法之一。本篇我們基於上篇的算法

原创 Scikit-learn AdaBoost算法庫總結與實踐

       在上篇的AdaBoost算法原理詳細總結中,我們詳細的探討了AdaBoost的原理,並且瞭解到AdaBoost在學習的過程中以指數速率不斷減少訓練誤差,且無限逼近於0。本篇我們就來探討Scikit-learn Ada

原创 梯度提升樹(GBDT)算法原理詳細總結

        上篇我們對boosting家族中的Adaboost算法進行了總結,本篇我們來探討傳統的梯度提升樹(Gradient Boosting Decison Tree)算法。梯度提升樹被認爲是統計學習中性能最好的方法之一。

原创 Scikit-learn 邏輯迴歸算法庫簡單總結與實踐

        上篇我們對邏輯迴歸的原理及推導過程進行了總結,本篇我們對Scikit-learn庫中邏輯迴歸進行參數經驗總結,並在鳶尾花數據上,利用Scikit-learn中邏輯迴歸庫進行分類。 1)Scikit-learn 邏輯

原创 XGBOOST(Extreme Gradient Boosting)算法原理詳細總結

        上篇我們對傳統的GBDT算法原理進行了探討,本篇我們來探討一個具有王者地位的算法:XGBOOST(Extreme Gradient Boosting )。XGBOOST是來自於華盛頓大學的一個研究項目,2016年由

原创 Scikit-learn GBDT算法庫總結與實踐

        上篇我們對傳統的GBDT算法原理進行了總結,相信大家對GBDT的算法原理有了一定的瞭解。本篇我們就探討Scikit-learn中GBDT算法庫的使用。         本篇我們先對Scikit-learn中GBDT