原创 決策樹迴歸算法原理及Spark MLlib調用實例(Scala/Java/python)

決策樹迴歸 算法介紹:         決策樹以及其集成算法是機器學習分類和迴歸問題中非常流行的算法。因其易解釋性、可處理類別特徵、易擴展到多分類問題、不需特徵縮放等性質被廣泛使用。樹集成算法如隨機森林以及boosting算法幾乎是解決分

原创 廣義線性模型(GLMs)算法原理及Spark MLlib調用實例(Scala/Java/Python)

廣義線性迴歸 算法介紹:         與線性迴歸假設輸出服從高斯分佈不同,廣義線性模型(GLMs)指定線性模型的因變量 服從指數型分佈。Spark的GeneralizedLinearRegression接口允許指定GLMs包括線性迴歸

原创 隨機森林迴歸(Random Forest)算法原理及Spark MLlib調用實例(Scala/Java/python)

隨機森林迴歸 算法介紹:        隨機森林是決策樹的集成算法。隨機森林包含多個決策樹來降低過擬合的風險。隨機森林同樣具有易解釋性、可處理類別特徵、易擴展到多分類問題、不需特徵縮放等性質。        隨機森林分別訓練一系列的決策樹

原创 Spark MLlib TF-IDF算法原理及調用實例(Scala/Java/python)

算法介紹:         詞頻-逆向文件頻率(TF-IDF)是一種在文本挖掘中廣泛使用的特徵向量化方法,它可以體現一個文檔中詞語在語料庫中的重要程度。         詞語由t表示,文檔由d表示,語料庫由D表示。詞頻TF(t,,d)是詞

原创 決策樹算法原理及Spark MLlib調用實例(Scala/Java/python)

決策樹 算法介紹:         決策樹以及其集成算法是機器學習分類和迴歸問題中非常流行的算法。因其易解釋性、可處理類別特徵、易擴展到多分類問題、不需特徵縮放等性質被廣泛使用。樹集成算法如隨機森林以及boosting算法幾乎是解決分類和

原创 二十種特徵變換方法及Spark MLlib調用實例(Scala/Java/python)(二)

VectorIndexer 算法介紹:         VectorIndexer解決數據集中的類別特徵Vector。它可以自動識別哪些特徵是類別型的,並且將原始值轉換爲類別指標。它的處理流程如下: 1.獲得一個向量類型的輸入以及maxC

原创 樸素貝葉斯算法原理及Spark MLlib調用實例(Scala/Java/Python)

樸素貝葉斯 算法介紹: 樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。 樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,在沒有其它可用信息下,我們會選擇條件概率最大的類別作爲此待分類

原创 多層感知機(MLP)算法原理及Spark MLlib調用實例(Scala/Java/Python)

多層感知機 算法簡介:         多層感知機是基於反向人工神經網絡(feedforwardartificial neural network)。多層感知機含有多層節點,每層節點與網絡的下一層節點完全連接。輸入層的節點代表輸入數據,其

原创 邏輯迴歸算法原理及Spark MLlib調用實例(Scala/Java/python)

邏輯迴歸 算法原理:         邏輯迴歸是一個流行的二分類問題預測方法。它是Generalized Linear models 的一個特殊應用以預測結果概率。它是一個線性模型如下列方程所示,其中損失函數爲邏輯損失:      

原创 三種文本特徵提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib調用實例(Scala/Java/python)

        Spark MLlib 提供三種文本特徵提取方法,分別爲TF-IDF、Word2Vec以及CountVectorizer其各自原理與調用代碼整理如下: TF-IDF 算法介紹:         詞頻-逆向文件頻率(

原创 梯度迭代樹(GBDT)算法原理及Spark MLlib調用實例(Scala/Java/python)

梯度迭代樹 算法簡介:         梯度提升樹是一種決策樹的集成算法。它通過反覆迭代訓練決策樹來最小化損失函數。決策樹類似,梯度提升樹具有可處理類別特徵、易擴展到多分類問題、不需特徵縮放等性質。Spark.ml通過使用現有decisi

原创 One-vs-Rest算法介紹及Spark MLlib調用實例(Scala/Java/Python)

One-vs-Rest 算法介紹: OneVsRest將一個給定的二分類算法有效地擴展到多分類問題應用中,也叫做“One-vs-All.”算法。OneVsRest是一個Estimator。它採用一個基礎的Classifier然後對於k個類

原创 隨機森林(Random Forest)算法原理及Spark MLlib調用實例(Scala/Java/python)

隨機森林分類器: 算法簡介:         隨機森林是決策樹的集成算法。隨機森林包含多個決策樹來降低過擬合的風險。隨機森林同樣具有易解釋性、可處理類別特徵、易擴展到多分類問題、不需特徵縮放等性質。        隨機森林分別訓練一系列的

原创 三種特徵選擇方法及Spark MLlib調用實例(Scala/Java/python)

VectorSlicer 算法介紹:         VectorSlicer是一個轉換器輸入特徵向量,輸出原始特徵向量子集。VectorSlicer接收帶有特定索引的向量列,通過對這些索引的值進行篩選得到新的向量集。可接受如下兩種索引

原创 機器學習算法應用場景實例六十則

        本文整理了60個機器學習算法應用場景實例,含分類算法應用場景20個、迴歸算法應用場景20個、聚類算法應用場景10個以及關聯規則應用場景10個。包含了天池、DataCastle、DataFountain中所有競賽場景。