原创 決策樹:屬性的選擇(續)

接先前一節總結決策樹的,還有一些問題。上節的參考: 決策樹:從特徵的重要程度說起 上節主要介紹了決策樹的構造方法,以及非常重要一部分是對於每個節點的特徵屬性是怎麼選擇的,這是決策樹的核心。 比較原始的是基於信息熵與信息增益的方法做的,

原创 決策樹與迴歸樹區別到底在哪

前面講了幾節決策樹從底層的構造原理,更多的是面向分類的決策樹,從樹的用途上講還有一種用途,那就是迴歸樹,結構也是樹,但是出來的結果是迴歸值。可能很多人不用迴歸樹做任務的時候很少去管迴歸樹,以至於有時候也不知道它們的區別,但是還是有必要

原创 決策樹與隨機森林與GBDT

本節簡單介紹下隨機森林。前面花了兩節詳細介紹過決策樹的核心內容,這對於理解隨機森林算法很重要。 隨機森林與SVM應該來說被視爲傳統機器學習效果最好的兩大算法,是值得每個機器學習從業者深入瞭解的,從最底層的原理到上層的應用,內部的每個核

原创 arxiv上傳latex文章的方法與坑

如果想在arxiv上掛出文章,通常可以掛pdf與latex兩種格式的,如果pdf是由latex生成的話,一般只能上傳latex源文件,不支持pdf的上傳。 arxiv上上傳latex主要包括以下幾個部分,尤其上傳文件線上編譯一步具有一

原创 spark機器學習之常見的分類算法應用

今天簡單記錄下mllib中常見的分類算法,在分類的子文件夾下主要有三類分類算法:logistic迴歸模型、貝葉斯模型、SVM模型。 logistic迴歸模型 首先需要認清的是邏輯斯蒂迴歸並非迴歸模型,和上節介紹的線性迴歸不一樣,它是屬

原创 決策樹:從特徵的重要程度說起

開始陸續介紹決策樹與隨機森林,理解原理與會用來做分類算法是其一,更重要的是要理解決策樹構造的精髓並加以推廣應用纔是算融會貫通。 先來看看所謂的樹結構,其實很簡單,就是從一個節點往下依次不斷分裂節點的一種結構,比如下面這個圖描述的是根據

原创 《統計學習方法》python代碼資料

分享一則資料,《統計學習方法》的python實現代碼。 《統計學習方法》是李航的一本書,是比較基礎經典的一本書,書中更多的是對基礎傳統機器學習的理論介紹,沒有任何代碼,這算是對代碼的補充。 另外一本書《機器學習實戰》,是包含部分理論與

原创 spark機器學習中的基本數據類型

今天開始記錄spark中機器學習的相關應用。 spark某種意義上講就是爲機器學習準備的,其一,spark是一種內存計算框架,速度快,其二,spark更擅長處理迭代式的數據計算,而迭代運算這是機器學習模型經常遇到的。延申一點,目前大數

原创 spark機器學習之簡單的線性迴歸

今天正式進入機器學習相關算法類的記錄學習。後續會將spark的mllib工具包裏面設計到的迴歸於分類算法介紹一遍,看一下mllib包可以發現,傳統的機器學習算法基本上都包括在裏面,比如線性迴歸,logistic迴歸,貝葉斯分類,svm

原创 spark機器學習中的基本統計量

上節記錄了spark機器學習的數據相關結構,主要是向量與矩陣,本節記錄一些基於這些數據結構的統計量。 在做機器學習中,我們經常需要用到一些向量或者矩陣的統計量,比如求一個向量的均值、方差,求一堆向量的均值向量、協方差等等。 spark

原创 零基礎入門大數據之spark中rdd部分算子詳解

先前文章介紹過一些spark相關知識,本文繼續補充一些細節。 我們知道,spark中一個重要的數據結構是rdd,這是一種並行集合的數據格式,大多數操作都是圍繞着rdd來的,rdd裏面擁有衆多的方法可以調用從而實現各種各樣的功能,那麼通

原创 零基礎入門大數據之spark中的幾種key-value操作

今天記錄一下spark裏面的一些key-value對的相關算子。 key-value對可以簡單理解爲是一種認爲構造的數據結構方式,比如一個字符串"hello",單看"hello"的話,它是一個字符串類型,現在假設我想把它在一個文本中出

原创 零基礎入門大數據挖掘之spark的rdd

本節簡單介紹一下spark下的基本數據結構RDD,方便理解後續的更多操作。 那麼第一個問題,什麼是rdd。我們知道,大數據一般存儲在分佈式集羣裏面,那麼你在對其進行處理的時候總得把它讀出來吧,讀出來後總得把它存成某種格式的文件吧,就好

原创 零基礎入門大數據挖掘之spark中的幾種map

今天再來說一下spark裏面的幾種map方法。前面的文章介紹過單純的map,但是spark還有幾種map值得對比一下,主要是下面幾種: map:普通的map flatMap:在普通map的基礎上多了一個操作,扁平化操作; mapPa

原创 零基礎入門大數據挖掘之reduce方法

上節介紹過大數據裏面(以spark爲例)最爲基礎典型的操作:map方法,map方法直白的理解就是一個分佈式接受處理函數的方法,形式如map(fun),map方法本身不做處理,沒有map方法,裏面的函數fun就是一個單機的處理函數,有了