原创 插值法-解決數據預處理中的缺失

****拉格朗日插值法**** 在平面上有    共n個點,現作一條函數    使其圖像經過這n個點。 作法:作n個多項式    。對於第j個多項式    ,及其角標集    , 構造   是n-1次多項式,且滿足   

原创 決策樹-Cart生成和剪枝算法

***************CART算法概述**********************   Cart算法類似於ID3算法,其將特徵分類爲按GINI係數,找到該特徵下的一個最優節點進行分類,該特徵被分爲2個類別,比如一個類別中有{學生,

原创 GBDT(生)

GBDT主要由三個概念組成:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shrinkage (算法的一個重要演進分枝,目前大部分源碼都按該版本實現)。搞定這三個概念後就能明白

原创 python-關於函數間參數傳遞問題(注意理解,很容易混淆)

先看段代碼,關於遞歸生成鏈表的問題,先自己判斷會輸出什麼,再看結果 class Node: def __init__(self): self.val = None self.next = No

原创 PCA降維的原理及步驟

*****降維的作用***** ①數據在低維下更容易處理、更容易使用; ②相關特徵,特別是重要特徵更能在數據中明確的顯示出來;如果只有兩維或者三維的話,更便於可視化展示; ③去除數據噪聲 ④降低算法開銷 *****降維通俗點的解釋***

原创 Logistic Regression

***********二項邏輯斯蒂分佈****************** 二項邏輯斯蒂迴歸模型是一種分類模型,由條件概率分佈P(Y|X)表示,形式爲參數化的邏輯斯蒂分佈(關於邏輯斯蒂分佈以及概率分佈的基礎知識請看本文附錄)。這裏,隨

原创 L1,L2正則化

正則化引入的思想其實和奧卡姆剃刀原理很相像,奧卡姆剃刀原理:切勿浪費較多東西,去做,用較少的東西,同樣可以做好的事情。 正則化的目的:避免出現過擬合(over-fitting) 經驗風險最小化 + 正則化項 = 結構風險最小化 經驗風

原创 隨機森林

*********************隨機森林概述*************************** 在我們學習隨機森林前,要對決策樹有一定了解,尤其對其中決策樹生成算法要做理解,詳見博客。 森林顧名思義,由很多棵樹組成,這一顆顆

原创 FPgrowth

************************FPgrowth概述和apirior的比較*********************************        頻繁項集挖掘算法用於挖掘經常一起出現的item集合(稱爲頻繁項集

原创 假設檢驗

原理:小概率原理,即認爲如果一個事件概率很小,那麼再一次試驗中,這個事件是‘不會發生的’,或者說幾乎不可能發生,再運用反證法上的思想,提出一個原假設和一個與其互斥的備擇假設,我們假設原假設已經發生了,再去證明他是一個小概率事件,就能說明這

原创 python-zip使用

x = [1, 2, 3] y = [4, 5, 6] z = [7, 8, 9] xyz = zip(x, y, z) print xyz '''結果是:''' [(1, 4, 7), (2, 5, 8), (3, 6, 9)]

原创 EM算法(生)

em算法   最大期望算法(Expectation Maximization Algorithm,又譯期望最大化算法),是一種迭代算法,用於含有隱變量(latent variable)的概率參數模型的最大似然估計或極大後驗概率估計

原创 LDA(生)

***********************示例************************** LDA要乾的事情簡單來說就是爲一堆文檔進行聚類(所以是非監督學習),一種topic就是一類,要聚成的topic數目是事先指定的。聚類

原创 線性分類器和非線性分類器

***********************線性和非線性的區別******************************** 1. 線性linear,指量與量之間按比例、成直線的關係,在數學上可以理解爲一階導數爲常數的函數;    非

原创 python-關於del

python中del刪除的變量而不是變量中的數據,再python中,變量就是一個引用,他指向一塊內存區域,這個內存區域中存放的就是數據,我們使用del,刪除的就是這個引用,並不會影響內存中的數據。 li=[1,2,3,4,5]  #列