數據分析--十大算法

一、學習路線

數分學習路線.png

二、算法

  1. C4.5 決策樹算法,在創建的過程中進行剪枝,並且可以處理連續的屬性,也可以對不完整的數據進行處理。他是決策樹算法中具有里程碑式的算法。
  2. 樸素貝葉斯(Naive Bayes) 基於概率論的原理。基本思想:對於給出的具體物體想進行分類就要 算出這個物體出現條件下各個類別出現的概率,那個概率最大,該物體就屬於哪一類。
  3. SVM 支持向量機算法。SVM在訓練過程中建立了超平面的分類模型,將低維的數據映射到高維進行分類。
  4. KNN K最近鄰算法,K-Nearest Neighbour。所謂的K近鄰,就是每個樣本都可以用它最接近的K個鄰居來代表。即一個樣本,他的K個最近的鄰居都屬於分類A,那麼這個樣本也屬於分類A。
  5. AdaBoost 自適應提升算法,他在分類時建立了一個聯合的分類模型,他可以用多個弱分類器組成一個強的分類器。
  6. CART Classification And Regression Trees,和C4.5一樣他是一個決策樹算法。
  7. Apriori 挖掘關聯規則(associate rules)算法,他通過挖掘頻繁項集(frequent item sets)來揭示物品之間的關聯關係,他被廣泛運用到商業挖掘和網絡安全等領域。
  8. K-Means 聚類算法,將所有物體劃分成K類。假設每個類裏面都有”中心點“,即意見領袖,他時這個類的核心。這時如果有一個新的物品要進行分類,這時就只要計算這個點與K箇中心點的距離,與那個中心點近,就屬於那個類。
  9. EM 聚類算法,也叫最大期望算法,是求參數的最大似然估計的一種方法。原理是這樣的:假設我們想要評估參數 A 和參數 B,在開始狀態下二者都是未知的,並且知道了 A 的信息就可以得到 B 的信息,反過來知道了 B 也就得到了 A。可以考慮首先賦予 A 某個初值,以此得到 B 的估值,然後從 B 的估值出發,重新估計 A 的取值,這個過程一直持續到收斂爲止。、
  10. PangRank PageRank 起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強。同樣 PageRank 被 Google 創造性地應用到了網頁權重的計算中:當一個頁面鏈出的頁面越多,說明這個頁面的“參考文獻”越多,當這個頁面被鏈入的頻率越高,說明這個頁面被引用的次數越高。基於這個原理,我們可以得到網站的權重劃分。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章