06數據分析 - 預測性分析

預測性分析

分類

  1. 決策樹算法
    計算步驟:
    選擇對象的一個特徵,並根據這一特徵對訓練集進行分類
    計算某特徵分類後分類結果的混亂程度 (使用基尼係數,係數越小越接近根結點)
    在這裏插入圖片描述

     以混亂程度最低爲原則,確定最佳節點
     刪除不必要的節點
     生成模型進行預測	
    
  2. 隨機森林算法

  3. KNN-最近鄰分類算法

  4. 神經網絡算法

聚類

僅依據數據中發現的描述對象的特徵,將數據進行分組,其目標是,組內的對象相互間是相似的,面不同組之間的對象是不同的

  1. K-means
    是以最小誤差函數的值最小爲目標,按照預設的分類數量,採用距離作爲相似性的評價指標,認爲兩個對象的距離越近,其相似度越大
    常用計算距離方式:
    在這裏插入圖片描述
    在這裏插入圖片描述
    1. K-中心點
    2. 多層次聚類

關聯分析

關聯分析是發現隱藏在大型數據集下有意義的聯繫
分析步驟:
1. 支持度計數: 項 X,Y 同時出現的次數
2. 計算支持度:支持度 = 項 X,Y同時出現的次數/事務庫的事務總數
3. 置信度計數:計算項Y在項X出現的事物中出現的次數
4. 計算置信度:項Y在項X中出的事物置信度= (X,Y)的置信度計數/項X出現的次數
5. 確定頻繁項集:按照預告設定的支持度和置信度確定頻繁項集

難點:如何快速發現頻繁項集
常用算法:
APriori: 最常用也是最經典的關聯分析算法,其核心是通過連接產生候選項集和其支持度,然後通過剪枝產生頻繁項集
FP-Tree

APriori算法
核心目標:降低產生頻繁項集的複雜度
核心思想:
1. 如果一個項集是頻繁的,那麼它的所有子集都是頻繁的
2. 如果一個項集是非頻繁的,那麼它的所有超集也是非頻繁的
步驟:
1. 尋找頻繁項集
2. 計算置信度
在這裏插入圖片描述

離羣點檢測

檢測方法:

  1. 基於統計
    大部分的基於統計的離羣點檢測方法是構建一個概率分佈模型,並計算對象符合該模型的概率,把具有低概率的對象視爲離羣點
    拉伊達準則
    3 ∂原則
    等概率準則
    拉格布斯準則
    箱型圖
  2. 基於鄰近度
    通常可以在數據對象之間定義鄰近性度量,把遠離大部分的對象視爲離羣點
  3. 基於密度
    考慮數據可能存在於不同密度區域這一事實,從基於密度觀點分析,離羣點是在低密度區域中的對象,一個對象的離羣點得分是該對象周圍密度的逆
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章