預測性分析
分類
-
決策樹算法
計算步驟:
選擇對象的一個特徵,並根據這一特徵對訓練集進行分類
計算某特徵分類後分類結果的混亂程度 (使用基尼係數,係數越小越接近根結點)
以混亂程度最低爲原則,確定最佳節點 刪除不必要的節點 生成模型進行預測
-
隨機森林算法
-
KNN-最近鄰分類算法
-
神經網絡算法
聚類
僅依據數據中發現的描述對象的特徵,將數據進行分組,其目標是,組內的對象相互間是相似的,面不同組之間的對象是不同的
- K-means
是以最小誤差函數的值最小爲目標,按照預設的分類數量,採用距離作爲相似性的評價指標,認爲兩個對象的距離越近,其相似度越大
常用計算距離方式:
- K-中心點
- 多層次聚類
關聯分析
關聯分析是發現隱藏在大型數據集下有意義的聯繫
分析步驟:
1. 支持度計數: 項 X,Y 同時出現的次數
2. 計算支持度:支持度 = 項 X,Y同時出現的次數/事務庫的事務總數
3. 置信度計數:計算項Y在項X出現的事物中出現的次數
4. 計算置信度:項Y在項X中出的事物置信度= (X,Y)的置信度計數/項X出現的次數
5. 確定頻繁項集:按照預告設定的支持度和置信度確定頻繁項集
難點:如何快速發現頻繁項集
常用算法:
APriori: 最常用也是最經典的關聯分析算法,其核心是通過連接產生候選項集和其支持度,然後通過剪枝產生頻繁項集
FP-Tree
APriori算法
核心目標:降低產生頻繁項集的複雜度
核心思想:
1. 如果一個項集是頻繁的,那麼它的所有子集都是頻繁的
2. 如果一個項集是非頻繁的,那麼它的所有超集也是非頻繁的
步驟:
1. 尋找頻繁項集
2. 計算置信度
離羣點檢測
檢測方法:
- 基於統計
大部分的基於統計的離羣點檢測方法是構建一個概率分佈模型,並計算對象符合該模型的概率,把具有低概率的對象視爲離羣點
拉伊達準則
3 ∂原則
等概率準則
拉格布斯準則
箱型圖 - 基於鄰近度
通常可以在數據對象之間定義鄰近性度量,把遠離大部分的對象視爲離羣點 - 基於密度
考慮數據可能存在於不同密度區域這一事實,從基於密度觀點分析,離羣點是在低密度區域中的對象,一個對象的離羣點得分是該對象周圍密度的逆