06數據分析 - 預測性分析

原創

昵称诚诚

2020-04-27 20:41

預測性分析

聚類

僅依據數據中發現的描述對象的特徵，將數據進行分組，其目標是，組內的對象相互間是相似的，面不同組之間的對象是不同的

K-means
是以最小誤差函數的值最小爲目標，按照預設的分類數量，採用距離作爲相似性的評價指標，認爲兩個對象的距離越近，其相似度越大
常用計算距離方式：
1. K-中心點
2. 多層次聚類

關聯分析

關聯分析是發現隱藏在大型數據集下有意義的聯繫
分析步驟：
1. 支持度計數: 項 X,Y 同時出現的次數
2. 計算支持度：支持度 = 項 X,Y同時出現的次數/事務庫的事務總數
3. 置信度計數：計算項Y在項X出現的事物中出現的次數
4. 計算置信度：項Y在項X中出的事物置信度= （X,Y）的置信度計數/項X出現的次數
5. 確定頻繁項集：按照預告設定的支持度和置信度確定頻繁項集

難點：如何快速發現頻繁項集
常用算法：
APriori: 最常用也是最經典的關聯分析算法，其核心是通過連接產生候選項集和其支持度，然後通過剪枝產生頻繁項集
FP-Tree

APriori算法
核心目標：降低產生頻繁項集的複雜度
核心思想：
1. 如果一個項集是頻繁的，那麼它的所有子集都是頻繁的
2. 如果一個項集是非頻繁的，那麼它的所有超集也是非頻繁的
步驟：
1. 尋找頻繁項集
2. 計算置信度

離羣點檢測

檢測方法：

基於統計
大部分的基於統計的離羣點檢測方法是構建一個概率分佈模型，並計算對象符合該模型的概率，把具有低概率的對象視爲離羣點
拉伊達準則
3 ∂原則
等概率準則
拉格布斯準則
箱型圖
基於鄰近度
通常可以在數據對象之間定義鄰近性度量，把遠離大部分的對象視爲離羣點
基於密度
考慮數據可能存在於不同密度區域這一事實，從基於密度觀點分析，離羣點是在低密度區域中的對象，一個對象的離羣點得分是該對象周圍密度的逆

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

06數據分析 - 預測性分析

預測性分析

分類

聚類

關聯分析

離羣點檢測

07 數據分析- 決策性分析

06數據分析 - 預測性分析

05 數據分析 - 診斷性分析方法

04數據分析- 描述性分析方法

03 數據分析之分佈分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結