數據分析與挖掘（十四）------挖掘建模之聚類分析

聚類分析是在沒有給定劃分類別的情況下，根據數據相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構成的訓練數據不同，聚類模型可以建立在無類標記的數據上，是一種非監督的學習算法。聚類的輸入是一組未被標記的樣本，聚類根據數據自身的距離或相似度將其劃分爲若干組，劃分的原則是組內距離最小化而組件（外部）距離最大化。

常用聚類方法

類別	包括的主要算法
劃分（分裂）方法	K-Means算法（K-平均）、K-MEDOIDS算法（K-中心點）、CLARANS算法（基於選擇的算法）
層次分析方法	BIRCH算法（平衡迭代規約和聚類）、CURE（代表點聚類）、CHAMELEON算法（動態模型）
基於密度的方法	DBSCAN算法（基於高密度連接區域）、DENCLUE算法（密度分佈函數）、OPTICS算法（對象排序識別）
基於網格的方法	STING算法（統計信息網絡）、CLIOUE算法（聚類高維空間）、WAVE-CLUSTER算法（小波變換）
基於模型的方法	統計學方法，神經網絡方法

常用聚類分析算法

算法名稱	算法描述
K-Means	K-均值聚類也稱爲快速聚類法，在最小化誤差函數的基礎上將數據劃分爲預定的類數K。該算法原理簡單並便於處理大量數據。
K-中心點	K-均值算法對孤立點的敏感性，K-中心點算法不採用簇中對象的平均值作爲簇中心，而選用簇中離平均值最近的對象作爲簇中心
系統聚類	系統聚類也稱爲多層次聚類，分類的結構由高到低呈樹形結構，並且所處的位置越低，其所包含的對象就越少，但這些對象間的共同特徵越多。該聚類方法只適合在小數據量時候使用，數據量大的時候速度會非常慢。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據分析與挖掘（十四）------挖掘建模之聚類分析

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

數據分析與挖掘筆記（十三）------挖掘建模之分類預測模型特點

mysql插值出現 1366, "Incorrect string value 錯誤

數據分析與挖掘（十五）------挖掘建模之K-Means聚類算法

數據分析與挖掘（十四）------挖掘建模之聚類分析

數據分析與挖掘筆記（十二）------挖掘建模之分類與預測算法評價

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結