模式識別學習筆記（12）——聚類

原創

Carol__Deng

2020-05-31 21:32

聚類

對一批沒有類別標籤的樣本集，按照樣本之間的相似程度分類，相似的歸爲一類，不相似的歸爲其它類。這種分類稱爲聚類分析，也稱爲無監督分類。

--聚類的質量(或結果)取決於對度量標準的選擇。
--聚類結果因不同任務而不同。

挑戰性問題

–可伸縮性
•可伸縮性是指聚類算法無論對於小數據集還是大數據集，都應有效；無論對小類別數據還是大別類數據，都應有效。
–具有不同類型的數據處理能力
•既可處理數值型數據，也可處理非數㨁型數據；既可處理離散數據，也可處理連續域內的數據。比如布爾型、時序型、枚舉型、以及這些類型的混合。
–能夠發現任意形狀的聚類
•能夠發現任意形狀的簇，球狀的、位於同一流形上的數據。因此，選擇合適的距離度量很關鍵。

–能夠處理高維數據
•既可處理屬性較少的數據，也可處理屬性較多的數據。
•在高維空間聚類更具挑戰性，隨着維數的增加，具有相同距離的兩個樣本其相似程度可以相差很遠。對於高維稀疏數據，這一點更突出。
–對噪聲魯棒
•在實際中，絕大多數樣本集都包含噪聲、空缺、部分未知屬性、孤立點、甚至錯誤數據。

–具有約束的聚類
•在實際應用中，通常需要在某種約束條件下進行聚類，既滿足約束條件，以希望有高聚類精度，是一個挑戰性問題。
–對初始輸入參數魯棒
•具有自適應的簇數判定能力（一直沒有解決好）。
•對初始聚類中心魯棒。
–能夠解決用戶的問題
•聚類結果能被用戶所理解，並能帶來經濟效益，特別是在數據挖掘領域。