聚類
--聚類結果因不同任務而不同。
挑戰性問題
•可伸縮性是指聚類算法無論對於小數據集還是大數據集,都應有效;無論對小類別數據還是大別類數據,都應有效。
–具有不同類型的數據處理能力
•既可處理數值型數據,也可處理非數㨁型數據;既可處理離散數據,也可處理連續域內的數據。比如布爾型、時序型、枚舉型、以及這些類型的混合。
–能夠發現任意形狀的聚類
•能夠發現任意形狀的簇,球狀的、位於同一流形上的數據。因此,選擇合適的距離度量很關鍵。
•既可處理屬性較少的數據,也可處理屬性較多的數據。
•在高維空間聚類更具挑戰性,隨着維數的增加,具有相同距離的兩個樣本其相似程度可以相差很遠。對於高維稀疏數據,這一點更突出。
–對噪聲魯棒
•在實際中,絕大多數樣本集都包含噪聲、空缺、部分未知屬性、孤立點、甚至錯誤數據。
•在實際應用中,通常需要在某種約束條件下進行聚類,既滿足約束條件,以希望有高聚類精度,是一個挑戰性問題。
–對初始輸入參數魯棒
•具有自適應的簇數判定能力(一直沒有解決好)。
•對初始聚類中心魯棒。
–能夠解決用戶的問題
•聚類結果能被用戶所理解,並能帶來經濟效益,特別是在數據挖掘領域。
一、距離與相似度度量
二、混合密度函數
三、K-均值聚類(K-means clustering)
– 各類出現的先驗概率均相等;
– 每個均本點以概率爲1屬於一個類(後驗概率0-1近似);
--隸屬度函數是表示一個對象 x 屬於集合 A 的程度,其自變量的取值範圍爲所有可能屬於集合 A 的對象。
參考資料:
中國科學院大學碩士課《模式識別》ppt