模式識別學習筆記(12)——聚類

聚類

對一批沒有類別標籤的樣本集,按照樣本之間的相似程度分類,相似的歸爲一類,不相似的歸爲其它類。這種分類稱爲聚類分析,也稱爲無監督分類
--聚類的質量(或結果)取決於對度量標準的選擇。
--聚類結果因不同任務而不同





挑戰性問題

–可伸縮性
•可伸縮性是指聚類算法無論對於小數據集還是大數據集,都應有效;無論對小類別數據還是大別類數據,都應有效。
–具有不同類型的數據處理能力
•既可處理數值型數據,也可處理非數㨁型數據;既可處理離散數據,也可處理連續域內的數據。比如布爾型、時序型、枚舉型、以及這些類型的混合。
–能夠發現任意形狀的聚類
•能夠發現任意形狀的簇,球狀的、位於同一流形上的數據。因此,選擇合適的距離度量很關鍵。
–能夠處理高維數據
•既可處理屬性較少的數據,也可處理屬性較多的數據。
•在高維空間聚類更具挑戰性,隨着維數的增加,具有相同距離的兩個樣本其相似程度可以相差很遠。對於高維稀疏數據,這一點更突出。
–對噪聲魯棒
•在實際中,絕大多數樣本集都包含噪聲、空缺、部分未知屬性、孤立點、甚至錯誤數據。
–具有約束的聚類
•在實際應用中,通常需要在某種約束條件下進行聚類,既滿足約束條件,以希望有高聚類精度,是一個挑戰性問題。
–對初始輸入參數魯棒
•具有自適應的簇數判定能力(一直沒有解決好)。
•對初始聚類中心魯棒。
–能夠解決用戶的問題
•聚類結果能被用戶所理解,並能帶來經濟效益,特別是在數據挖掘領域。

一、距離與相似度度量
距離



相似性


相似性度量


二、混合密度函數


三、K-均值聚類(K-means clustering)
根據迭代準則可分爲兩種:
1、樣本點到類中心的歐氏距離
引入如下假設:
– 各類出現的先驗概率均相等;
– 每個均本點以概率爲1屬於一個類(後驗概率0-1近似);


初始值對結果有影響,選的不好會導致聚類

2、“最小誤差平方和”準則





k-均值是在協方差矩陣爲單位矩陣條件下的結果,只有均值越準確,對下一步的劃分才越準確。




模糊k-均值聚類

模糊集

--在傳統集合理論中,一個元素或者屬於一個集合,或者不屬於一個集合。對於模糊集而言,一個元素是以一定的程度屬於某個集合,也可以以不同的程度屬於幾個集合。這一描述引伸出一個重要的概念--模糊集中元素的“隸屬度”。

--隸屬度函數是表示一個對象 x 屬於集合 A 的程度,其自變量的取值範圍爲所有可能屬於集合 A 的對象。



參考資料:

中國科學院大學碩士課《模式識別》ppt









發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章