機器學習(西瓜書)註解:第9章 聚類
本次更新第9章,聚類。針對該章註解有任何問題歡迎在此留言~
本章介紹無監督學習中最典型的任務:聚類。正如書中第217頁閱讀材料說到:聚類也許是機器學習中“新算法”出現最多、最快的領域。因此本章勉強採用了“列舉式”的敘述方式,相較於其它各章給出了更多的算法描述。
除了本章介紹的k均值算法、學習向量量化、高斯混合聚類,以及DBSCAN和AGNES之外,個人感覺閱讀材料中提到的k-modes與譜聚類也應該瞭解一下。
k-modes針對離散屬性的樣本聚類,實際上就是替換了k均值算法的距離計算方式。k均值算法一般使用歐氏距離,但該距離僅針對連續屬性;而當屬性爲離散值時,如第76頁表4.1西瓜數據集2.0(去除最後一列“好瓜”),假設要計算編號1和編號2之間的距離,式(9.21)給出的VDM當然是一種備選,但k-modes使用了更簡單的辦法:若屬性值相同,則距離爲0,若屬性不同,則距離爲1,因此編號1和編號2之間的距離爲2,因爲它們只有在色澤和敲聲兩個屬性上面取值不同。
譜聚類是一種基於圖論的聚類方法。簡單來說將每個樣本看作無向圖的頂點,各頂點之間的某種關聯性度量作爲無向圖的邊,常用的度量方式是第301頁的式(13.11),聚類任務要將無向圖分割成若干個簇,即無向圖的部分邊要被去除,譜聚類試圖使去除的邊的權重之和最小,而這實際上類似於圖分割(Graph Partition)。有關譜聚類的詳細介紹可參見參考文獻[von Luxburg, 2007]或參見博客園兩篇博客:https://www.cnblogs.com/pinard/p/6221564.html和https://www.cnblogs.com/Leo_wl/p/3156049.html。
George Karypis (http://glaros.dtc.umn.edu/)是圖分割的知名學者,其開發的軟件包METIS被廣泛使用(在西瓜書作者所著的集成學習英文專著《Ensemble Methods: Foundations and Algorithms》的第7.4節,講述基於圖方法的聚類集成算法,其中就提到了METIS工具包中的hMETIS);但METIS並不容易琢磨明白,個人還發現一個非常簡單易懂的MATLAB圖分割程序grPartition (https://www.ece.ucsb.edu/~hespanha/software/grPartition.html),從其分割結果可以看出,圖分割本身也是一種聚類。
(網盤鏈接:https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w)
第 9 章目錄
第 9 章 聚類.....................................................................................................................................1
9.1 聚類任務............................................................................................................................1
9.2 性能度量............................................................................................................................1
1、式(9.7)的解釋.............................................................................................................1
2、式(9.8)的解釋.............................................................................................................1
3、式(9.12)的解釋...........................................................................................................1
9.3 距離計算............................................................................................................................1
1、歐氏距離和曼哈頓距離...............................................................................................2
2、式(9.21)的解釋...........................................................................................................2
9.4 原型聚類............................................................................................................................2
1、式(9.28)的解釋...........................................................................................................3
2、式(9.29)的解釋...........................................................................................................3
3、式(9.30)的解釋...........................................................................................................3
4、式(9.31)的解釋...........................................................................................................4
5、式(9.32)的解釋...........................................................................................................4
6、式(9.33)的推導...........................................................................................................4
7、式(9.34)的推導...........................................................................................................6
8、式(9.35)的推導...........................................................................................................6
9、式(9.36)的解釋...........................................................................................................8
10、式(9.37)的推導 ........................................................................................................8
11、式(9.38)的推導 ........................................................................................................8
12、圖 9.6 的解釋...........................................................................................................9
9.5 密度聚類............................................................................................................................9
1、密度直達、密度可達、密度相連...............................................................................10
2、圖 9.9 的解釋............................................................................................................10
9.6 層次聚類...........................................................................................................................11
9.7 本章小節...........................................................................................................................11