一,引言
之前幾個章節討論的都是監督聚類,從本章開始討論非監督聚類,即訓練模式不帶標籤的情形。
聚類的步驟:
1,特徵選擇。選取最能夠表示我們目標物體信息的特徵。
2,相似性度量。給出兩個特徵量相似點或者不想似的地方。
3,聚類標準。聚類標準。可能由損耗函數(cost function)或者其他形式表達。
4,聚類算法。根據相似性度量和聚類標準,闡明數據的結構。
5,結果驗證。
6,解釋結果。
不同的特徵、相似性度量、聚類標準和聚類算法會導致完全不同的結果。
主觀性會一直伴隨我們。(Subjectivity is a reality we have to live with from now on.)
聚類的應用:
1,數據簡化。
2,提出假設。
3,驗證假設。
4,基於組羣的預測。
二,相似性度量
1,點間度量
2,點和數據集間度量
3,數據集間度量