聚類是一種無監督的學習,它將相似的對象歸到同一個簇中。聚類分析試圖將相似對象歸入同一簇,將不相似對象歸到不同簇。聚類方法幾乎可以應用於所有對象,簇內的對象越相似,聚類的效果越好。
聚類的概念
(1)聚類就是將集合劃分成由類(相)似的對象組成的多個類的過程。
(2)聚類分析是研究(樣品或指標)分類問題的一種統計分析方法。
(3)聚類所要求劃分的類是未知的,一般把它理解爲無監督學習。而分類算法是有訓練樣本的,屬於監督學習。
聚類的典型應用
(1)聚類可以幫助市場分析人員從客戶基本信息庫中發現不同的客戶羣;
(2)在生物學上,聚類可以根據生物基因結構,推導出植物和動物的物種分類,從而獲得對生物種羣固有結構的認識;
(3)聚類還能從地球觀測數據庫中找到地形、地貌等地理特徵相似的區域,提供生物物種或病蟲害預警信息;
(4)根據房屋的類型、價值和地理位置等信息對城市房屋進行聚類分組,爲客戶提供房屋資產評估服務。
聚類常見算法分類
(1)劃分聚類:大部分方法是基於距離的聚類算法。例如:k-MEANS、k-MEDOIDS、CLARANS等。
(2)層次聚類:例如:BIRCH、CURE、CHAMELEON等。層次聚類可採用“自底向上”或“自頂向下”方案。在“自底向上”方案中,初始時每一個數據紀錄都被視作一個單獨的簇,接着再把那些相互鄰近的簇合併成一個新的簇,直到所有的記錄都在一個簇或者滿足某個終止條件爲止。
(3)密度聚類:該方法是基於(結點)密度的聚類算法,主要算法有:DBSCAN、OPTICS、DENCLUE等。只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。
(4)網格聚類:主要算法有:STING、CLIQUE、WAVE-CLUSTER。將數據空間按某種特徵(屬性)劃分成網格,聚類處理以網格(單元)爲基本單位。
聚類與分類的區別
在日常生活中,我們會對生活垃圾進行各種分類,比如可回收垃圾、有害垃圾等,垃圾處理時的“可回收”、“有害”等關鍵字就是分類的依據。在計算機進行數據處理時,用於分類的關鍵字被稱爲標籤,通過數據中的標籤進行劃分就是我們所說的分類算法。那麼,如果垃圾本身沒有可以記錄的標籤呢?計算機會根據相似性原則將數據歸爲數類,這種基於無標籤的分類算法就是聚類算法。