非監督學習——層次聚類與密度聚類

目錄

層次聚類:

單鏈接聚類:

全連接聚類法:

組平均聚類法:

離差平方和法:

層次聚類sklearn:

層次聚類總結:

層次聚類附錄:

密度聚類:

DBSCAN:

密度聚類sklearn:

密度聚類總結:

密度聚類附錄:


層次聚類:

層次聚類:單連接聚類、全連接聚類、組平均聚類、離差平方和法。

單鏈接聚類:

1、步驟:

  • 假設每個點是一個類,給每個點做標記。
  • 計算任意兩點之間的距離,選擇兩個類之間的最短距離,將兩個點聚成一個類。

2、系統樹圖是衡量類間的距離是區分不同層次聚類法的一種方法。

系統樹圖:

3、凝聚聚類是層次聚類法的一部分。

K-Means和單層聚類的對比:

單層連接和系統樹圖:

全連接聚類法:

1、選擇的是兩類之間最遠的距離。

2、全連接比單連接產生的類更緊湊。

組平均聚類法:

1、計算的是任意兩類中任意兩點之間的距離,然後取平均值,即爲兩類之間的距離。

離差平方和法:

1、把合併類時的變量最小化,兩類的中心點,所有點到這個點的平方並相加,減去類中的變量(每個類的中心點,減去每個類的平方),找到最小值。

層次聚類sklearn:

層次聚類總結:

1、單連接是查看與聚類最近的點,這可能導致形成各種形狀的聚類。離差平方和法和平均連接算法一般傾向於導致緊湊的聚類。

2、優缺點:

優點:

  • 得到層次的表達,信息豐富
  • 數據集的聚類結構可視化
  • 特別當數據內部有層次關係的時候

缺點:

  • 對噪聲和離羣點很敏感
  • 計算量大,O(N^{2})

層次聚類附錄:

 Using Hierarchical Clustering of Secreted Protein Families to Classify and Rank Candidate Effectors of Rust Fungihttps://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029847

密度聚類:

DBSCAN:

1、具有噪聲的基於密度的空間聚類,把分佈相對密集、距離較近的點聚到一起。不是所有的點都是類的一部分,沒有被分到類裏面的點被當做噪聲。

2、DBSCAN沒有類的數目這個參數,它有兩個參數:鄰域、點的最小量。

3、把點分成這三類:噪聲、中心點和邊界點。

密度聚類sklearn:

密度聚類總結:

1、優缺點:

優點:

  • 不需要指明類的數量
  • 能靈活的找到並分離各種形狀和大小的類
  • 能夠強有力地處理噪聲和離羣點

缺點:

  • 兩個類共同可達的邊界點,由於點是隨機被訪問的,所以不能保證每次傳回相同的聚類
  • 找到不同密度的類有一定的困難,可用HDBSCAN,既有噪聲的基於密度的高層次空間聚類算法。

密度聚類附錄:

 可視化 DBSCAN 聚類:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

參考文獻:https://pages.cpsc.ucalgary.ca/~mahanti/papers/clustering.pdf

https://ieeexplore.ieee.org/abstract/document/5946052

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章