《高維數據的聚類分析研究及其應用》讀書筆記

一、高維聚類の研究方向

        由於高維數據的稀疏性等特徵,使得在高維聚類的研究中有如下幾個研究重點:

1)維度約簡,主要分爲特徵變換和特徵選擇兩大類。前者是對特徵空間的變換映射,常見的有PCA、SVD等。後者則是選擇特徵的子集,常見的搜索方式有自頂向下、隨機搜索等;

2)高維聚類算法,主要分爲高維全空間聚類和子空間聚類算法。前者的研究主要聚焦在對傳統聚類算法的優化改進上,後者則可以看做維度約簡的推廣;

3)聚類有效性,是對量化評估方法的研究;

4)聚類結果表示方法;

5)高維數據索引結構;

6)高維離羣點的研究...


二、該論文主要貢獻

        該論文主要聚類於維度約簡和聚類初始中心點選擇兩方面,前者作者提出了基於多層過濾的方法:先將特徵重要度作爲啓發式信息來對遺傳算法的初始羣體進行優化,而後利用粗糙集的特性。對後者的研究,作者提出了一種基於點的局部密度的簇中心點初始化機制。同時,作者還提出了一種新的局部密度因子度量SNDF。


三、傳統聚類方法

1.基於劃分的方法

         即給定一個數據集,將其劃分爲k個子集,每個子集代表一個聚類。基於劃分的聚類方法包括K-means、K-medoids、K-modes、CLARA等。

2.基於層次的聚類

        基於層次的聚類方法按照分裂或合併的原則,爲數據集構造層次聚類樹,根據終止條件得到聚類樹某個層次上的聚類結果。根據樹的構造方法可以分爲如下兩類:





3.基於密度的聚類

         即使用密度來描述數據點之間的相似度,並將簇看做是數據空間中被低密度區域分隔開的高密度對象區域,而低密度區域中的數據點爲噪聲。

4.基於網格的方法

         即將對象空間劃分爲有限數目的單元以形成網絡結構。

5.基於模型的方法

         即爲每個聚類假設一個模型,然後再去發現符合相應模型的數據對象。它根據標準統計方法並考慮到“噪聲”或異常數據,可以自動確定聚類個數,因此有很好的魯棒性。


四、高維數據聚類分析

1.分析過程


2.維度約簡

         一方面,“維度效應”使得數據點之間的密度和距離的定義變得不太有意義;另一方面,冗餘和不相關的特徵將導致聚類質量下降。

         1)特徵變換

                  即在輸入特徵空間上做變換(如線性變換等)得到新的特徵空間。該方法生成新的特徵(可解釋性和可理解性變差),但本質上並沒有刪除不相關或冗餘特徵

         2)特徵選擇

                  即從原始特徵空間中選擇一個優化的特徵子集參與聚類。根據特徵選擇過程中是否有類標籤參與,分爲有指導和無指導兩類方法。

3.高維數據聚類算法

          1)全空間聚類

                  全空間聚類的一個主要類別是基於維度空間的變換,即聚類算法本身將高維空間上的問題映射到低維空間或更高維的數據空間中尋找簇。如基於超圖模型的方法使用“頻繁項集支持度”度量多個對象之間的相似度,從而將高維數據聚類問題轉換爲超圖分割尋優的問題。基於核的聚類方法用核函數將原始空間的對象映射到更高維的特徵空間,以此放大高維數據點間的差異來進行更準確的聚類。

                  另一個方法主要是基於改進的傳統聚類算法

         2)子空間聚類

                  目前爲止,所考慮的高維聚類算法都是基於所有的特徵來發現簇。子空間聚類是從另一個角度處理高維數據聚類。由於不同的簇可能與不同的子空間特徵子集相關聯,一些算法就把原始全空間劃分爲不同的子空間,從子空間考察聚類的存在,並在聚類的過程中爲每個簇尋找相應的特徵子集。與全空間的維度約簡方法相對應,子空間聚類算法實際上可以看作是一種局部維度約簡方法


五、特徵選擇算法

         關於特徵選擇算法的研究主要集中在兩方面:如何有效地產生候選特徵子集(特徵搜索策略),以及如何評價特徵子集。另外,不同的應用環境需要制定相應的搜索策略和特徵度量準則來實現高效的特徵降維。


六、高維數據的聚類初始化方法

         多數傳統的初始化方法是基於全空間的距離或數據點密度進行,並且傳統的初始化方法無法排除“噪聲點”和“離羣點”的影響。

1.傳統的初始化方法

         1)基於隨機抽取初始化方法

                  雖然這類方法是普遍使用的基本方法,然而所生成的隨機初始聚類中心可能會導致聚類算法迭代最終在局部最優的結果上。除此之外,隨機初始化很容易選中噪聲點或離羣點作爲初始聚類質心,進而影響聚類效率和質量。

         2)基於距離最優的初始化方法

                  很多聚類算法的思想是將簇類內部差異最小化,並且讓聚類之間的分離最大化。因此,考慮最優化聚類之間距離即簇中心之間距離增大能夠使得聚類後的數據具有滿意的分離度。


         3)基於密度評估的初始化方法

                  基於密度的初始化方法是以輸入數據滿足高斯混合分佈的假設爲前提的。從而通過識別出輸入樣本點的密集區域,將這些密集區域的樣本點選爲初始的聚類 中心點,以此找到密集的聚類。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章