【數據挖掘】高斯混合模型 ( 模型簡介 | 軟聚類 | 概率作用 | 高斯分佈 | 概率密度函數 | 高斯混合模型參數 | 概率密度函數 )



I . 高斯混合模型方法 ( GMM )



1 . 高斯混合模型 與 K-Means 相同點 : 高斯混合模型方法 與 K-Means 方法 , 都是通過多次迭代 , 每次迭代都對聚類結果進行改進 , 最終達到算法收斂 , 聚類分組結果達到最優 ;


2 . 高斯混合模型 與 K-Means 不同點 :


① K-Means 方法 : 使用 K-Means 方法的 聚類結果是 某個樣本 被指定到 某個聚類分組中 ;

② 高斯混合模型 : 高斯混合模型的聚類分析結果是 , 某個樣本 被分到了 某個聚類分組 中 , 但是除此之外還給出了 該樣本 屬於 該聚類概率 , 意思是 該樣本 並不是 一定屬於該聚類 , 而是有一定機率屬於 ;

③ 高斯混合模型 應用場景 : 高斯混合模型 需要訓練學習出 概率密度函數 , 該方法除了用於 聚類分析 外 , 還可以用於 密度估計 等用途 ;



II . 硬聚類 與 軟聚類



硬聚類 與 軟聚類 :


① 硬聚類 (硬指派 ) : K-Means 方法中 , 每個數據集樣本 , 都被指派了一個聚類分組 ;

② 軟聚類 ( 軟指派 ) : 高斯混合模型方法中 , 每個數據集樣本 , 也都被指派了一個聚類分組 , 此外還指定了該樣本屬於該聚類分組的概率 , 即該樣本不一定屬於該聚類分組 , 有一定機率屬於其他聚類分組 ;

③ 硬指派概率 : 硬指派中 , 樣本如果屬於某個聚類分組 , 就是 100% 屬於 , 如果不屬於某聚類 , 就是 0% 屬於 , 沒有概率的概念 ;



III . GMM 聚類結果概率的作用



1 . 概率信息 : 高斯混合模型 方法 的 聚類結果 附帶 樣本 屬於 聚類 的 概率 , 其包含的信息量 遠遠高於 K-Means 方法的 單純的樣本聚類分組 ;


2 . 聚類概率 : 聚類算法並不是萬能的 , 不能保證 100% 準確 , 這裏可以將 高斯混合模型 樣本 的 聚類分組 概率值 , 轉爲一個評分 , 用該評分表示 聚類結果 的準確性 ;


3 . 評分作用 : 同一個聚類分析 , 使用不同的方法 , 得到 多個結果 , 每個結果都有 聚類概率 轉化的一個評分 , 可以將 聚類結果評分 最高的那個結果 當做 最終結果 ;


4 . 示例 : 疾病診斷場景 , 爲病人樣本進行聚類分組 , 最終結果是 49%49\% 的概率分到得病的聚類分組 , 51%51\% 分到不得病的聚類分組 , 如果靠機器判定該病人樣本是否得病 , 風險太大了 , 這裏保守的方法是計算機給出意見 , 但是不能下決定 , 讓醫生根據這個 聚類 和 概率 進行後續的診斷治療工作 ;



IV . 高斯混合分佈



高斯混合分佈 概念 : 高斯混合模型 數據集樣本 服從 高斯混合分佈 ;


① 高斯分佈 : 又叫 正態分佈 , 常態分佈 ; 高斯分佈曲線兩頭低 , 中間高 , 呈鐘形 , 又叫鐘形曲線 ;

② 高斯混合分佈 : kk 個高斯分佈 生成 高斯混合分佈 , 這裏的 kk 是聚類分組的個數 ;



V . 概率密度函數



概率密度函數 :


① 組件 ( 高斯分佈 ) :每個高斯分佈 , 都是一個組件 , 代表一個聚類分組中的樣本分佈 ;

② 組件疊加 ( 高斯混合分佈 ) : kk 個組件 ( 高斯分佈 ) 線性疊加 , 組成了 高斯混合模型的 概率密度函數 ;


p(x)=i=1kωig(xμi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )


xx 表示數據集樣本中的 單個樣本數據對象 ;

ωi\omega_i 是權重係數 , 表示某個 高斯模型 的重要程度, 重要的分佈 , ωi\omega_i 值大 , 不重要的分佈 , ωi\omega_i 權重小 ;

ωi\omega_i 表示該 xx 樣本由第 ii 個 高斯分佈 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ; ii 代表了高斯分佈的序號 , 聚類分組的序號 , 組件的序號, 其取值範圍是 0ik0 \, \leq i \leq \, k ;

kk 表示 高斯分佈 ( 正態分佈 / 組件 ) 的個數 , 也是聚類分組的個數 , 每個聚類分組的樣本都是 高斯分佈 ( 正態分佈 ) 的 ;

g(xμi,Σi)g ( x | \mu_i , \Sigma_i ) 是高斯模型 的概率密度函數 ;

μi\mu_i 是 高斯模型 的 均值 ;

Σi\Sigma_i 是高斯模型的 方差 ;


均值和方差唯一決定一個高斯模型 ( 正態分佈 ) ;



VI . 高斯分佈 曲線 ( 僅做參考 )



高斯分佈 : 高斯分佈曲線是鐘形曲線 , 中間的 μ\mu 是其 樣本分佈的 均值 , 該值位置處的樣本數最多 , σ\sigma 是其樣本的方差 , 這是 11 個標準的高斯分佈的模型 ;

高斯混合模型 : 下圖是 多個 高斯分佈 線性疊加後的 曲線表示圖 , 僅做參考 ;



VII . 高斯混合模型 參數簡介



1 . 模型 與 參數 : 高斯混合模型 概率密度函數 :


p(x)=i=1kωig(xμi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )


模型結構已知 , 即 高斯混合模型 , 需要根據已知的數據樣本 , 學習出模型的參數 ;


2 . 高斯混合模型 參數個數 :


① 聚類個數 ( 高斯模型個數 ) : 每個高斯混合模型 都由 kk 個高斯模型 ( 組件 ) 線性疊加組成的 ;

② 高斯模型參數 : 每個高斯模型 都有兩個參數 , 即 均值 μi\mu_i , 方差 Σi\Sigma_i ;

③ 樣本屬於聚類分組概率 ( 係數 ) : 每個高斯模型 還有一個係數參數 , ωi\omega_i 表示該 xx 樣本由第 ii 個 高斯分佈 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ;

④ 每個高斯模型相關參數個數 : kk 個 高斯模型 , 每個高斯模型有 均值 μi\mu_i , 方差 Σi\Sigma_i , 生成概率 ωi\omega_i33個參數 ;

⑤ 高斯混合模型參數個數 : 整個 高斯混合模型 有 3×k3 \times k 個參數 , kk 是聚類分組個數 , 也是高斯模型個數 , 正態分佈個數 ;


Σi\Sigma_i 此處方差表示 , 是大寫的希臘字母 sigma σ\sigma , 注意與加和符號 \sum 區分 ;


K-Means 方法中 , 有 kk 個參數 , 每個聚類分組 , 只有一個參數 , 即中心點樣本參數 ;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章