周志華《機器學習》課後習題(第九章):聚類

作者 | 我是韓小琦

鏈接 | https://zhuanlan.zhihu.com/p/59385748

9.1 試證明 :  時,閔可夫斯基距離滿足距離度量的四條基本性質;  時,閔可夫斯基距離不滿足直遞性,但滿足非負性、同一性、對稱性;P 趨向無窮大時,閔可夫斯基距離等於對應分量的最大絕對距離,即

 .

答:

非負性、同一性、對稱性很顯然,關鍵是直遞性了,關於直遞性就是閔可夫斯基不等式的證明,具體參考:

https://zh.wikipedia.org/zh-hans/%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E4%B8%8D%E7%AD%89%E5%BC%8F

關於閔可夫斯基距離,令  ,那麼 

 .於是得證。

9.2 同一樣本空間中的集合 X 與 Z 之間的距離可通過"豪斯多夫距離" (Hausdorff distance)計算:

 ,

其中  .

試證明:豪斯多夫距離滿足距離度量的四條基本性質.

答:

  • 非負: ,所以  ;

  • 同一性: 若  ,不失一般性,假設  ,其他的樣本都完全相同,那麼對於  都有  使得  ,而對於  ,由於沒有相同的樣本,所以  。原命題得證;

  • 對稱性:

  • 直遞性:太難了。不會。

9.3 試析 k 均值算法能否找到最小化式 (9.24) 的最優解.

答:

不能,因爲 k 均值本身是 NP 問題,且 9.24 是非凸的(具體證明不太懂.),容易陷入局部最優是 k 均值的一個缺點吧,所以在使用 k 均值時常常多次隨機初始化中心點,然後挑選結果最好的一個。

9.4 試編程實現 k 均值算法,設置三組不同的 k 值、三組不同初始中心點,在西瓜數據集 4.0 上進行實驗比較,並討論什麼樣的初始中心有利於取得好結果.

答:

代碼在:

https://github.com/han1057578619/MachineLearning_Zhouzhihua_ProblemSets/tree/master/ch9--%E8%81%9A%E7%B1%BB

暫時先不分析初始化點和結果了。

9.5 基於 DBSCAN 的概念定義,若 x 爲核心對象,由 x 密度可達的所有樣本構成的集合爲 X. 試證明 :X 滿足連接性 (9.39)與最大性 (9.40).

答:

  • 連接性: 由於任意  都由  密度可達,於是任意  都可通過  密度相連;

  • 最大性: 由  密度可達,  由  密度可達  由  密度可達  。

9.6 試析 AGNES 算法使用最小距離和最大距離的區別.

答:

個人理解,不一定正確。使用最小距離合並聚類簇時,最終聚類結果趨於不同類別之間的“空隙”會更大;而最大距離約等於最小距離加上兩個類別的離散程度,這裏離散程度可理解爲方差,方差越大,兩個類別的最大距離越大,所以使用最大距離時,會盡量使得類別的方差儘量小,最終聚類結果也趨於類內更集中。

其實類似於線性判別分析中類內方差儘量小,類間距離儘量大。

9.7 聚類結果中若每個簇都有一個凸包(包含簇樣本的凸多面體) ,且這些凸包不相交,則稱爲凸聚類.試析本章介紹的哪些聚類算法只能產生凸聚類,哪些能產生非凸聚類.

答:

若在一個簇的凸包之內,有其他簇的樣本,就說明凸包相交。

  • 原型聚類:輸出線性分類邊界的聚類算法顯然都是凸聚類,這樣的算法有:K均值,LVQ;而曲線分類邊界的也顯然是非凸聚類,高斯混合聚類,在簇間方差不同時,其決策邊界爲弧線,所以高混合聚類爲非凸聚類;

  • 密度聚類:DBSCAN,如下圖情況,顯然當領域參數符合一定條件時,會生成兩個簇,其中外簇會包括內簇,所以DBSCAN顯然也是非凸聚類;

  • 層次聚類:AGENS,這個暫時沒想明白怎麼分析。從書中給出的示例,是凸聚類。

9.8 試設計一個聚類性能度量指標,並與 9.2 節中的指標比較.

答:

參考線性判別分析的優化目標:同類協方差儘量小,異類中心之間距離儘量大。

9.9* 試設計一個能用於混合屬性的非度量距離.

答:

樣本  的距離爲:  ,其中當  缺失時,  ,其他爲1;

當前屬性  爲數值類型時,  ;

當屬性  爲類別型或二元型時,  時,  ,否則爲0;

當前屬性  爲序數型時,即  ,先將其歸一化,  ,然後將  作爲數值屬性來處理。

這裏的計算其實很簡單,就是把連續屬性歸一化;而離散屬性有序時則歸一化話再按照連續屬性處理,無序時則相等爲1,不等爲0.

參考:《數據挖掘概念與技術》.韓家煒,2.4節.

系列文章:

1. 周志華機器學習課後習題解析【第二章】

2. 周志華《機器學習》課後習題(第三章):線性模型

3. 周志華《機器學習》課後習題解析(第四章):決策樹

4. 周志華《機器學習》課後習題(第五章):神經網絡

5. 周志華《機器學習》課後習題(第六章):支持向量機

6. 周志華《機器學習》課後習題(第七章):貝葉斯分類

7. 周志華《機器學習》課後習題(第八章):集成學習


推薦閱讀

(點擊標題可跳轉閱讀)

乾貨 | 公衆號歷史文章精選

我的深度學習入門路線

我的機器學習入門路線圖

重磅

AI有道年度技術文章電子版PDF來啦!

掃描下方二維碼,添加 AI有道小助手微信,可申請入羣,並獲得2020完整技術文章合集PDF(一定要備註:入羣 + 地點 + 學校/公司。例如:入羣+上海+復旦。 

長按掃碼,申請入羣

(添加人數較多,請耐心等待)

 

最新 AI 乾貨,我在看 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章