周志華《機器學習》課後習題（第九章）：聚類

原創

红色石头Will

2020-06-27 10:48

作者 | 我是韓小琦

鏈接 | https://zhuanlan.zhihu.com/p/59385748

9.1 試證明 : 時，閔可夫斯基距離滿足距離度量的四條基本性質；時，閔可夫斯基距離不滿足直遞性，但滿足非負性、同一性、對稱性；P 趨向無窮大時，閔可夫斯基距離等於對應分量的最大絕對距離，即

.

答：

非負性、同一性、對稱性很顯然，關鍵是直遞性了，關於直遞性就是閔可夫斯基不等式的證明，具體參考：

https://zh.wikipedia.org/zh-hans/%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E4%B8%8D%E7%AD%89%E5%BC%8F

關於閔可夫斯基距離，令，那麼

.於是得證。

9.2 同一樣本空間中的集合 X 與 Z 之間的距離可通過"豪斯多夫距離" (Hausdorff distance)計算：

,

其中 .

試證明:豪斯多夫距離滿足距離度量的四條基本性質.

答：

非負：，所以；
同一性：若，不失一般性，假設，其他的樣本都完全相同，那麼對於都有使得，而對於，由於沒有相同的樣本，所以。原命題得證；
對稱性：
直遞性：太難了。不會。

9.3 試析 k 均值算法能否找到最小化式 (9.24) 的最優解.

答：

不能，因爲 k 均值本身是 NP 問題，且 9.24 是非凸的（具體證明不太懂.），容易陷入局部最優是 k 均值的一個缺點吧，所以在使用 k 均值時常常多次隨機初始化中心點，然後挑選結果最好的一個。

9.4 試編程實現 k 均值算法，設置三組不同的 k 值、三組不同初始中心點，在西瓜數據集 4.0 上進行實驗比較，並討論什麼樣的初始中心有利於取得好結果.

答：

代碼在：

https://github.com/han1057578619/MachineLearning_Zhouzhihua_ProblemSets/tree/master/ch9--%E8%81%9A%E7%B1%BB

暫時先不分析初始化點和結果了。

9.5 基於 DBSCAN 的概念定義，若 x 爲核心對象，由 x 密度可達的所有樣本構成的集合爲 X. 試證明 :X 滿足連接性 (9.39)與最大性 (9.40).

答：

連接性：由於任意都由密度可達，於是任意都可通過密度相連；
最大性：由密度可達，由密度可達由密度可達。

9.6 試析 AGNES 算法使用最小距離和最大距離的區別.

答：

個人理解，不一定正確。使用最小距離合並聚類簇時，最終聚類結果趨於不同類別之間的“空隙”會更大；而最大距離約等於最小距離加上兩個類別的離散程度，這裏離散程度可理解爲方差，方差越大，兩個類別的最大距離越大，所以使用最大距離時，會盡量使得類別的方差儘量小，最終聚類結果也趨於類內更集中。

其實類似於線性判別分析中類內方差儘量小，類間距離儘量大。

9.7 聚類結果中若每個簇都有一個凸包(包含簇樣本的凸多面體) ，且這些凸包不相交，則稱爲凸聚類.試析本章介紹的哪些聚類算法只能產生凸聚類，哪些能產生非凸聚類.

答：

若在一個簇的凸包之內，有其他簇的樣本，就說明凸包相交。

原型聚類：輸出線性分類邊界的聚類算法顯然都是凸聚類，這樣的算法有：K均值，LVQ；而曲線分類邊界的也顯然是非凸聚類，高斯混合聚類，在簇間方差不同時，其決策邊界爲弧線，所以高混合聚類爲非凸聚類；
密度聚類：DBSCAN，如下圖情況，顯然當領域參數符合一定條件時，會生成兩個簇，其中外簇會包括內簇，所以DBSCAN顯然也是非凸聚類；

層次聚類：AGENS，這個暫時沒想明白怎麼分析。從書中給出的示例，是凸聚類。

9.8 試設計一個聚類性能度量指標，並與 9.2 節中的指標比較.

答：

參考線性判別分析的優化目標：同類協方差儘量小，異類中心之間距離儘量大。

9.9* 試設計一個能用於混合屬性的非度量距離.

答：

樣本的距離爲：，其中當缺失時，，其他爲1；

當前屬性爲數值類型時，；

當屬性爲類別型或二元型時，時，，否則爲0；

當前屬性爲序數型時，即，先將其歸一化，，然後將作爲數值屬性來處理。

這裏的計算其實很簡單，就是把連續屬性歸一化；而離散屬性有序時則歸一化話再按照連續屬性處理，無序時則相等爲1，不等爲0.

參考：《數據挖掘概念與技術》.韓家煒，2.4節.

系列文章：

1. 周志華機器學習課後習題解析【第二章】

2. 周志華《機器學習》課後習題（第三章）：線性模型

3. 周志華《機器學習》課後習題解析（第四章）：決策樹

4. 周志華《機器學習》課後習題（第五章）：神經網絡

5. 周志華《機器學習》課後習題（第六章）：支持向量機

6. 周志華《機器學習》課後習題（第七章）：貝葉斯分類

7. 周志華《機器學習》課後習題（第八章）：集成學習

推薦閱讀

（點擊標題可跳轉閱讀）

乾貨 | 公衆號歷史文章精選

我的深度學習入門路線

我的機器學習入門路線圖

重磅！

AI有道年度技術文章電子版PDF來啦！

掃描下方二維碼，添加 AI有道小助手微信，可申請入羣，並獲得2020完整技術文章合集PDF（一定要備註：入羣 + 地點 + 學校/公司。例如：入羣+上海+復旦。

長按掃碼，申請入羣

（添加人數較多，請耐心等待）

最新 AI 乾貨，我在看

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一些可用於研究的GIS數據資源

國內的情況就不用說了，基本上是很難找到可以用於研究的GIS數據資源的。要麼就是收費，免費的即使能找到，能否合法合規的進行使用也是一個問題。地理信息數據還是國外比較開放一些，相當多的政府組織或者公益機構對公衆開放了下載渠道，大家可以適度獲取並

2024-05-07 14:31:18

如何在低代碼平臺中引用 JavaScript ？

引言在當今快速發展的數字化時代，企業對業務應用的需求日益複雜且多元。低代碼開發平臺作爲一個創新的解決方案，以直觀易用的設計理念，打破了傳統的編程壁壘，讓非技術人員也能輕鬆構建功能完備的Web應用程序，無需深入編碼。這一特性極大地簡化了應用

葡萄城技術團隊

2024-05-07 14:30:48

如何使用 JavaScript 獲取當前頁面幀率 FPS

可以通過計算每秒 window.requestAnimationFrame 的調用頻率來做爲 FPS 值。它接收一個回調函數，該回調函數會在瀏覽器下一次重繪之前執行。所以只要我們循環調用並記錄單位時間內的調用次數就能計算當前頁面的幀率了。

2024-05-07 14:26:58

Dash 2.17版本新特性介紹

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/dash-master 　　大家好我是費老師，不久前Dash發佈了其2.17.0版本，執行下面的命令進行最新版本Dash的安裝： pip

2024-05-07 14:21:37

人大金倉數據庫使（cai）用（keng）記錄

最近一直在用人大金倉做項目，相關的文檔相比其它流行的所謂“主流”數據庫來說還是少了點，記錄一些開發過程中遇到的問題。數據庫的模式（database_mode）在實例創建後就確定好了的，不可更改。想要改變模式只能重新init一個實例。

2024-05-07 14:17:06

《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試

1.簡介分頁測試，這種一般都是公共的方法系統中都寫好了，這種一般出現是數據展示比較多的時候，會採取分頁的方法，而且比較固定，一般是沒有問題的，因此它非常適合自動化測試，但是如何使用playwright來進行分頁自動化測試了，宏哥今天就講解

2024-05-07 14:14:46

Ubuntu18 安裝NoMachine遠程桌面（解決遠程桌面延遲）

# 問題：Ubuntu 18 使用自帶的共享桌面、VNC遠程桌面延遲、降低分辨率也無效。 # 方案：最後找到安裝 NoMachine的遠程桌面，解決遠程卡頓問題根據自己操作系統選擇NoMachine for Linux進行下載官網：ht

2024-05-07 14:11:26

gdb調試FAQ

“malloc.c: No such file or directory.” 參考：https://www.cnblogs.com/gatsby123/p/11755320.html 安裝依賴 sudo apt-get install li

2024-05-07 14:08:35

大數據面試SQL每日一題系列：最高峯同時在線主播人數。字節，快手等大廠高頻面試題

大數據面試SQL每日一題系列：最高峯同時在線主播人數。字節，快手等大廠高頻面試題之後會不定期更新每日一題sql系列。 SQL面試題每日一題系列內容均來自於網絡以及實際使用情況收集，如有雷同，純屬巧合。 1.題目問題1：如下爲某直播平臺各

2024-05-07 14:06:45

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

事件背景我以前只是在新聞看到過拖欠農民工工資這樣的事，但這次是發生在自己身上了！今天晚上下班後，看見父母面露愁色，並認真的聽着父母的對話。大概意思是就是爸爸跟着工程隊包天活已經完事有一段時間了，但是包天的工資一直不給，而且聽爸爸說那意

2024-05-07 14:06:15

Canvas簡歷編輯器-我的剪貼板裏究竟有什麼數據

Canvas圖形編輯器-我的剪貼板裏究竟有什麼數據在這裏我們先來聊聊我們究竟應該如何操作剪貼板，也就是我們在瀏覽器的複製粘貼事件，並且在此基礎上聊聊我們在Canvas圖形編輯器中應該如何控制焦點以及如何實現複製粘貼行爲。在線編輯: h

2024-05-07 14:05:25

HarmonyOS 實現下拉刷新，上拉加載更多

組件介紹 PullToRefreshList允許用戶通過下拉動作來刷新列表內容，以及通過上拉動作來加載更多的數據。組件內部封裝了滾動監聽、狀態管理和動畫效果，使得開發者可以輕鬆集成到自己的項目中。 1. 實現思路封裝成可複用的公共控件：

2024-05-07 14:05:15

【轉】在 Linux 里布署 Docker

來自：百度 Docker 可以佈署在 Linux 系統上，也可以佈署在你自己的電腦上。在 Linux 系統上佈署 Docker：安裝 Docker： curl -fsSL https://get.docker.com -o get-d

2024-05-07 14:05:05

使用.NET源生成器(SG)實現一個自動注入的生成器

DI依賴注入對我們後端程序員來說肯定是基礎中的基礎了,我們經常會使用下面的代碼注入相關的service services.AddScoped<Biwen.AutoClassGen.TestConsole.Services.TestServi

2024-05-07 14:04:44

mysql索引使用基礎

1.創建&刪除 MySQL可以通過CREATE、ALTER、DDL三種方式創建一個索引。在MySQL中，使用CREATE INDEX語句可以創建索引。具體語法如下： CREATE INDEX indexName ON tableNam

2024-05-07 14:01:04

24小時熱門文章

最新文章

最新評論文章