周志华《机器学习》课后习题（第九章）：聚类

原創

红色石头Will

2020-06-27 10:48

作者 | 我是韩小琦

链接 | https://zhuanlan.zhihu.com/p/59385748

9.1 试证明 : 时，闵可夫斯基距离满足距离度量的四条基本性质；时，闵可夫斯基距离不满足直递性，但满足非负性、同一性、对称性；P 趋向无穷大时，闵可夫斯基距离等于对应分量的最大绝对距离，即

.

答：

非负性、同一性、对称性很显然，关键是直递性了，关于直递性就是闵可夫斯基不等式的证明，具体参考：

https://zh.wikipedia.org/zh-hans/%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E4%B8%8D%E7%AD%89%E5%BC%8F

关于闵可夫斯基距离，令，那么

.于是得证。

9.2 同一样本空间中的集合 X 与 Z 之间的距离可通过"豪斯多夫距离" (Hausdorff distance)计算：

,

其中 .

试证明:豪斯多夫距离满足距离度量的四条基本性质.

答：

非负：，所以；
同一性：若，不失一般性，假设，其他的样本都完全相同，那么对于都有使得，而对于，由于没有相同的样本，所以。原命题得证；
对称性：
直递性：太难了。不会。

9.3 试析 k 均值算法能否找到最小化式 (9.24) 的最优解.

答：

不能，因为 k 均值本身是 NP 问题，且 9.24 是非凸的（具体证明不太懂.），容易陷入局部最优是 k 均值的一个缺点吧，所以在使用 k 均值时常常多次随机初始化中心点，然后挑选结果最好的一个。

9.4 试编程实现 k 均值算法，设置三组不同的 k 值、三组不同初始中心点，在西瓜数据集 4.0 上进行实验比较，并讨论什么样的初始中心有利于取得好结果.

答：

代码在：

https://github.com/han1057578619/MachineLearning_Zhouzhihua_ProblemSets/tree/master/ch9--%E8%81%9A%E7%B1%BB

暂时先不分析初始化点和结果了。

9.5 基于 DBSCAN 的概念定义，若 x 为核心对象，由 x 密度可达的所有样本构成的集合为 X. 试证明 :X 满足连接性 (9.39)与最大性 (9.40).

答：

连接性：由于任意都由密度可达，于是任意都可通过密度相连；
最大性：由密度可达，由密度可达由密度可达。

9.6 试析 AGNES 算法使用最小距离和最大距离的区别.

答：

个人理解，不一定正确。使用最小距离合并聚类簇时，最终聚类结果趋于不同类别之间的“空隙”会更大；而最大距离约等于最小距离加上两个类别的离散程度，这里离散程度可理解为方差，方差越大，两个类别的最大距离越大，所以使用最大距离时，会尽量使得类别的方差尽量小，最终聚类结果也趋于类内更集中。

其实类似于线性判别分析中类内方差尽量小，类间距离尽量大。

9.7 聚类结果中若每个簇都有一个凸包(包含簇样本的凸多面体) ，且这些凸包不相交，则称为凸聚类.试析本章介绍的哪些聚类算法只能产生凸聚类，哪些能产生非凸聚类.

答：

若在一个簇的凸包之内，有其他簇的样本，就说明凸包相交。

原型聚类：输出线性分类边界的聚类算法显然都是凸聚类，这样的算法有：K均值，LVQ；而曲线分类边界的也显然是非凸聚类，高斯混合聚类，在簇间方差不同时，其决策边界为弧线，所以高混合聚类为非凸聚类；
密度聚类：DBSCAN，如下图情况，显然当领域参数符合一定条件时，会生成两个簇，其中外簇会包括内簇，所以DBSCAN显然也是非凸聚类；

层次聚类：AGENS，这个暂时没想明白怎么分析。从书中给出的示例，是凸聚类。

9.8 试设计一个聚类性能度量指标，并与 9.2 节中的指标比较.

答：

参考线性判别分析的优化目标：同类协方差尽量小，异类中心之间距离尽量大。

9.9* 试设计一个能用于混合属性的非度量距离.

答：

样本的距离为：，其中当缺失时，，其他为1；

当前属性为数值类型时，；

当属性为类别型或二元型时，时，，否则为0；

当前属性为序数型时，即，先将其归一化，，然后将作为数值属性来处理。

这里的计算其实很简单，就是把连续属性归一化；而离散属性有序时则归一化话再按照连续属性处理，无序时则相等为1，不等为0.

参考：《数据挖掘概念与技术》.韩家炜，2.4节.

系列文章：

1. 周志华机器学习课后习题解析【第二章】

2. 周志华《机器学习》课后习题（第三章）：线性模型

3. 周志华《机器学习》课后习题解析（第四章）：决策树

4. 周志华《机器学习》课后习题（第五章）：神经网络

5. 周志华《机器学习》课后习题（第六章）：支持向量机

6. 周志华《机器学习》课后习题（第七章）：贝叶斯分类

7. 周志华《机器学习》课后习题（第八章）：集成学习

推荐阅读

（点击标题可跳转阅读）

干货 | 公众号历史文章精选

我的深度学习入门路线

我的机器学习入门路线图

重磅！

AI有道年度技术文章电子版PDF来啦！

扫描下方二维码，添加 AI有道小助手微信，可申请入群，并获得2020完整技术文章合集PDF（一定要备注：入群 + 地点 + 学校/公司。例如：入群+上海+复旦。

长按扫码，申请入群

（添加人数较多，请耐心等待）

最新 AI 干货，我在看

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一款基于C#开发的通讯调试工具（支持Modbus RTU、MQTT调试）

前言今天大姚給大家分享一款基於C#、WPF、Prism、MaterialDesign、HandyControl開發的通訊調試工具（支持Modbus RTU、MQTT調試，界面色彩豐富）：Wu.CommTool。工具特點工具界面色彩豐

2024-05-19 14:21:58

Linux/Golang/glibC系统调用

Linux/Golang/glibC系統調用本文主要通過分析Linux環境下Golang的系統調用，以此闡明整個流程有時候涉略過多，反而遭到質疑~，寫點文章證明自己實力也好 Golang系統調用找個函數來分析 https://pk

藍天上的雲℡

2024-05-19 14:21:17

让python代码找到文件路径的最好方法

也就是算出絕對路徑傳進去. import os wenjian='/'.join(os.path.abspath(__file__).split('/')[:-2])+'/' with open(wenjian+"meddata.jso

張博的博客

2024-05-19 14:19:47

Python 潮流周刊#51：用 Python 绘制美观的图表

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-19 14:19:07

MASM中的向前引用（Forward Reference）

當程序需要引用尚未定義的變量或標號時，編譯器會如何處理呢，這就涉及到向前引用（Forward Reference）的概念。一、Forward Reference的概念程序引用到之前尚未定義的變量(Variable)、標號(L

2024-05-19 14:11:37

[MASM拾遗]Offset伪指令

Offset僞指令我一直都認爲只是獲取標識符在段中的偏移地址，但經研究，發現了部分違反直覺的細微區別： 1、在完整端聲明(Full segment definition)的模式下如果offset mygroup:myvar或o

2024-05-19 14:11:37

【Python】强化学习SARSA走迷宫

之前有實現Q-Learning走迷宮，本篇實現SARSA走迷宮。 Q-Learning是一種off-policy算法，當前步採取的決策action不直接作用於環境生成下一次state，而是選擇最優的獎勵來更新Q表。更新公式： SARSA

2024-05-19 14:11:07

h28 HTML Javascript

A script is a small piece of program that can add interactivity to our websites. For example, a script could generate a

2024-05-19 14:10:26

h29 HTML Layouts

The HTML Layouts specifies the arrangement of components on an HTML web page. A good layout structure of the webpage i

2024-05-19 14:10:26

h27 HTML Adding Favicon

What is a HTML Favicon? A favicon is a small image that represents your website and helps users identify it among mult

2024-05-19 14:10:26

h30 HTML Layout Elements

The Layout Elements of HTML In HTML, there are various semantic elements that are used to define different parts of a

2024-05-19 14:10:26

h31 HTML Layout using CSS

Now we all have learned various techniques to design an HTML layout including tables and semantic elements. We are ver

2024-05-19 14:10:26

CSS Cascading Style Sheet

cs01 CSS Syntax cs02 CSS Selectors cs03 CSS Inclusion cs04 CSS Measurement Units cs05 CSS Paddings Property REF http

2024-05-19 14:10:26

cs04 CSS Measurement Units

Values and units, in CSS, are significant as they determine the size, proportions, and positioning of elements on a web

2024-05-19 14:10:26

cs01 CSS Syntax

A CSS comprises of style rules that are interpreted by the browser and then applied to the corresponding elements in you

2024-05-19 14:10:26

24小時熱門文章

最新文章

最新評論文章