作者 | 我是韓小琦
鏈接 | https://zhuanlan.zhihu.com/p/59385748
9.1 試證明 : 時,閔可夫斯基距離滿足距離度量的四條基本性質; 時,閔可夫斯基距離不滿足直遞性,但滿足非負性、同一性、對稱性;P 趨向無窮大時,閔可夫斯基距離等於對應分量的最大絕對距離,即
.
答:
非負性、同一性、對稱性很顯然,關鍵是直遞性了,關於直遞性就是閔可夫斯基不等式的證明,具體參考:
https://zh.wikipedia.org/zh-hans/%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E4%B8%8D%E7%AD%89%E5%BC%8F
關於閔可夫斯基距離,令 ,那麼
.於是得證。
9.2 同一樣本空間中的集合 X 與 Z 之間的距離可通過"豪斯多夫距離" (Hausdorff distance)計算:
,
其中 .
試證明:豪斯多夫距離滿足距離度量的四條基本性質.
答:
非負: ,所以 ;
同一性: 若 ,不失一般性,假設 ,其他的樣本都完全相同,那麼對於 都有 使得 ,而對於 ,由於沒有相同的樣本,所以 。原命題得證;
對稱性:
直遞性:太難了。不會。
9.3 試析 k 均值算法能否找到最小化式 (9.24) 的最優解.
答:
不能,因爲 k 均值本身是 NP 問題,且 9.24 是非凸的(具體證明不太懂.),容易陷入局部最優是 k 均值的一個缺點吧,所以在使用 k 均值時常常多次隨機初始化中心點,然後挑選結果最好的一個。
9.4 試編程實現 k 均值算法,設置三組不同的 k 值、三組不同初始中心點,在西瓜數據集 4.0 上進行實驗比較,並討論什麼樣的初始中心有利於取得好結果.
答:
代碼在:
https://github.com/han1057578619/MachineLearning_Zhouzhihua_ProblemSets/tree/master/ch9--%E8%81%9A%E7%B1%BB
暫時先不分析初始化點和結果了。
9.5 基於 DBSCAN 的概念定義,若 x 爲核心對象,由 x 密度可達的所有樣本構成的集合爲 X. 試證明 :X 滿足連接性 (9.39)與最大性 (9.40).
答:
連接性: 由於任意 都由 密度可達,於是任意 都可通過 密度相連;
最大性: 由 密度可達, 由 密度可達 由 密度可達 。
9.6 試析 AGNES 算法使用最小距離和最大距離的區別.
答:
個人理解,不一定正確。使用最小距離合並聚類簇時,最終聚類結果趨於不同類別之間的“空隙”會更大;而最大距離約等於最小距離加上兩個類別的離散程度,這裏離散程度可理解爲方差,方差越大,兩個類別的最大距離越大,所以使用最大距離時,會盡量使得類別的方差儘量小,最終聚類結果也趨於類內更集中。
其實類似於線性判別分析中類內方差儘量小,類間距離儘量大。
9.7 聚類結果中若每個簇都有一個凸包(包含簇樣本的凸多面體) ,且這些凸包不相交,則稱爲凸聚類.試析本章介紹的哪些聚類算法只能產生凸聚類,哪些能產生非凸聚類.
答:
若在一個簇的凸包之內,有其他簇的樣本,就說明凸包相交。
原型聚類:輸出線性分類邊界的聚類算法顯然都是凸聚類,這樣的算法有:K均值,LVQ;而曲線分類邊界的也顯然是非凸聚類,高斯混合聚類,在簇間方差不同時,其決策邊界爲弧線,所以高混合聚類爲非凸聚類;
密度聚類:DBSCAN,如下圖情況,顯然當領域參數符合一定條件時,會生成兩個簇,其中外簇會包括內簇,所以DBSCAN顯然也是非凸聚類;
層次聚類:AGENS,這個暫時沒想明白怎麼分析。從書中給出的示例,是凸聚類。
9.8 試設計一個聚類性能度量指標,並與 9.2 節中的指標比較.
答:
參考線性判別分析的優化目標:同類協方差儘量小,異類中心之間距離儘量大。
9.9* 試設計一個能用於混合屬性的非度量距離.
答:
樣本 的距離爲: ,其中當 缺失時, ,其他爲1;
當前屬性 爲數值類型時, ;
當屬性 爲類別型或二元型時, 時, ,否則爲0;
當前屬性 爲序數型時,即 ,先將其歸一化, ,然後將 作爲數值屬性來處理。
這裏的計算其實很簡單,就是把連續屬性歸一化;而離散屬性有序時則歸一化話再按照連續屬性處理,無序時則相等爲1,不等爲0.
參考:《數據挖掘概念與技術》.韓家煒,2.4節.
系列文章:
推薦閱讀
(點擊標題可跳轉閱讀)
重磅!
AI有道年度技術文章電子版PDF來啦!
掃描下方二維碼,添加 AI有道小助手微信,可申請入羣,並獲得2020完整技術文章合集PDF(一定要備註:入羣 + 地點 + 學校/公司。例如:入羣+上海+復旦。
長按掃碼,申請入羣
(添加人數較多,請耐心等待)
最新 AI 乾貨,我在看