周志華《機器學習》學習筆記

最近開始學習機器學習，參考書籍西瓜書，做點筆記。

第十章降維與度量學習

本章學習過程參考博客：

機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用：

連接：SVD奇異值分解

10.1 k臨近學習

k臨近學習（kNN）：監督學習方法。給定測試樣本，基於某種距離度量找出訓練集中最近的k個樣本，然後根據k個樣本的信息進行預測；

預測方式：投票（分類）、平均（迴歸）；

通過書上推導，最鄰近分類器雖然簡單，但是泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍；

10.2 低維嵌入

在高維情形下，出現數據樣本稀疏、距離計算困難等問題，被稱爲維數災難；

緩解維數災難的途徑：降維；

多維縮放（MDS）：原始空間中央本之間的距離在低維空間中得以保持，即保持距離不變；

目標是獲得樣本在低維空間的表示Z；

令B=Z^T*Z，其中B是將爲後的樣本內積矩陣:

降維後的樣本Z被中心化（即減去平均值），則

=========》

綜合上面得到bij的公式：

用上面的公式可以得到內積矩陣B；

對B做特徵值分解，並假定有d*個非零特徵值，則Z的表達式爲：

MDS算法：根據公式計算內積矩陣B，再對B做特徵值分解，取d個最大特徵值構成對角矩陣，並取相應的特徵向量矩陣求得Z；

10.3 主成分分析

PCA可從兩方面推導：最近重構性（樣本點到這個超平面的距離都足夠近）、最大可分性（樣本點在這個超平面上的投影能儘可能分開，即方差大）；

用第二種方式推導更好理解，這裏使用在網上找到的一個動態圖展示，

從圖中可以看出，PCA是一種利用線性變換的降維方式；

PCA過程：對樣本進行中心化，計算協方差矩陣，對協方差矩陣做特徵值分解，去最大d個特徵值對應的特徵向量，輸出投影矩陣；

更多的理解分析可以參考開頭鏈接；

10.4 核化線性降維

從書上例子，直接使用線性降維方法對三維空間觀察到的樣本點進行降維，則將丟失原本的低維結構。

非線性降維的常用方法：核主成分分析（KPCA）；

投影后的座標：

KPCA計算開銷較大；

10.5 流形學習

流形學習借鑑拓撲流形概念的降維方法；

在高維空間中兩點的距離是測地線距離，即沿着曲面走的距離；

測地線距離計算：從起點開始向終點方向，選出最近的歐氏距離點，然後再以該點向終點方向選出最近歐氏距離點，以此類推，直到包含終點爲止；

得到距離後，可通過Isomap算法獲得樣本點在低維空間的座標；

後面的內容由於時間關係不再深究，待使用時再回過頭來學習；

第十章降維與度量學習，這一章確實挺難的，公式推導、矩陣的理解等等，花了較多時間複習矩陣，目前對PCA和SVD有了一定的理解，需要在以後實踐中更進一步的學習。總體來說本章有一定難度，筆記做的也有點凌亂，以後還需要花很大功夫研究這一塊。

我的筆記做的比較粗糙，還請見諒。

有不正確或者不完整的地方，歡迎補充。

機器學習學習筆記.day10

機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用：

連接：SVD奇異值分解

杭州的 IT 崩盤了麼？

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

程序員常見的文本查看工具

ITSM落地經驗之建設藍圖規劃

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

Spring源碼分析——解決循環依賴

Spring源碼分析——獲取Bean

Spring源碼分析——Bean創建

MyBatis源碼分析——調用Mapper接口方法執行SQL

初識RabbitMQ——AMQP 0-9-1

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結