《機器學習的數學》出版了,徹底解決程序員學機器學習的數學問題

 

如何解決機器學習領域的數學問題,打下堅實的數學基礎?是很多初學者乃至進階者關心的話題。我們把這個問題拆解成下面幾個問題:

1. 爲什麼需要數學?

2. 機器學習中究竟用到了哪些數學知識?

3. 如何掌握這些數學知識?

 

那麼你需要這樣一本幫你解決學習機器學習的數學問題的書,首選《機器學習的數學》,本書覆蓋了人工智能領域中與機器學習相關的數學知識體系,不僅囊括了微積分和線性代數等基本數學原理,還詳細講解了概率論、信息論、最優化方法等諸多內容,這些知識是機器學習中的目標函數構造、模型優化以及各種機器學習算法的核心和基礎。

本書希望通過對數學知識的講解幫助讀者深刻理解算法背後的機理,並釐清各種算法之間的內在聯繫。 本書重視理論與實踐相結合,在講解數學知識的同時也對其在機器學習領域的實際應用進行了舉例說明,方便讀者更具象化地理解抽象的數學理論,同時對機器學習算法有更深刻的認識。 本書語言精練,條理清晰,內容翔實全面,公式推導嚴格周密,將理論與工程實踐相結合, 展示了機器學習方法背後的數學原理,是集專業性與通俗性爲一體的上乘之作。通過本書,初學 者可以奠定紮實的數學基礎,從而爲後續掌握機器學習的具體技術和應用鋪平道路。從業者也可 以利用本書強化鞏固基礎知識,從技術背後的數學本質出發來解決工程問題。

 

《機器學習的數學》

第1章介紹一元函數微積分的核心知識,包括有關基礎知識、一元函數微分學、一元函數積分學,以及常微分議程,它們是理解後面各章的基礎。

第2章介紹線性代數與矩陣論的核心知識,包括向量與矩陣、行列式、線性方程組、矩陣的特徵值與特徵向量、二次型,以及矩陣分解,它們是學習多元函數微積分、最優化方法、概率論,以及圖論等知識的基礎。

第3章介紹多元函數微積分、包括多元函數微分、多元函數積分,以及無窮級數。

第4章介紹最優化方法,側重於連續化優問題,包括各種數值優化算法、凸優化問題、帶約束的約化問題、多目標優化問題、變分法,以及目標函數的構造,它們在機器學習中處於核心地位。

第5章介紹概率論的核心知識,包括隨機事件與概率、隨機變量與概率分佈、極限定理、參數估計問題、在機器學習中常用的隨機算法。以及採樣算法。用概率論的觀點對機器學習問題進行建模是一類重要的方法。

第6章介紹信息論的知識,包括熵、交叉熵、KL散度等,它們被廣泛用於構造目標函數,對機器學習算法進行理論分析。

第7章介紹隨機過程,包括馬爾可夫過程與高斯過程,以及馬爾可夫鏈採樣算法。高斯過程迴歸是貝葉斯優化的基礎。

第8章介紹圖論的核心知識,包括基本概念。機器學習中使用的各種典型的圖、圖的重要算法,以及譜圖理論。它們於流於學習、譜聚類、概率圖模型、圖神經網絡等機器學習算法。

專業評論

從機器學習的角度講述數學,從數學的角度講述機器學習。語言精煉,知識點密集,學習路線清晰,是一本幫助掌握數學知識和理解機器學習算法原理的好書,可以滿足不同層次讀者的需求。——知名Python講師,16本Python 系列圖書作者 董付國


數學是很多讀者學習機器學習、深度學習、強化學習感到困難的最主要原因之一,只有掌握了所需的數學知識,才能理解機器學習算法的原理。本書清晰地講述了這些數學知識的原理,精準地覆蓋了所需的數學知識。是一本幫助這一領域讀者奠定基礎的力作。——Yi+AI聯合創始人兼CTO,前阿里巴巴和百度IDL深度學習算法專家 劉彬


掌握數學知識是學好機器學習的前提,如何精確而系統地掌握機器學習所需的數學知識,是很多讀者關注的問題。本書爲此問題提供了一個很好的解決方案。全書用淺顯易懂的語言講述微積分、線性代數與矩陣論、最優化方法、概率論、信息論、隨機過程、圖論等核心的數學知識,並介紹了它們在機器學習領域的應用,做到了理論與應用的無縫銜接。推薦機器學習領域和廣大數學愛好者閱讀。——前優酷首席科學家,谷歌機器學習開發者專家 李卓桓

目錄

第1 章一元函數微積分1

1.1 極限與連續 1

1.1.1 可數集與不可數集 1

1.1.2 數列的極限 3

1.1.3 函數的極限 7

1.1.4 函數的連續性與間斷點 9

1.1.5 上確界與下確界 11

1.1.6 李普希茨連續性 12

1.1.7 無窮小量 13

1.2 導數與微分 14

1.2.1 一階導數 14

1.2.2 機器學習中的常用函數 20

1.2.3 高階導數 22

1.2.4 微分 24

1.2.5 導數與函數的單調性 25

1.2.6 極值判別法則 26

1.2.7 導數與函數的凹凸性 28

1.3 微分中值定理 29

1.3.1 羅爾中值定理 29

1.3.2 拉格朗日中值定理 29

1.3.3 柯西中值定理 31

1.4 泰勒公式 31

1.5 不定積分 33

1.5.1 不定積分的定義與性質 33

1.5.2 換元積分法 35

1.5.3 分部積分法 36

1.6 定積分 37

1.6.1 定積分的定義與性質 38

1.6.2 牛頓-萊布尼茨公式 39

1.6.3 定積分的計算 40

1.6.4 變上限積分 41

1.6.5 定積分的應用 42

1.6.6 廣義積分 44

1.7 常微分方程 45

1.7.1 基本概念 45

1.7.2 一階線性微分方程 46

第2 章線性代數與矩陣論49

2.1 向量及其運算 49

2.1.1 基本概念 49

2.1.2 基本運算 51

2.1.3 向量的範數 53

2.1.4 解析幾何 55

2.1.5 線性相關性 57

2.1.6 向量空間 58

2.1.7 應用——線性迴歸 61

2.1.8 應用——線性分類器與支持

向量機 62

2.2 矩陣及其運算 65

2.2.1 基本概念 65

2.2.2 基本運算 67

2.2.3 逆矩陣 72

2.2.4 矩陣的範數 78

2.2.5 應用——人工神經網絡 78

2.2.6 線性變換 81

2.3 行列式 82

2.3.1 行列式的定義與性質 83

2.3.2 計算方法 91

2.4 線性方程組 92

2.4.1 高斯消元法 92

2.4.2 齊次方程組 93

2.4.3 非齊次方程組 95

2.5 特徵值與特徵向量 97

2.5.1 特徵值與特徵向量 97

2.5.2 相似變換 105

2.5.3 正交變換 106

2.5.4 QR 算法 110

2.5.5 廣義特徵值 112

2.5.6 瑞利商 112

2.5.7 譜範數與特徵值的關係 114

2.5.8 條件數 114

2.5.9 應用——譜歸一化與譜正則化 115

2.6 二次型 116

2.6.1 基本概念 116

2.6.2 正定二次型與正定矩陣 116

2.6.3 標準型 119

2.7 矩陣分解 121

2.7.1 楚列斯基分解 121

2.7.2 QR 分解 123

2.7.3 特徵值分解 127

2.7.4 奇異值分解 128

第3 章多元函數微積分133

3.1 偏導數 133

3.1.1 一階偏導數 133

3.1.2 高階偏導數 134

3.1.3 全微分 136

3.1.4 鏈式法則 136

3.2 梯度與方向導數 138

3.2.1 梯度 138

3.2.2 方向導數 139

3.2.3 應用——邊緣檢測與HOG

特徵 139

3.3 黑塞矩陣 140

3.3.1 黑塞矩陣的定義與性質 141

3.3.2 凹凸性 141

3.3.3 極值判別法則 143

3.3.4 應用——最小二乘法 145

3.4 雅可比矩陣 146

3.4.1 雅可比矩陣的定義和性質 146

3.4.2 鏈式法則的矩陣形式 148

3.5 向量與矩陣求導 150

3.5.1 常用求導公式 150

3.5.2 應用——反向傳播算法 154

3.6 微分算法 156

3.6.1 符號微分 156

3.6.2 數值微分 157

3.6.3 自動微分 158

3.7 泰勒公式 159

3.8 多重積分 161

3.8.1 二重積分 161

3.8.2 三重積分 164

3.8.3 n 重積分 167

3.9 無窮級數 170

3.9.1 常數項級數 170

3.9.2 函數項級數 173

第4 章最優化方法176

4.1 基本概念 176

4.1.1 問題定義 177

4.1.2 迭代法的基本思想 179

4.2 一階優化算法 180

4.2.1 梯度下降法 180

4.2.2 最速下降法 183

4.2.3 梯度下降法的改進 184

4.2.4 隨機梯度下降法 186

4.2.5 應用——人工神經網絡 187

4.3 二階優化算法 188

4.3.1 牛頓法 188

4.3.2 擬牛頓法 189

4.4 分治法 193

4.4.1 座標下降法 193

4.4.2 SMO 算法 194

4.4.3 分階段優化 195

4.4.4 應用——logistic 迴歸 196

4.5 凸優化問題 198

4.5.1 數值優化算法面臨的問題 198

4.5.2 凸集 199

4.5.3 凸優化問題及其性質 200

4.5.4 機器學習中的凸優化問題 201

4.6 帶約束的優化問題 202

4.6.1 拉格朗日乘數法 202

4.6.2 應用——線性判別分析 204

4.6.3 拉格朗日對偶 205

4.6.4 KKT 條件 208

4.6.5 應用——支持向量機 209

4.7 多目標優化問題 213

4.7.1 基本概念 213

4.7.2 求解算法 215

4.7.3 應用——多目標神經結構搜

索 215

4.8 泛函極值與變分法 216

4.8.1 泛函與變分 217

4.8.2 歐拉—拉格朗日方程 218

4.8.3 應用——證明兩點之間直線

最短 220

4.9 目標函數的構造 221

4.9.1 有監督學習 221

4.9.2 無監督學習 224

4.9.3 強化學習 225

第5 章概率論228

5.1 隨機事件與概率 229

5.1.1 隨機事件概率 229

5.1.2 條件概率 233

5.1.3 全概率公式 234

5.1.4 貝葉斯公式 235

5.1.5 條件獨立 236

5.2 隨機變量 236

5.2.1 離散型隨機變量 236

5.2.2 連續型隨機變量 237

5.2.3 數學期望 240

5.2.4 方差與標準差 242

5.2.5 Jensen 不等式 243

5.3 常用概率分佈 244

5.3.1 均勻分佈 244

5.3.2 伯努利分佈 246

5.3.3 二項分佈 247

5.3.4 多項分佈 248

5.3.5 幾何分佈 249

5.3.6 正態分佈 250

5.3.7 t 分佈 252

5.3.8 應用——顏色直方圖 253

5.3.9 應用——貝葉斯分類器 254

5.4 分佈變換 254

5.4.1 隨機變量函數 254

5.4.2 逆變換採樣算法 256

5.5 隨機向量 258

5.5.1 離散型隨機向量 258

5.5.2 連續型隨機向量 260

5.5.3 數學期望 261

5.5.4 協方差 262

5.5.5 常用概率分佈 265

5.5.6 分佈變換 268

5.5.7 應用——高斯混合模型 269

5.6 極限定理 271

5.6.1 切比雪夫不等式 271

5.6.2 大數定律 271

5.6.3 中心極限定理 273

5.7 參數估計 273

5.7.1 最大似然估計 274

5.7.2 最大後驗概率估計 276

5.7.3 貝葉斯估計 278

5.7.4 核密度估計 278

5.7.5 應用——logistic 迴歸 280

5.7.6 應用——EM 算法 282

5.7.7 應用——Mean Shift 算法 286

5.8 隨機算法 288

5.8.1 基本隨機數生成算法 288

5.8.2 遺傳算法 290

5.8.3 蒙特卡洛算法 293

5.9 採樣算法 295

5.9.1 拒絕採樣 296

5.9.2 重要性採樣 297

第6 章信息論298

6.1 熵與聯合熵 298

6.1.1 信息量與熵 298

6.1.2 熵的性質 300

6.1.3 應用——決策樹 302

6.1.4 聯合熵 303

6.2 交叉熵 305

6.2.1 交叉熵的定義 306

6.2.2 交叉熵的性質 306

6.2.3 應用——softmax 迴歸 307

6.3 Kullback-Leibler 散度 309

6.3.1 KL 散度的定義 309

6.3.2 KL 散度的性質 311

6.3.3 與交叉熵的關係 312

6.3.4 應用——流形降維 312

6.3.5 應用——變分推斷 313

6.4 Jensen-Shannon 散度 316

6.4.1 JS 散度的定義 316

6.4.2 JS 散度的性質 316

6.4.3 應用——生成對抗網絡 317

6.5 互信息 320

6.5.1 互信息的定義 320

6.5.2 互信息的性質 321

6.5.3 與熵的關係 322

6.5.4 應用——特徵選擇 323

6.6 條件熵 324

6.6.1 條件熵定義 324

6.6.2 條件熵的性質 325

6.6.3 與熵以及互信息的關係 325

6.7 總結 326

第7 章隨機過程328

7.1 馬爾可夫過程 328

7.1.1 馬爾可夫性 329

7.1.2 馬爾可夫鏈的基本概念 330

7.1.3 狀態的性質與分類 333

7.1.4 平穩分佈與極限分佈 337

7.1.5 細緻平衡條件 342

7.1.6 應用——隱馬爾可夫模型 343

7.1.7 應用——強化學習 345

7.2 馬爾可夫鏈採樣算法 348

7.2.1 基本馬爾可夫鏈採樣 349

7.2.2 MCMC 採樣算法 349

7.2.3 Metropolis-Hastings 算法 351

7.2.4 Gibbs 算法 353

7.3 高斯過程 355

7.3.1 高斯過程性質 355

7.3.2 高斯過程迴歸 355

7.3.3 應用——貝葉斯優化 358

第8 章圖論363

8.1 圖的基本概念 363

8.1.1 基本概念 363

8.1.2 應用——計算圖與自動微分 365

8.1.3 應用——概率圖模型 370

8.1.4 鄰接矩陣與加權度矩陣 371

8.1.5 應用——樣本集的相似度圖 372

8.2 若干特殊的圖 373

8.2.1 聯通圖 373

8.2.2 二部圖 374

8.2.3 應用——受限玻爾茲曼機 374

8.2.4 有向無環圖 376

8.2.5 應用——神經結構搜索 376

8.3 重要的算法 380

8.3.1 遍歷算法 380

8.3.2 最短路徑算法 381

8.3.3 拓撲排序算法 382

8.4 譜圖理論 384

8.4.1 拉普拉斯矩陣 385

8.4.2 歸一化拉普拉斯矩陣 388

8.4.3 應用——流形降維 390

機器學習的數學

 

雷明 著

本書的目標是幫助讀者全面、系統地學習機器學習所必須的數學知識。全書由8章組成,力求精準、最小地覆蓋機器學習的數學知識。包括微積分,線性代數與矩陣論,最優化方法,概率論,信息論,隨機過程,以及圖論。本書從機器學習的角度講授這些數學知識,對它們在該領域的應用舉例說明,使讀者對某些抽象的數學知識和理論的實際應用有直觀、具體的認識。 本書內容緊湊,結構清晰,深入淺出,講解詳細。可用作計算機、人工智能、電子工程、自動化、數學等相關專業的教材與教學參考書。對人工智能領域的工程技術人員與產品研發人員,本書也有很強的參考價值。對於廣大數學與應用的數學愛好者,本書亦爲適合自學的讀本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章