一、統計機器學習的研究內容
網絡 算法 機器 優化 概率 統計
數據 矩陣 信息 模型 推理
獲知識 靠學習
We are drowning in information and starving for knowledge. -John Naisbitt
Data -> Model -> Knowledge
二、機器學習與應用統計學對比
ML | STATISTICS | 備註 |
---|---|---|
Networks | Graphs Models | 網絡、圖/模型 |
Weights | parameters | 權重/參數 |
learning fitting or estimating | 學習/擬合、估計 | |
generalization 泛化 Test set | 可信度 | |
superised learning | regression/classification | 迴歸 分類 |
unsuperised learning | density estimating clustering | 聚類 |
三、Data Science的三個能力
-
infrastructure 底層架構
-
coding 代碼能力
-
math (解決問題的能力)
統計機器學習–SML:
A field that bridges computation and statistics, with ties to information theory,
signal processing,algorithm, control theory, and optimization theory。
SML = Matrix +Optimization+Algorithm+statistics
矩陣+優化+算法+統計,本質是一個最優化問題
N個數據 每個數據有P個特徵
X = (
X11 X12 … X1P,
X21 X22 … X2P,
…
Xn1, Xn2 … Xnp
)
X1 = (X11 X12 … X1P)
1.降維 X1^P --> X1^Q 由P維降到Q維
線性降維
- 聚類
3.分類
binary
x1 -> input
x2 -> output
分類問題,數據分三類:
1.訓練集
training data
模型+參數
e(y–>f(x,a))+c P(b)
2.validation data
驗證數據估c
- 測試數據(只有輸入)
4.regression 迴歸
y 屬於R
迴歸是一個特殊的分類問題
5.Ranking
四、機器學習的基本方法:
1.頻率派
The frequent.st approach views the model params as unknown
constants and estimates them by matching the model to the training data
using an appropritate metric.
(Xi,Yi)
least square estimation 最小二乘估計
i->n (Yi-Xi*a)^2
最大似然估計
高斯分佈
2.Bayesiam Approach
y~N(XT*a,b2)