統計機器學習-1-統計機器學習基礎

一、統計機器學習的研究內容

網絡 算法 機器 優化 概率 統計
數據 矩陣 信息 模型 推理
獲知識 靠學習

We are drowning in information and starving for knowledge. -John Naisbitt

Data -> Model -> Knowledge

二、機器學習與應用統計學對比

ML STATISTICS 備註
Networks Graphs Models 網絡、圖/模型
Weights parameters 權重/參數
learning fitting or estimating 學習/擬合、估計
generalization 泛化 Test set 可信度
superised learning regression/classification 迴歸 分類
unsuperised learning density estimating clustering 聚類

三、Data Science的三個能力

  • infrastructure 底層架構

  • coding 代碼能力

  • math (解決問題的能力)

統計機器學習–SML:

A field that bridges computation and statistics, with ties to information theory,
signal processing,algorithm, control theory, and optimization theory。

SML = Matrix +Optimization+Algorithm+statistics

矩陣+優化+算法+統計,本質是一個最優化問題

N個數據 每個數據有P個特徵

X = (
X11 X12 … X1P,
X21 X22 … X2P,

Xn1, Xn2 … Xnp
)

X1 = (X11 X12 … X1P)

1.降維 X1^P --> X1^Q 由P維降到Q維

線性降維

  1. 聚類

3.分類

binary
x1 -> input
x2 -> output

分類問題,數據分三類:
1.訓練集
training data

模型+參數
e(y–>f(x,a))+c P(b)

2.validation data

驗證數據估c

  1. 測試數據(只有輸入)

4.regression 迴歸

y 屬於R
迴歸是一個特殊的分類問題

5.Ranking

四、機器學習的基本方法:

1.頻率派
The frequent.st approach views the model params as unknown
constants and estimates them by matching the model to the training data
using an appropritate metric.

(Xi,Yi)
least square estimation 最小二乘估計

i->n (Yi-Xi*a)^2

最大似然估計

高斯分佈

2.Bayesiam Approach
y~N(XT*a,b2)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章