模式識別與機器學習的簡介(zz)

模式識別與機器學習的關係 
模式識別源自工程,是一類問題 (problem);機器學習源自數學,是一類方法(methodology)。對於一個具體的模式識別問題,可以用handcrafted rule-based的方法去求解,但是更復雜的PR問題往往採用機器學習的方法。

機器學習的分類 
按照學習模式的不同,machine learning一般可以分成4類:
Supervised Learning 
training set中全部輸入都帶有target value的稱爲supervised learning。這類學習的目標是發現input變量和target變量之間的關係。按照target value,supervised learning又可以分成兩類問題:如果target value是離散變量,稱爲classification;如果是連續變量,稱爲regression。
Unsupervised Learning 

輸入變量全不帶target value的稱爲unsupervised learning。這類學習的目標是發現輸入變量間的內部聯繫。按照具體的內部聯繫類型,unsupervised learing又可以分成多種問題,如,clustering,density estimation,visualization。
Semi-supervised Learning 

輸入變量有的帶target value,有的不帶的稱爲semi-supervised learning。其實書中並沒有直接提到semi-supervised learning...
Reinforcement learning 

這 類學習是在supervised learning的基礎上,允許機器自行選擇training data;同時,training在獲取信息的同時也會帶來cost或loss,從而引發一個tradeoff。

機器學習的基本流程 
最基本的machine learning過程是:
1. 確定模型類型
2. 確定模型複雜度(即自由參數個數)
3. 確定每個模型的所有參數值
4. 最後在模型間比較選擇一個最好的,也稱model selection

trainning model一般是指一個或一組解析表達式,通過它可以用解析方法去表達知識或直接優化決策。根據泛化能力不同,trainning model可以只面向第3步,也可以同時涵蓋所有4個步驟。對於不能表達爲trainning model的部分,要麼通過conputational算法去枚舉或比較,要麼對具體application做模型假設。

Overfitting 與 Model Selection 
overfitting 的具體含義書中描述的並不清晰,大體是指這麼一種現象:有的時候模型在training set上誤差很小,但是在非training set上誤差卻很大。

如果算法存在overfitting 現象,傳統上要從training data中選擇一個子集(稱爲validation set),並基於validation set去做model selection。

validation data和test data的區別在於:前者可以是在另一次run中的training data的一部分,不同run對於同一組data採取不同的training-validation劃分;而後者根本不用於training的過程,通常 是用於最終的實驗。

validation的缺點有二:
1.validation佔用了額外的training數據,這對數據稀少的application影響尤爲嚴重 。 cross-validation技術用於緩解這一缺陷。它輪流從training set中選擇小部分數據做validation set,並最終把多輪結果combine起來。但cross-validation引入多輪validation,增加了計算量。
2.由於validation的存在,training model無法根據training data解析地進行模型比較 。當需要枚舉比較的模型複雜度參數變多時,validation的計算復 雜度指數上升。

一種“消除”overfitting現象的方法是向training model中加入information criterion。理想情況下,由於不存在overfitting從而可以避免validation過程;現實中,加入IC的model結果往往比 validation出來的要好。但是,多數Information Criterion缺少理論解釋的支持。

Regularization(shrinkage) 是另一類“控制”overfitting現象的方法。它也向trainning model加入一個compensation term,然後通過一個complexity parameter來調整regularization的程度,從而控制overfitting的程度。從客觀上,regularization可以避免 由於模型過於flexible而train出來的參數過大的“畸形模型”,但另一方面過量的regularization會降低模型的effective complexity,這同樣無法得到好的model。因此,爲了選擇一個最優的regularization度,仍然需要validation的過程。 Regularization的作用在於,complexity parameter往往是連續變量,因此可以表達出用離散個數個模型參數所無法表達的模型,從而增加模型的泛化能力。另一個好處是,帶 regularization的validation是對同一套解析式內的不同參數進行比較,相比於不同解析式間的比較,計算量較小。

多維困境 

主題2: 概率論支持 
概 率論提供了對隨機事件進行描述和分析的框架。數理統計則通過“隨機採樣”來構造一系列隨機變量,進而通過概率論提供的理論框架去反推總體的特徵

基本概念
 :隨機事件概率、隨機變量、離散變量的概率 分佈、連續變量的概率密度函數、條件概率(及分佈、密度函數)、邊緣概率(及分佈、密度函數)、互斥、獨立、線性相關、期望、方差、協方差

運算法則 :條件概率公式、全概率公式、隨機變量的函數的概率 密度函數計算(Jacobi factor使非線性函數的概率計算不同於simple function)

概率模型 :本章只簡單介紹了高斯分佈,更多的模型用整個第二章 來詳細介紹

Maximum Likelyhood Estimation :frequentist學派的經典參數估計準則,假設合理,計算方便。但其對高斯分佈總體的 方差估計的期望值偏小,這是由於需要用總體期望的估計量回代求解導致的。

Bayesian理論 :bayesian理論把一切未知量都看作隨機變量,並通過概率法則去求其後驗分佈。它的本 質是把概率解釋爲主觀上的不確定性,從而擴展了其應用範圍。bayesian理論的優點是無需藉助額外的“準則”,侷限在於計算複雜。近些年Monte Carlo等sampling類方法和近似推導方法使得bayesian理論的應用變得廣泛。

主題3: 決策論支持
決 策空間、loss function、
決策準則:minimize loss expectation
三類決策方 法:generative model、discriminitive model、discriminant function

主題4: 信息論支持 
entropy的數學性質:運算法則、differential entropy、conditional entropy、relative entropy、mutual information
entropy 的信息量解釋:決定最小編碼長度
entropy的統計學解釋:給定期望方差時,高斯分佈的entropy最大;而對於高斯分佈而言,方差越大 entropy越大。
KL-divergency(relative entropy)一定大於等於0,這說明我們使用任何一個不同於真實分佈的分佈函數都會得到更差的結果。同時,依據relative entropy進行推導的方法同MLE方法在形式上是一致的。

主題5: Case Study - 一元多項式迴歸 
如果忽略 變量關係的uncertainty,一元多項式迴歸等價於數值計算領域的多項式曲線擬合問題,此時通常採用Root-Mean-Square爲loss準 則來優化參數。

如果假設目標變量在每個點處都服從獨立同方差的正態分佈,而其期望值是輸入變量的多項式函數,那麼多項式擬合便又等價於概 率論中的參數估計問題,而RMS準則恰好和frequentist學派的極大似然準則(Maximum Likelihood)一致。
然而,這個 數學模型存在overfitting問題,這是由於模型複雜度相比於輸入數據的規模過大引起的(從數值分析角度看,當多項式階數等於輸入數據項數時,擬合 變成插值,此時loss一定可以優化至0)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章