[臺大機器學習筆記整理]機器學習問題與算法的基本分類&由霍夫丁不等式論證機器學習的可行性

Lesson 3 

這節課主要是關於總體情況的一個介紹。集中在機器學習可以處理怎樣的問題上。


在模型方面進行分類,主要是根據需要預測的結果進行分類
1)首先從PLA算法可以知道機器學習可以進行二元分類。類似得,也可以進行多元分類,預測多個可能有多個結果的數據集的結果。即binary classification和multiclass classfication
2)另外也可以做迴歸分析,通過各項特徵得到一個數量值。上面的這種需要預測的結果是一個categorical的結果,而下面則是需要預測一個quantitative的結果
3)在課程中還提到了結構學習,舉的例子通過將語言中的名詞、動詞等分類,獲取了語言的基本結構。


另一方面,機器學習算法根據學習的方式(algorithm)的情況可以分成以下幾種
1)監督學習,訓練集中的每個x都有一個對應的y,希望得到的結果能夠儘量滿足通過給定的x可以得到y
2)非監督學習,主要是聚類
另外還有半監督學習,即其中部分x有對應的y。
3)強化學習(也許算是半監督的一種),其方式是給得到的結果打分,以此對hypothesis進行反饋。個人感覺類似於監督學習,但這裏沒有結果y,只有對於預測結果的一個評分。


最後根據訓練集的使用方式分爲batch和online等類型
batch類型是一次過進行批量訓練,而online則是每次可以僅將訓練集中的一組數據輸入進行訓練。顯然PLA屬於online的一類。

另外還有active類型,其與以上的區別是有選擇地對y進行訪問,感覺有些類似於半監督學習,只不過在這個場景下是根據算法確認是否需要對結果y進行query,然後自行querry。感覺active類型有些類似於有目的性的抽樣,可以在互聯網的某些業務場景中使用。


Lesson 4


這節課主要是在論證爲何可以利用已知的數據集推導未知數據集中的情況,個人認爲這裏主要是在爲supervised learning 提供理論基礎



通過一些簡單的例子,如


我們可以得到機器學習的需求之一,是從當前已有數據集的情況總結出一個目標映射關係g。好的g應該是適用於儘可能多的x,使得到的y=g(x),與我們理想的映射關係f得到的結果儘可能的接近。在上節課中,以及其他的可能算法中,我們已經能確定目標映射g在訓練集中與映射關係f儘可能的接近。那麼如何確保其可以推廣到非訓練集中的x-y對中呢?其基礎就是抽樣統計。

從簡答的抽樣統計開始:假設一個盒子中有綠球和橙球,要推斷其橙色球所佔的比例,而且不能將球全部取出來


雖然抽樣所得到的橙球比例並非與盒子中總體的比例情況一定相同,依然存在抽樣中得到綠色佔大多數而盒子中橙色佔大多數的情況,但抽樣得到的比例情況和總體情況有很大概率是接近的。


這一點在數學上由霍夫丁不等式給出


霍夫丁不等式說明,抽樣比例v與總體比例u的差距大於某個邊距值e的概率,小於一個由e和樣本大小N得到的關係式的值。(在這裏我們將右邊的關係式定義爲Plarge,在後面用到)


顯然如果抽樣樣本數N越大,那麼抽樣比例和總體比例有比較大的差距的可能性越小
。這與我們的直觀感覺相符。
因此在抽樣樣本足夠大的情況下,我們可以說抽樣比例v和總體比例u之間v=u的關係是大致接近正確的(probably approximately correct,PAC)


將以上對於抽樣統計的論證推廣到機器學習中,是這樣的一個過程:
在機器學習的問題中,對於某個假設h,在將其推廣到非訓練集中時,我們討論的是h(x)=f(x)或h(x)<>f(x)的比例。在這裏我們得到的訓練數據集則相當於抽樣的樣本。類似於上面的陳述,當樣本總量N足夠大的時候,訓練集中的h(x)<>f(x)的比例v將和非訓練集中的h(x)<>f(x)的比例u將十分接近(將h(x)<>f(x)類比爲橙色的球)。在這個時候,能使h(x)<>f(x)的比例Ein=v小的hypothesis,對非訓練集中的x也有一個小錯誤比例的Eout=u。而這就是一個比較好的結果映射關係,因爲它與理想的映射關係f得到的結果是接近的。

以上說明了,對於單個假設,如果它在訓練集中得到的結果與理想映射f的結果接近,那麼它在非訓練集中也很有可能得到與理想映射f十分接近的結果。

雖然對於單個hypothesis,其樣本集錯誤率和非樣本數據錯誤率相等(u=v,Ein=Eout)來說是PAC(probably correct)的,然而我們需要在多個hypothesis中進行選擇。當hypothesis數量較大時,即使對單個hypothesis,Ein與Eout差距大的概率較小,依然可能會出現Ein與Eout差距大的hypothesis。

對於使某個hypothesis Ein與Eout差距較大的數據集D,我們說D對於Hypothesis h來說一個壞數據集。

對於某個數據集D和一組hypothesis H{h1,h2,h3,....},其遇到壞數據集(|v-u|>e,e爲指定的某個邊距值,類似霍夫丁不等式)的概率上限可以由出以下關係式的推導得出

即某個數據集D與某組hypothesis H遇到含有|v-u|>e的情況的概率不大於每個hypothesis的Plarge的和,最終相當於是hypothesis數量乘以Plarge的結果。(Plarge見前面對於單個假設的論證)


由此我們依然可以得到一個與假設集大小M,數據集大小N和邊距e有關的一個上限。當M和e限定的時候,通過選擇一個有足夠數據量的數據集,依然可以避免“壞數據”的出現,來保證Ein=Eout大致接近正確(probably approximate correct,PAC)。在以上情況下,可以使用有最低Ein的假設作爲最終的目標映射g。

然而在大多數時候,可以供我們選擇的假設集H的大小M是趨於無窮的,在這個時候以上式子需要進一步的證明。
在下節課中將講解當假設集大小M趨於無窮時,如何擴展以上式子,以建立假設集較大的監督式學習的理論基礎。


總結:


機器學習按訓練後輸出的結果劃分可以分爲二元分類、多元分類、迴歸和結果學習。
按algorithm對訓練集的需求可以劃分爲監督學習、非監督學習、半監督學習與強化學習。
按algorithm對訓練集的使用方式可以分爲batch與online兩種方式。(目前已知的許多supervised learning同時也是online,unsupervised是batch。auto-encoder也許算是unsupervised中的一個特例)。


在統計學中我們通過霍夫丁不等式來限定抽樣集與總體集中的頻率與概率關係。通過將其推廣到機器學習中,可以得到類似的單個hypothesis的Ein與Eout差距限定不等式。然而當考慮到一組hypothesis數量多的假設集時,即使對單個hypothesis遇到bad data使其Ein與Eout差別比較大的概率十分低,但總體而言其中有一個或幾個hypothesis遇到bad data使其Ein與Eout差別較大的概率依然無法保證。因此通過union bound我們講假設集中假設的數量M通過union bound引入不等式中,最終得到在有限的假設數量時,只要樣本數量N足夠,我們依然能讓這組data保證取到的hypothesis的Ein與Eout差距不大,從而可以挑選Ein最小的hypothesis,也即Eout最小的hypothesis,作爲結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章