機器學習基石(林軒田)第三章 筆記與感悟總結

3.1Learnig with Different Output Space

本節介紹了很多的機器學習問題。

是非問題可以用PLA。其實就是二分類的問題(binary classification)。是非題應用十分廣泛。


從而引申到多類分類的問題。Multiclass Classification


二分類其實就是多分類時k=2。

迴歸問題典型,輸出是一個實數。


自然語言處理:如果是一個單詞,則是多分類問題。但是如果輸入是一個句子,那麼它是一個結構。可以相成一個很大的多分類問題,內部的結果很複雜。


總結:以上是在各種輸出空間上的變化。

3.2 Learning with Different Data Label

監督學習:我們告訴了完整的信息。



分羣問題,也成爲聚類問題。聚類問題也稱爲無監督多類別分類。



看起來,我們機器學習的輸入,可以不需要提前告訴一些信息,讓計算機自己動。

例如density estimation 交通路口的密度分析。outlier detection 網絡入侵檢測。



我們還可以給一部分的信息,即半監督式的學習。有時候我們無法知道的全部的label時的學習。



一種跟之上的學習方法不同的學習方法。強化學習。例如教寵物狗,我們不能直接教寵物狗學會“坐下”。但是當我們說“坐下”時,狗叫,則懲罰它;狗坐下,則獎勵它。

注意,這裏的輸出並不是我們真的想要的輸出,而是其他的輸出。輸出往往是序列發生的。

例如顧客的資料爲輸入,廣告的點擊爲輸出,有點擊說明好,沒有點擊說明不好。這樣廣告就會自己學習到什麼廣告“好”了。


3.2Learning with Different Protocol

關鍵詞:Batch Learning,最常見的一種與機器的溝通方式,餵給機器一批資料,然後讓機器自己學習。


線上學習:資料是一輪一輪的來。而不是一批全給。比如垃圾郵件,不是一次全部收集後學習,而是一封一封的學習。核心是 g 經過每一次後,越變越好。


總結:batch learning 是填鴨式教育。online learning是老師教書一條一條的教。

以上都是被動的學習。學生不能問問題。


主動學習,讓機器有問問題的能力。應用場合在獲取label比較“”的場合,比如藥物測試等等。如果能讓機器有主動的問問題,能不能減少問問題的次數還能學習的很好呢?這就是主動學習的思想。



3.4 Learning with Different input space

我們以上的討論大多與標記(輸出)有關。本節討論輸出的問題。

輸入又往往被稱爲features。具體信息是表示了 “富有經驗的實際意義”。



人類的知識與經驗先對數據進行了預處理,例如(size,mass)等等。使機器學習相對簡單、



問題:手寫識別輸出圖片,我們應該給機器什麼樣的輸入信息?(不要直接思維定式,直接給個像素矩陣)



如果真的輸入就是RAW FEATURES的話,我們需要“特徵工程”,通過人的一些方法,將“生的”輸入信息變成“熟的”(concrete)信息。當然如果是機器自己來做,就不叫特徵工程了,叫深度學習


更抽象了:沒有或者很少的特徵。





總結:

針對輸出空間:分類、迴歸、結構

針對輸入數據標籤:有監督、無監督、半監督、強化

針對不同協議:成批,在線,主動

針對輸入空間:具體,生的,抽象




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章