專欄【機器學習】
【機器學習】《機器學習》周志華西瓜書 筆記/習題答案 總目錄
——————————————————————————————————————————————————————
習題
此時訓練集如下:
編號 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
---|---|---|---|---|
1 | 青綠 | 蜷縮 | 濁響 | 是 |
4 | 烏黑 | 稍蜷 | 沉悶 | 否 |
由於好瓜的3個屬性值與壞瓜都不同。所以能與訓練集一致的假設就有很多可能了,從最具體的入手,往上逐層抽象可得:
首先要理解題意,“使用最多包含 個合取式的析合範式來表達表1.1西瓜分類問題的假設空間” 。
這句話表達的意思是每個假設可以由最少1個、最多k個合取範式的析取來表示。
表1.1:
編號 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
---|---|---|---|---|
1 | 青綠 | 蜷縮 | 濁響 | 是 |
2 | 烏黑 | 蜷縮 | 濁響 | 是 |
3 | 青綠 | 硬挺 | 清脆 | 否 |
4 | 烏黑 | 稍蜷 | 沉悶 | 否 |
這裏色澤有2種取值,根蒂有3種取值,敲聲有3種取值。因爲每個屬性還可以用通配符表示取任何值都行,所以實際上這三個屬性分別有3,4,4種選擇。因此,在只考慮單個合取式的情況下,有 種假設(因爲訓練集中有存在正例,所以 假設不需考慮)。
現在我們考慮題目的條件,這實際上是一個組合問題。我們可以從48個基本假設中任意去1個到k個組合爲新的假設:
-
使用1個合取式: 種假設;
-
使用2個合取式: 種假設;
-
…
-
使用k個合取式: 種假設;
若不考慮冗餘的問題,就把以上求得的各情形下的假設個數進行求和就得到問題的答案了。
如果考慮冗餘的問題,這個博客有說明,但是我現在第一遍看書,就先留個坑。
- 歸納偏好是在無法斷定哪一個假設更好的情況下使用的。既然問題是存在噪聲,那麼如果能知道噪聲的分佈(例如高斯噪聲),就可以將這些性能相同的假設對應的誤差減去由噪聲引起的部分,此時再使用奧卡姆剃刀原則或者多釋原則來進行假設選擇就好了。更常見的做法是引入 正則化(regularization) 項,在建立模型時避免擬合噪聲。
- 若認爲兩個數據的屬性越相近,則更傾向於將他們分爲同一類。若相同屬性出現了兩種不同的分類,則認爲它屬於與他最臨近幾個數據的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。
回顧NFL的證明可以發現,關鍵是要證明,在考慮所有可能的目標函數(對應所有可能的問題,或者說樣本空間的所有分佈情況)時,模型的性能變得與學習算法無關。也即證明 最終可以化簡爲與常數形式。
當我們考慮所有可能的,並且均勻分佈時,任務就失去了優化目標,無論使用哪一種算法,所得模型的平均性能會變得相同。或者可以考慮信號檢測中的代價函數推導,只要,就可以直接輕鬆證明。
如果想看更嚴謹的推導可以看Wolpert, D.H., Macready, W.G當初寫的論文"No Free Lunch Theorems for Optimization"。
這題比較開放,最常見的,消息推送,比如某寶;網站相關度排行,通過點擊量,網頁內容進行綜合分析;圖片搜索或者視頻搜索。