【機器學習】《機器學習》周志華西瓜書習題參考答案:第1章 - 緒論

專欄【機器學習】

【機器學習】《機器學習》周志華西瓜書 筆記/習題答案 總目錄

——————————————————————————————————————————————————————

習題

在這裏插入圖片描述

此時訓練集如下:

編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
4 烏黑 稍蜷 沉悶

由於好瓜的3個屬性值與壞瓜都不同。所以能與訓練集一致的假設就有很多可能了,從最具體的入手,往上逐層抽象可得:

在這裏插入圖片描述

在這裏插入圖片描述

首先要理解題意,“使用最多包含 kk 個合取式的析合範式來表達表1.1西瓜分類問題的假設空間” 。

這句話表達的意思是每個假設可以由最少1個、最多k個合取範式的析取來表示

表1.1:

編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
2 烏黑 蜷縮 濁響
3 青綠 硬挺 清脆
4 烏黑 稍蜷 沉悶

這裏色澤有2種取值,根蒂有3種取值,敲聲有3種取值。因爲每個屬性還可以用通配符表示取任何值都行,所以實際上這三個屬性分別有3,4,4種選擇。因此,在只考慮單個合取式的情況下,有 3×4×4=483 \times 4 \times 4 = 48 種假設(因爲訓練集中有存在正例,所以 \varnothing 假設不需考慮)。

現在我們考慮題目的條件,這實際上是一個組合問題。我們可以從48個基本假設中任意去1個到k個組合爲新的假設:

  • 使用1個合取式:(481)=48\binom{48}{1} = 48 種假設;

  • 使用2個合取式:(482)=484721=1128\binom{48}{2} = \frac{48*47}{2*1} = 1128 種假設;

  • 使用k個合取式:(48k)=4847...(48k+1)k!\binom{48}{k} = \frac{48*47*...*(48-k+1)}{k!} 種假設;

若不考慮冗餘的問題,就把以上求得的各情形下的假設個數進行求和就得到問題的答案了。

如果考慮冗餘的問題,這個博客有說明,但是我現在第一遍看書,就先留個坑。

在這裏插入圖片描述

  • 歸納偏好是在無法斷定哪一個假設更好的情況下使用的。既然問題是存在噪聲,那麼如果能知道噪聲的分佈(例如高斯噪聲),就可以將這些性能相同的假設對應的誤差減去由噪聲引起的部分,此時再使用奧卡姆剃刀原則或者多釋原則來進行假設選擇就好了。更常見的做法是引入 正則化(regularization) 項,在建立模型時避免擬合噪聲。
  • 若認爲兩個數據的屬性越相近,則更傾向於將他們分爲同一類。若相同屬性出現了兩種不同的分類,則認爲它屬於與他最臨近幾個數據的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。

在這裏插入圖片描述

回顧NFL的證明可以發現,關鍵是要證明,在考慮所有可能的目標函數(對應所有可能的問題,或者說樣本空間的所有分佈情況)時,模型的性能變得與學習算法無關。也即證明 f(h(x),f(x))\sum_f \ell(h(x), f(x)) 最終可以化簡爲與常數形式。

當我們考慮所有可能的ff,並且ff均勻分佈時,任務就失去了優化目標,無論使用哪一種算法,所得模型的平均性能會變得相同。或者可以考慮信號檢測中的代價函數推導,只要在這裏插入圖片描述,就可以直接輕鬆證明。

如果想看更嚴謹的推導可以看Wolpert, D.H., Macready, W.G當初寫的論文"No Free Lunch Theorems for Optimization"

在這裏插入圖片描述

這題比較開放,最常見的,消息推送,比如某寶;網站相關度排行,通過點擊量,網頁內容進行綜合分析;圖片搜索或者視頻搜索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章