西瓜書緒論課後習題(個人練習)

1.1  表1.1中若只包含編號爲1和4的兩個樣例,試給出相應的版本空間。

表1.1 西瓜樣本簡
編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
4 烏黑 稍蜷 沉悶

解答:

首先,根據表格可知,西瓜樣本的每個屬性都只有兩種具體的屬性,然後再加上每個樣本屬性都可以進行泛化,也就是可以取 * ,則每個屬性都有三種取值的可能,那麼總的假設空間的可能爲:3 * 3 *3 =27(乘法原理);再加上∅的可能,所以,滿足題意的總的可能性假設空間一共有27+1 = 28 種;

而樣本的版本空間則是指滿足好瓜的條件的假設的集合,那麼,可以根據乘法原理,好瓜只有一個樣本,並且每個屬性有兩種可能,所以,滿足好瓜的假設的可能一共有: 2 * 2 * 2 =8 種;但是其中三種屬性都泛化時,此時的假設同樣滿足壞瓜樣本的條件,因此需要從樣本的版本空間中剔除。所以,最終的樣本的版本空間的假設個數爲:8 - 1 = 7 種;每種的假設如下:

 

1.2   與使用單個合取式來進行假設表示相比,使用 “析合範式” 將使得假設空間具有更強的表示能力。例如 :

                          好瓜 ↔ ((色澤= * )∧ (根蒂 = 蜷縮)∧ (敲聲 = 沉悶))

                                               ∨((色澤= 烏黑 )∧ (根蒂 =  * )∧ (敲聲 = 沉悶))

會把“(色澤= =青綠) ^ (根蒂=蜷縮) ^ (敲聲=清脆)”以及“(色澤=烏黑) ^ (根蒂=硬挺) ^ (敲聲=沉悶)”都分類爲“好瓜”.若使用最
多包含k個合取式的析合範式來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。【提示: 注意冗餘情況,如(A=a)V(A=*)與(A=*)等價。】

表1.1 西瓜樣本
編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
2 烏黑 蜷縮 濁響
3 青綠 硬挺 清脆
4 烏黑 稍蜷 沉悶

解答:

        同理,先求樣本的假設空間,觀察表格可知,每個屬性的值域分別有:2 3 3種情況,再加上泛化的情況,因此,每個屬性的值域分別有: 3 4 4中選擇,那麼假設空間中一共有: 3 * 4 * 4 + 1 =49種(1種空集的假設)。

其中:0屬性泛化(即每個屬性都是具體的值)有: 2 * 3 * 3 =18 種可能;

           單屬性泛化有:3 * 3  + 2 * 3 + 2* 3 = 9 + 6 + 6 = 21 種可能;

           雙屬性泛化有:2 + 3 + 3 = 8 種可能;

           三屬性泛化有:1 種可能;

由於本人尚未完全理解冗餘的真正含義和情形,因此考慮冗餘的情況尚未解答出,但不考慮冗餘,那麼k最大可以取49,總的可能性的析合範式的可能共有:\sum 2^{49} 種;若是考慮冗餘,則 k 最大隻能取18或者21,如果單泛化也存在冗餘,那麼最大隻能取18,否則可以取21,因爲 k 泛化與 (k-1) 泛化中必然存在冗餘的情形( 1≤k≤3)。

 


1.3  若數據包含噪聲,則假設空間中有可能不存在與所有訓練樣本都一致的假設(即不存在訓練錯誤爲0的假設)。在此情形下,試設計一種歸納偏好用於假設選擇.

解答:

        個人以爲:可以選擇將該假設與樣本中的匹配度最高的樣本進行匹配,或者與匹配數最少的樣本進行匹配。(此題不求甚解,題意尚未完全弄懂。)


1.4* 本章1.4節在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作爲性能度量來對分類器進行評估.若換用其他性能度量l,則式(1.1)將改爲
                                          E_{ote}(\xi _{a}|X,f) = \sum_{h}\sum _{x\epsilon chi -X} P(x)\iota (h(x),f(x))P(h|X,\xi _{a})
        試證明“沒有免費的午餐定理”仍成立。

             解答:

                        同樣考慮二分類問題,且真實目標函數可以是任何函數χ → {0,1},函數空間爲\left \{0,1 \right \}^{|\chi |}。對所有可能的 f 按均勻分佈對誤差求和,有:

                       \sum _{f} E_{ote}(\xi _{a}|X,f) = \sum _{f} \sum _{h} \sum _{x\epsilon \chi -X}P(x)l(h(x),f(x))P(h|X,\xi _{a})

                                                     =\sum _{x \epsilon \chi -X}P(x)\sum _{h}P(h|X,\xi _{a})\sum _{f}l(h(x),f(x))

                                                     =\sum _{x\epsilon \chi -X}P(x)\sum P(h|X,\xi _{a}) * c *2^{|\chi |}

                                                     =c*2^{|\chi |} \sum _{x\epsilon \chi-X}P(x)\sum_{h}P(h|X,\xi_{a} )

                                                     =c*2^{|\chi|}\sum_{x\epsilon\chi-X }P(x).1

               可知“沒有免費的午餐定理仍然成立”。

              注: ① 常數c是其他性能度量的值,其他性能度量作爲一個指示函數,其具體的值應當是一個常量,因此有c表示;

                      ② P(h|X,Y)代表算法Y基於訓練樣本數據X產生假設h的概率,因此所有假設h的概率之和應當爲1;

                      ③ 任何函數都滿足0,1的均勻分佈,因此,每個樣本數據非黑即白,則當樣本空間爲|χ| 時,真實目標函數的個數即                            爲2^{|\chi|}

                      ③ 此題爲本人蔘考南瓜書相關證明過程的個人理解,建議參考南瓜書證明。


1.5  試述機器學習能在互聯網搜索的哪些環節起什麼作用.

解答:

          如:廣告精準推送,從網頁中檢索相應的關鍵詞,按照瀏覽記錄推送相應的網頁等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章