題目一:如果將數據中除圈起來的三個點以外的其他數據全部移除,那麼決策邊界是否會改變?
A
會
B
不會
解析:正確答案是: B,決策邊界只會被支持向量影響,跟其他點無關。
題目二:關於SVM泛化誤差描述正確的是
A
超平面與支持向量之間距離
B
SVM對未知數據的預測能力
C
SVM的誤差閾值
解析:正確答案是: B,統計學中的泛化誤差是指對模型對未知數據的預測能力。
題目三:訓練SVM的最小時間複雜度爲O(n2),那麼一下哪種數據集不適合用SVM?
A
大數據集
B
小數據集
C
中等大小數據集
D
和數據集大小無關
解析:正確答案是:A,有明確分類邊界的數據集最適合SVM,因爲大數據即更不易有明確邊界。
題目四:支持向量是那些最接近決策平面的數據點
A
對
B
錯
解析:正確答案是:A,支持向量就在間隔邊界上,這裏要考慮一個問題軟件間隔的時候,有分類錯誤的點可能距離更近。
題目五:假定你使用了一個很大γ值的RBF核,這意味着:
A
模型將考慮使用遠離超平面的點建模
B
模型僅使用接近超平面的點來建模
C
模型不會被點到超平面的距離所影響
D
以上都不正確
解析:正確答案是: B,SVM調參中的γ衡量距離超平面遠近的點的影響。 對於較小的γ,模型受到嚴格約束,會考慮訓練集中的所有點,而沒有真正獲取到數據的模式、對於較大的γ,模型能很好地學習到模型。參考
SVM 中爲了得到更加複雜的分類面並提高運算速度,通常會使用核函數的技巧。徑向基核函數(RBF)也稱爲高斯核函數是最常用的核函數,其核函數的表達式如下所示:
形式與高斯分佈類似,Gamma γ 是高斯分佈中標準差 Sigma σ 的導數。我們知道在高斯分佈中,σ 越小,對應的高斯曲線就越尖瘦。也就是說 γ 越大,高斯核函數對應的曲線就越尖瘦。這樣,運用核技巧得到的 SVM 分類面就更加曲折複雜,甚至會將許多樣本隔離成單個的小島。
下面是 γ 分別取 1、10、100 時對應的 SVM 分類效果:
值得一提的是,γ 過小容易造成欠擬合,γ 過大容易造成過擬合。