監督學習中需要注意的問題

監督學習中需要注意的問題

1、偏置和方差權衡

  第一個問題就是偏見和方差之間的權衡。
  較低的學習算法偏差必須“靈活”,這樣就可以很好的匹配數據。但如果學習算法過於靈活,它將匹配每個不同的訓練數據集,因此有很高的方差。許多監督學習方法的一個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供一個偏見/方差參數,用戶可以調整)。

2、功能的複雜性和數量的訓練數據

  第二個問題是訓練數據可相對於“真正的”功能(分類或迴歸函數)的複雜度的量。
  如果真正的功能是簡單的,則一個“不靈活的”學習算法具有高偏壓和低的方差將能夠從一個小數據量的學習。但是,如果真功能是非常複雜的(例如,因爲它涉及在許多不同的輸入要素的複雜的相互作用,並且行爲與在輸入空間的不同部分),則該函數將只從一個非常大的數量的訓練數據,並使用可學習“靈活”的學習算法具有低偏置和高方差。因此,良好的學習算法來自動調整的基礎上可用的數據量和該函數的明顯的複雜性要學習的偏壓/方差權衡。

3、輸入空間的維數

  如果輸入特徵向量具有非常高的維數,學習問題是很困難的,這是因爲許多“額外”的尺寸可混淆的學習算法,並使其具有高方差。
  因此,高的輸入維數通常需要調整分類器具有低方差和高偏置。
  在實踐中,如果工程師能夠從輸入數據手動刪除不相關的特徵,這是有可能改善該學習功能的準確性。此外,還有許多算法的特徵選擇,設法確定相關特徵,並丟棄不相關的。

4、噪聲中的輸出值

  第四個問題是在所需要的輸出值的噪聲的程度。
  當沒有測量誤差(隨機噪聲),如果你正在努力學習功能,是您學習模式太複雜,你甚至可以過度擬合。在這種情況下的目標函數,該函數不能被模擬“腐化”你的訓練數據的那部分-這一現象被稱爲確定性的噪聲。當任一類型的噪聲存在時,最好是去一個更高的偏見,低方差估計。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章