由於每個算法都基於某些特定的假設,並且均含有一些缺點,故需要通過大量的實踐爲特定的問題選擇合適的算法。
沒有任何一種分類器可以在所有的問題中都有良好的表現,即對於每一種分類算法,總有一定的問題是無法良好的解決的。實踐表明,只有比較了多種學習算法的性能才能爲特定的問題挑選出合適的模型。這些模型針對不同的數量的特徵或者樣本、數據集中噪聲的數量,以及類別時候線性可分等問題時,表現各不同。
總而言之,分類算法的性能,計算能力和預測能力,在很大程度上都依賴用於模型訓練的相關數據。訓練機器學習算法所涉及的五個主要步驟可概述爲:
- 特徵的選擇
- 確定性能評價標準
- 選擇分類器及其優化算法
- 對模型性能的評估
- 算法的調度