機器學習可以大致分爲有監督和無監督兩大類。其中,有監督是指訓練數據是帶標籤的,如果標籤準確,其性能一般優於無監督學習。
在各大教科書上,“帶標籤”和“不帶標籤”都是直接假定的。那麼,問題來了,在現實中,如何獲得帶標籤的訓練數據呢?結合自己最近參與的數據挖掘項目,我總結出了以下三種方法:
1) 人工標註:顧名思義,就是由專家人工標註部分數據,用作訓練集。這種方法工作量很大,特別是在大數據挖掘中。
2) 規則標註:此方法用的較多,即通過專家設定一些過濾條件(規則),給部分數據貼上標籤,獲得訓練集。然後,需要注意的是,規則一定要精準,寧可少獲得一些訓練數據,也要保證貼上標籤的數據非常準確;否則,後面的機器學習學到的都是錯誤的啦。正是因爲這樣的考慮,此方法還隱藏着一個問題:樣本不均衡問題,即有些類別的樣本用規則可以識別出很多,而有些類的樣本卻很難用規則識別。另外,規則的制定往往帶有專家的主觀視角,也就是說,獲得的訓練集其實是有偏的,有些專家不具備的“知識”被丟失了。