【特徵工程系列2】如何獲得訓練數據的標籤?

       機器學習可以大致分爲有監督和無監督兩大類。其中,有監督是指訓練數據是帶標籤的,如果標籤準確,其性能一般優於無監督學習。


       在各大教科書上,“帶標籤”和“不帶標籤”都是直接假定的。那麼,問題來了,在現實中,如何獲得帶標籤的訓練數據呢?結合自己最近參與的數據挖掘項目,我總結出了以下三種方法:


1) 人工標註:顧名思義,就是由專家人工標註部分數據,用作訓練集。這種方法工作量很大,特別是在大數據挖掘中。


2) 規則標註:此方法用的較多,即通過專家設定一些過濾條件(規則),給部分數據貼上標籤,獲得訓練集。然後,需要注意的是,規則一定要精準,寧可少獲得一些訓練數據,也要保證貼上標籤的數據非常準確;否則,後面的機器學習學到的都是錯誤的啦。正是因爲這樣的考慮,此方法還隱藏着一個問題:樣本不均衡問題,即有些類別的樣本用規則可以識別出很多,而有些類的樣本卻很難用規則識別。另外,規則的制定往往帶有專家的主觀視角,也就是說,獲得的訓練集其實是有偏的,有些專家不具備的“知識”被丟失了。


3) 聚類標註:即在特徵工程之後,通過聚類的方法,獲得不同類別的標註。這種方法首先將面對聚類算法本身的一些問題,如聚類數目的確定,初始聚類中心怎麼選等問題。此外,聚類更像個黑匣子,它可以解決專家主觀規則帶來的有偏問題,但問題也隨之而來:聚類之後的類別劃分方法可能和業務中想要的類別劃分方法有所不同,或者說,聚類算法有可能獲得相同數據的不同劃分方法。這需要在特徵工程中好好設計特徵來解決。
發佈了25 篇原創文章 · 獲贊 18 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章