7個獲得訓練數據的方法

數據科學家知道沒有經過訓練的統計模型基本上沒用。沒有高質量的標註訓練數據,監督學習就不能正常工作,沒有辦法確保模型可以預測,分類或者準確分析指定的現象


Training Data

當你在做監督學習時,如果找不到正確的訓練數據,那麼很難搭建這個模型。即使你找到了正確的訓練數據集,如果這些數據沒有被正確標註或者註釋用來訓練你的機器學習算法,這些數據也沒有很大的用處。

然而,大多數的數據科學家不願意做標註的工作因爲這個工作往往是重複枯燥的並且數據標註工作往往被看作是最低級的工作。下面是我總結的幾個方法可以較輕鬆獲得訓練數據



  1. 對現有的訓練數據和標籤再利用: 這是最簡便和便宜的方法,前提是新的問題數據需求和原來的數據需求相似。在採用這個辦法時,可以採用遷移學習的方法來確定訓練數據源哪些可以複用在新的模型上
  2. 免費渠道的標註訓練數據: 比如利用網絡爬蟲.
  3. 探索未標註的免費訓練數據:尋找你們領域開源的數據集.
  4. 在高質量的數據集上重新訓練模型: 你自己的數據可能不足以訓練模型。我們建議你可以先在可用的開源數據集上面初步訓練模型,然後在比較小的,高質量的標註數據集上重新訓練模型。當你獲得了更多的標註數據時,在對算法模型進行迭代
  5. 外包數據標註服務給專業的訓練數據提供商: 你可能沒有足夠的內部員工幫你標註訓練數據. 你可以外包給專業的訓練數據服務商比如 sparkapi. 這能確保你快速的獲得大量的標註數據,同時因爲他們往往使用更專業優化過的標註工具所以往往標註效果優於你自建團隊
  6. 在網上APP中嵌入標註任務: 在客戶常用的APP中嵌入一些圖片分類,識別的任務
  7. 優化別人訓練的模型 M


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章