爲什麼需要清洗數據

日拱一卒|數據挖掘001

無論是大數據、數據挖掘、機器學習,亦或是簡單的可視化,無一不是建立在亂七八糟的基礎上。在正式地應用於數據科學如算法、可視化前,數據往往需要經過遷移、壓縮、清洗、打散、分片、分塊等其他轉換處理。

至少在經管科研中,數據收集、清洗是最耗費時間的事情。一旦有了高質量的數據,可以發一系列期刊

《紐約時報》將數據清洗成爲“看門人工作”,並稱數據科學家百分之八十的時間都花費在了這些清洗任務上。

——錯進,錯出

數據清洗是如何融入數據科學中?

展開來說需要圍繞數據科學過程的六個步驟來描述。但不要以純線性方式看待這些步驟,簡單地認爲這是一個從頭到尾執行的框架。有時會根據具體情況,反覆執行這些步驟。

  1. 問題描述,識別出要解決的問題是什麼。
  2. 數據收集與儲存,數據從何而來?存放在哪裏?數據格式是什麼?
  3. 數據清洗,數據需要修改嗎?有什麼需要刪除的嗎?數據應該如何調整才能適用接下來的分析和挖掘?
  4. 數據分析和機器學習,數據需要哪些處理?需要什麼樣的轉換?使用什麼樣的算法?運用什麼公式?使用什麼機器學習算法?順序又是怎樣的呢?
  5. 數據展現和可視化實現,數據處理結果應該怎樣呈現出來呢?
  6. 問題決議,在第一步提出的疑問或是問題的答案究竟是什麼?數據處理結果還有哪些不足?這個方法能徹底解決問題嗎?還能找出別的什麼辦法嗎?接下來要做的又是什麼?

要養成記錄操作的習慣,哪怕不是正式的報告文檔。最簡單的方案就是保留一份工作日誌。這份日誌應包括:應包含的鏈接,屏幕截圖或者複製粘貼曾運行過的具體命令,並配上解釋性的文字。

參考資料:
《乾淨的數據 :數據清洗入門與實踐》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章