數據分析師必備——數據預處理思維導圖(數據探索)

前言:

作爲一名數據分析師。首先,我們拿到數據時,腦海中要有一個數據處理框架,或者說是數據處理模板。當我們在腦中深刻記住接下來的數據處理模板,並細化了解每個模塊,一個模塊一個模塊的去攻克它。這樣,會使得我們學習數據分析更得心應手。但注意的是,就好像英語作文模板一樣,套用時不能太死。數據分析也一樣,還是根據我們現實需求,進行數據分析。


數據預處理的背景:

平時當我們拿到數據時,數據很難達到自己預想的模樣,比如:數據缺失啊,準確性問題、指標太多等等。總要通過一系列的分析,數據操作才能拿到我們想要的數據。所以,這個時候,一個重要的步驟來了——數據預處理。就我個人而言,數據預處理感覺非常重要,數據質量是數據的生命。而數據預處理恰是掌握着數據質量的關鍵。以上的數據預處理流程圖是我查閱資料,文獻總結而來(有很多數據預處理版本自行參考),數據預處理主要分五步:數據探索、數據清洗、數據集成、數據規約、數據變換。有些專業名詞不懂先別急,先知道大概這麼幾步。後面我再一一解釋。

數據預處理第一步——數據探索階段:

先上數據探索步驟圖,先做初步瞭解


當我們觀測、調查收集初步的樣本數據集後,接下來肯定要思考的問題:樣本數據集的數量和質量是否滿足模型的架構的要求?是否出現從未設想過的數據狀態?其中有沒有明顯的規律和趨勢?各因素之間有什麼樣的關聯性?數據探索階段就是爲解決上面這些問題的。這裏應該很好理解,就不多bb。我想補充的是,其實數據探索階段在我們後面數據挖掘中,通數據有趣模式的挖掘概念很像。簡單的說,在大部分的應用數據場景中,我們拿到數據,並不知道其背後的含義、規律、價值。這時候,就需要我們對數據進行有趣模式挖掘。(哈哈~數據挖掘是數據分析師的進階篇。先穿插着講講。)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章