數據分析的過程

數據分析流程:

  • 提出問題
  • 整理數據
  • 探索數據
  • 得出結論
  • 傳遞結果

1.提出問題

我作爲一個互聯網公司中的技術人員,目前接收到的大多需求和問題是來自研發內部。實際上在一家公司中,除了研發,還有產品、運營、客服甚至老闆,他們都需要數據支撐作出決策。

舉個例子,研發可能需要通過日誌分析來優化系統性能,尋找系統弱點;運營人員需要了解產品的觸達率,點擊率,轉化率,留存率,需要繪製用戶畫像以便精準營銷;客服需要第一時間知道用戶的行爲數據以便爲用戶作出解答;老闆需要利用大盤數據分析作出商業決策。

2.整理數據

我想說這應該是最令人頭痛的部分了。無論你的模型算法多麼牛逼,你的圖做得多麼完美炫酷,你的報告做出多麼強的針對性。沒有數據,數據不完整,數據不準確都會毀了你後面所有的努力和工作。

整理數據其實可以繼續細分爲:數據獲取數據清洗數據存儲

數據獲取
數據分析其實就是要挖掘數據的價值。或許像日誌一樣你認爲毫無價值的糟粕在我們看來也是寶貝。我們通常會利用python numpy/pandas或spark獲取業務系統的日誌,數據庫中的業務數據,前端用戶行爲數據等等。

數據清洗
是不是你印象中的數據都是excel表的那種結構化形式,其實不然。舉個例子,像一篇文章,一張照片,一段音頻視頻,一截系統日誌等等,這些半結構化非結構化的數據我們就需要通過一些手段轉化爲結構化的數據。

數據存儲
清洗完的數據我們通常保存在HDFS或者Hive這樣的數倉裏面。

總體來說,這部分的工作屬於髒活累活,如果你需要一個人做數據分析完整的工作或者是負責這部分的,你必須要細緻認真,不然後面的付出都將白費。

3.探索數據

經過前面的步驟,我們已經獲取到了乾淨的數據。我們可以通過作圖來了解數據的分佈,變量之間的關係。過程中還會涉及到變量異常值、缺失值的處理。

4.得出結論

描述統計通常會繪製一些圖形來展示數據的特點,這就是數據的可視化。這裏推薦一個非常棒的可視化工具Tableau。進一步分析就是根據已有的數據作出預測,通常會藉助機器學習等等手段,這裏涉及到了統計學描述統計和推斷統計的概念。我也是在學習過程中,就不深入分析了。

5.傳遞結果

數據分析通常都爲業務服務,就是需求和問題的提出方。你通常需要寫報告、報表等等向別人表達你的分析結論,解決方案。如果像個性化推薦這樣的需求還需要用編程實現模型,形成數據的閉環使用,驅動產品智能。

數據分析除了要求數學,統計等理論,也考驗你對數據的敏感性,思維的發散性,多往不同的角度想。同時也考驗你的交流技巧,沒事多與不同的人聊聊天,沒什麼壞處的。以上是一點點個人體會,我也是學習數據分析沒多久,希望可以與大家共同進步。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章