數據分析的過程

1. 數據分析過程組織爲五個步驟:提問、整理、探索、得出結論和傳達結果

2. 數據分析的用途:製作儀表盤報表,分析A/B測試結果,用機器學習和人工智能進行深入的分析

3. 數據分析步驟的具體解說:

A  提問

你要麼獲取一批數據,然後根據它提問,要麼先提問,然後根據問題收集數據。在這兩種情況下,好的問題可以幫助你將精力集中在數據的相關部分,並幫助你得出有洞察力的分析。

B  整理數據

你通過三步來獲得所需的數據:收集,評估,清理。你收集所需的數據來回答你的問題,評估你的數據來識別數據質量或結構中的任何問題,並通過修改、替換或刪除數據來清理數據,以確保你的數據集具有最高質量和儘可能結構化。

C  執行EDA(探索性數據分析)

你可以探索並擴充數據,以最大限度地發揮你的數據分析、可視化和模型構建的潛力。探索數據涉及在數據中查找模式,可視化數據中的關係,並對你正在使用的數據建立直覺。經過探索後,你可以刪除異常值,並從數據中創建更好的特徵,這稱爲特徵工程。

D  得出結論(或甚至是做出預測)

這一步通常使用機器學習或推理性統計來完成

E  傳達結果

你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的性能。傳達結果的方法有多種:報告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對話。數據可視化總會給你呈現很大的價值。

4. 包:充滿類和函數的庫

NumPyPandas 和 Matplotlib 是數據分析的三個核心包。

Python 被視爲數據科學標準語言的最主要原因之一在於其強大的包

5.EDA:意味着你要探索並增加數據,從而將分析、可視化界面和模型的潛力最大化

6.數據評估完後,就需要解決數據裏出現的問題,常見問題包括:數據類型錯誤、數據缺失、數據冗餘和結構問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章