數據科學入門(數據分析過程)

我們將數據分析過程組織爲五個步驟:提問、整理、探索、得出結論和傳達結果。以下是關鍵要點的概述:

第 1 步:提問

你要麼獲取一批數據,然後根據它提問,要麼先提問,然後根據問題收集數據。在這兩種情況下,好的問題可以幫助你將精力集中在數據的相關部分,並幫助你得出有洞察力的分析。

第 2 步:整理數據

你通過三步來獲得所需的數據:收集,評估,清理。你收集所需的數據來回答你的問題,評估你的數據來識別數據質量或結構中的任何問題,並通過修改、替換或刪除數據來清理數據,以確保你的數據集具有最高質量和儘可能結構化。

第 3 步:執行 EDA(探索性數據分析)

你可以探索並擴充數據,以最大限度地發揮你的數據分析、可視化和模型構建的潛力。探索數據涉及在數據中查找模式,可視化數據中的關係,並對你正在使用的數據建立直覺。經過探索後,你可以刪除異常值,並從數據中創建更好的特徵,這稱爲特徵工程。

第 4 步:得出結論(或甚至是做出預測)

這一步通常使用機器學習或推理性統計來完成。

第 5 步:傳達結果

你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的性能。傳達結果的方法有多種:報告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對話。數據可視化總會給你呈現很大的價值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章