4. 數據統計分析基礎知識

數據統計分析基礎知識

什麼是數據分析

  • 專業

    有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據的科學與藝術

  • 客觀

    從行業的角度看,數據分析是基於某種行業目的,有目的地進行收集、整理、加工和分析數據,提煉有價值信息的一個過程

  • 本質

    數據分析包括3個方面:目標、方法和結果。

    1. 目標:數據分析的關鍵再與設立目標,專業上叫做『有針對性』
    2. 方法:數據分析的方法包括統計分析和數據挖掘
    3. 結果:數據分析最終結果要得出分析的結果,結果對目標解釋的強弱,結果的應用效果如何。

數據分析六步曲

數據分析六部曲圖

明確分析目的和內容

對數據分析目的的把握是數據分析項目成敗的關鍵。

  • 數據分析的對象是什麼?
  • 數據分析的目的是什麼?
  • 最終的結果是要解決什麼業務問題?

數據收集

如何準確有效的收集數據,從而客觀全面地反映要研究的問題的真實情況。

數據處理

數據預處理是指對收集到的數據進行加工、整理,以便開展後續的數據分析。
數據預處理主要包括以下幾個步驟:

  1. 數據審查
    檢查數據的數量(記錄數)是否滿足分析的最低要求,字段值的內容是否與研究目的要求一致,是否全面,包括利用描述性統計分析,檢查各個字段的字段類型,字段的最大值、最小值、平均數、中位數等,記錄個數、缺失值或空值個數等。
  2. 數據清理
    對數據審查中發現的錯誤值、缺失值、異常值、可疑數據,選用適當的方法進行清理。

  3. 數據轉換
    不同字段由於計量單位不同,往往造成數據不可比。需要在分析前對數據進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化、歸一化等。

  4. 數據驗證
    初步評估和判斷數據是否滿足統計分析的需求,從而決定是否需要增加或減少數據量。利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關性分析、一致性檢驗等方法對數據的準確性進行驗證,確保不把錯誤和偏差的數據帶入到數據分析中。

上面4個步驟是一個逐步深入、由表及裏的過程。先是從表面上查找容易發現的問題(如數據記錄個數、最大值、最小值、缺失值和空值個數等),接着對發現的問題進行處理,即數據清理;再就是提高數據的可比性,對數據進行一些變換,使數據形式上滿足分析的需要;最後則是進一步檢測數據內容是否滿足分析需要,診斷數據的真實性及數據之間的協調性等。

數據分析

數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析,從中發現因果關係、內部聯繫和業務規律,爲商業目的提供決策參考。

  • 常用的數據分析方法

    1. 要掌握期望、方差、中位數、衆數等數據描述方法;
    2. 要了解迴歸、分類、聚類、時間序列數據分析等方法的原理、使用範圍、優缺點和結果的解釋
  • 常用的數據分析工具

    SPSS, R, Matlab, SAS, Python等

數據展現

一般情況下,數據分析的結果都是通過圖、表的方式來展現。

常用的圖表包括:餅狀圖、折線圖、柱狀圖/直方圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累託圖等。

報告撰寫

最後階段,就是撰寫數據分析報告,對整個數據分析成果進行呈現。

通過報告,把數據分析的目的、過程、結果及方案完成的呈現出來。

數據分析報告要有明確的結論、建議和解決方案,而不僅僅是找出問題,更重要的是解決問題。

Reference

  1. 從零進階!數據分析的統計基礎(第2版)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章