數據統計分析(1):數據分析流程

首先,數據分析能力是一項綜合性的能力。

數據分析過程如下:

 

1.明確分析目的和思路

1.1 明確分析目的

做任何事情都有一個目標,數據分析也不例外。如果目的明確,所有問題都可以迎刃而解。所以在開展數據分析之前,要想清楚:爲什麼要開展數據分析?通過這次數據分析我要解決什麼問題?只有明確數據分析的目標,數據分析纔不會偏離方向,否則得出的數據分析結果不僅僅沒有指導意義,甚至可能將決策者引入歧途,後果嚴重。下面引用了《誰說菜鳥不會數據分析》中的一張圖來對比一下菜鳥和數據分析師之間的想法對比圖,以及我們應該糾正的一些想法。

 

1.2 確定分析思路

當明確分析目的明確後,我們就要梳理分析思路,並搭建分析框架,把分析目的分解成若干個不同的分析要點,即如何具體展開數據分析,需要從那幾個角度進行分析,採用哪些分析指標。

只有明確了分析目的,分析框架才能跟着確定下來,最後還要確保分析框架的體系化,使分析結果具有說服力。那數據分析體系化該如何理解?

體系化也就是邏輯化,簡單來說就是先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯繫。這也是很多人常常感到困擾的問題,比如經常不知從哪個方面入手,分析的內容和指標常常被質疑是否合理,完整,而自己也說不出個所以然來,所以,體系化就是爲了讓你的分析框架具有說服力。

2.目標數據確定和採集

2.1 確定目標數據

確定目標數據是根據確定好的分析框架,進行確定需要收集哪些數據來達到分析目的,這是確保整個數據分析過程合理有效的首要條件,因爲只有對目標數據進行分析纔有可能得到分析者有用的分析結果。

2.2 目標數據採集

確定好目標數據以後,第二步就是依據確定的目標數據列表對目標數據進行有效採集。除了常用的全量數據開發和數據收集方法之外,當需要分析的數據量非常大時,還有可能會用到抽樣數據採集方式,所以這裏着重講解一下數據抽樣採集的分類。

抽樣方法可以分成兩大類:非概率抽樣和概率抽樣。非概率抽樣常用語某些特定研究項目,而概率抽樣纔是更常用的抽樣方式。

    1. 常用的非概率抽樣方式

  • 方便抽樣:抽樣時,以方便爲原則。例如,某影評人爲收集觀衆對某部電影的評分情況,可以隨機在電影院出口進行抽樣採訪。

  • 主觀抽樣:以採樣者的主觀經驗關澤總體中具有代表性的樣本。例如,研究榨菜銷量下降的原因,採集農民工羣體購買榨菜的情況。

  • 配額抽樣:將總體按照某些因素進行分類或分層,然後在各層或各類中進行主觀抽樣配額抽樣使樣本在結構上與總體相似。例如,對某小學進行抽樣,根據每個年級學生人數在總人數中的比例來確定每個年級需要抽樣的人數。

  • 滾動抽樣:根據上一個樣本的信息來確定下一個樣本。例如,小紅被老師提問,小紅回答錯誤後,推薦小麗回答。

    2. 常用的概率抽樣方式

  • 簡單隨機抽樣:從總體中隨機抽取個案作爲樣本,每一個個案被抽中的概率都是相同的。

  • 等距抽樣:將總體中的所有個案按照某個條件進行排序,然後隨機確定開始位置,再按照事先確定的相等距離抽取下一個個案。

  • 分層抽樣:將總體按照某些條件進行分層或分類,然後從每層或每類中隨機抽取個案組成樣本。配額抽樣時分層抽樣的一種特殊形式,只不過分層抽樣沒有要求每個層或類抽取的個案數量。

  • 整羣抽樣:將總體按照某些條件劃分成不同的羣體,然後隨機抽取一個或幾個羣,並對抽取的羣衆個案進行數據採集。

 

3.數據處理

數據處理是指對收集到的數據進行加工整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。數據處理主要包括:數據清洗,數據轉化,數據提取,數據計算等處理方法。

4.數據分析

數據分析是指用適當的分析方法及工具,對處理過的數據進行分析,提取有價值信息,形成有效結論的過程。

數據分析方法的理論基礎是統計學。

5.結果可視化及結果支持的決策

未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章