數據統計分析基礎知識
什麼是數據分析
專業
有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據的科學與藝術
客觀
從行業的角度看,數據分析是基於某種行業目的,有目的地進行收集、整理、加工和分析數據,提煉有價值信息的一個過程
本質
數據分析包括3個方面:目標、方法和結果。
- 目標:數據分析的關鍵再與設立目標,專業上叫做『有針對性』
- 方法:數據分析的方法包括統計分析和數據挖掘
- 結果:數據分析最終結果要得出分析的結果,結果對目標解釋的強弱,結果的應用效果如何。
數據分析六步曲
明確分析目的和內容
對數據分析目的的把握是數據分析項目成敗的關鍵。
- 數據分析的對象是什麼?
- 數據分析的目的是什麼?
- 最終的結果是要解決什麼業務問題?
數據收集
如何準確有效的收集數據,從而客觀全面地反映要研究的問題的真實情況。
數據處理
數據預處理是指對收集到的數據進行加工、整理,以便開展後續的數據分析。
數據預處理主要包括以下幾個步驟:
- 數據審查
檢查數據的數量(記錄數)是否滿足分析的最低要求,字段值的內容是否與研究目的要求一致,是否全面,包括利用描述性統計分析,檢查各個字段的字段類型,字段的最大值、最小值、平均數、中位數等,記錄個數、缺失值或空值個數等。 數據清理
對數據審查中發現的錯誤值、缺失值、異常值、可疑數據,選用適當的方法進行清理。數據轉換
不同字段由於計量單位不同,往往造成數據不可比。需要在分析前對數據進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化、歸一化等。數據驗證
初步評估和判斷數據是否滿足統計分析的需求,從而決定是否需要增加或減少數據量。利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關性分析、一致性檢驗等方法對數據的準確性進行驗證,確保不把錯誤和偏差的數據帶入到數據分析中。
上面4個步驟是一個逐步深入、由表及裏的過程。先是從表面上查找容易發現的問題(如數據記錄個數、最大值、最小值、缺失值和空值個數等),接着對發現的問題進行處理,即數據清理;再就是提高數據的可比性,對數據進行一些變換,使數據形式上滿足分析的需要;最後則是進一步檢測數據內容是否滿足分析需要,診斷數據的真實性及數據之間的協調性等。
數據分析
數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析,從中發現因果關係、內部聯繫和業務規律,爲商業目的提供決策參考。
常用的數據分析方法
- 要掌握期望、方差、中位數、衆數等數據描述方法;
- 要了解迴歸、分類、聚類、時間序列數據分析等方法的原理、使用範圍、優缺點和結果的解釋
常用的數據分析工具
SPSS, R, Matlab, SAS, Python等
數據展現
一般情況下,數據分析的結果都是通過圖、表的方式來展現。
常用的圖表包括:餅狀圖、折線圖、柱狀圖/直方圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累託圖等。
報告撰寫
最後階段,就是撰寫數據分析報告,對整個數據分析成果進行呈現。
通過報告,把數據分析的目的、過程、結果及方案完成的呈現出來。
數據分析報告要有明確的結論、建議和解決方案,而不僅僅是找出問題,更重要的是解決問題。