今天看了百度有關數據分析的PPT講解,以下是一些筆記。
1、分層抽樣的重要性,但是這個是針對分析對象的體量,我們無法全部採集的情況下,需要考慮的問題
2、細分分類,得到細緻的結論。但是要保證細分之後的數據足夠,確保最後統計結果的有效性。
3、對於樣本的分析,我們經常需要查看一下幾個特徵:
--頻率度量:衆數
--位置度量:均值和中位數
--散度度量:極差和方差
--數據分佈:頻率表、直方圖
--多圓彙總統計:相關矩陣、協方差矩陣
4、多維度多層次彙總觀察數據的技術。OLAP概念。
補充:
正態分佈是許多統計方法的理論基礎。 檢驗、方差分析、相關和迴歸分析等多種統計方法均要求分析的指標服從正態分佈。許多統計方法雖然不要求分析指標服從正態分佈,但相應的統計量在大樣本時近似正態分佈,因而大樣本時這些統計推斷方法也是以正態分佈爲理論基礎的。