分佈分析
對數據的分佈情況進行描述,從而對事件的發生規律有準確的認識
-
定量數據
目的是可以讓我們瞭解:- 事件發生的一般結果是什麼 --集中趨勢
- 事件結果的變化情況 – 離中趨勢
- 事件各個結果的發生概率是什麼 --圖形特徵
定量分析的指標:
- 中心位置/集中趨勢 :均值、中位數、衆數、四分位數
- 分散程度/離中趨勢:方差、標準差、極差、變異係數{標準差/平均值}
同一對象不同時間的波動:
方差大:受外界因素影響較大,可以通過特徵的貢獻度分析析,尋找影響波動的原因。查看是否存在週期性
方差小:可以通過時間序列等方法進行預測
同一對象相同時間的波動:
方差大:各個對象間的差異較大,可以尋找差異大的原因,異常值中一般蘊藏着機會
方差小:各對象之間的差異不大,對象的屬性對結果的影響不大
- 圖形特徵
離散性隨機變量的類型:
- 0-1 分佈 :某一件事發生的結果只有0和1兩種取值
- 二項分佈:每次試驗中只有兩種可能的結果,而且兩種發生與否互相對立與其它各次試驗結果無關,
事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱爲n重伯努利實驗,
當試驗次數爲1時,二項分佈服從0-1分佈。
- 泊松分佈:當某個事件出現的概率很小,但它又是無時無刻隨時可能出現的,
那麼當我們現在要求出一段時間內發生這種事件次數的概率時,
就可以全用泊松分佈來計算概率在統計學上,滿足下面三個條件就是服從 泊松分佈: - 事件是小概率 - 各個事件發生是獨立的,不會互相影響 - 事件發生的概率是穩定的 連續性隨機變量類型 均勻分佈:也叫矩形分佈,它是對稱概率分佈,在相同長度間隔的分佈概率是等可能的 正態分佈:如果連續性隨機變量概率密度符合正態分佈函數 下面兩句話可以看出正態分佈的重要性 『神說,要有正態分佈,於是就有了正態分佈 神看正態分佈是好的,就讓隨機誤差都隨了正態分佈』 在分析過種中我們認爲: 大概率事件發生是正常的 小概率事件發生是異常的 最終目標是根據事件發生的概率制定最優決策
-
定性數據
定性數據分析的目的:
尋找不同類別對象間的區別,或者對不同類別別的對象做不同的處理,確定需要重點關注的對象分析方法 佔比方法 以某一類定性特徵作爲分類標準看定量數據的分佈情況 貢獻度分析(二八分析,帕雷託分析)以某一類定性特徵作爲統計對象看定量數據的分析情況
-
定時數據
分析目的:尋找事件發生結果隨時間變化的規律
分析方法:
週期性分析 - 事件的發生是否存在週期性
時間序列分析 - 事件發生的的趨勢是什麼樣時間序列分析模型: 趨勢擬合:把時間作爲自變量,相應序列的觀察值作爲因變量,建立迴歸模型, 根據序列的特徵,可以分爲線性擬合和曲線擬合 平滑法:利用修勻技術,消弱短期波動對序列的影響,使用平滑化, 具體分爲移動平均法和指數平均法 其他還有 AR 模型、MA模型、ARMA模型