03 數據分析之分佈分析

分佈分析

對數據的分佈情況進行描述,從而對事件的發生規律有準確的認識

  1. 定量數據
    目的是可以讓我們瞭解:

    • 事件發生的一般結果是什麼 --集中趨勢
    • 事件結果的變化情況 – 離中趨勢
    • 事件各個結果的發生概率是什麼 --圖形特徵

    定量分析的指標:
    - 中心位置/集中趨勢 :均值、中位數、衆數、四分位數
    - 分散程度/離中趨勢:方差、標準差、極差、變異係數{標準差/平均值}
    同一對象不同時間的波動:
    方差大:受外界因素影響較大,可以通過特徵的貢獻度分析析,尋找影響波動的原因。查看是否存在週期性
    方差小:可以通過時間序列等方法進行預測
    同一對象相同時間的波動:
    方差大:各個對象間的差異較大,可以尋找差異大的原因,異常值中一般蘊藏着機會
    方差小:各對象之間的差異不大,對象的屬性對結果的影響不大
    - 圖形特徵
    離散性隨機變量的類型:
    - 0-1 分佈 :某一件事發生的結果只有0和1兩種取值
    - 二項分佈:每次試驗中只有兩種可能的結果,而且兩種發生與否互相對立與其它各次試驗結果無關,
    事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱爲n重伯努利實驗,
    當試驗次數爲1時,二項分佈服從0-1分佈。
    - 泊松分佈:當某個事件出現的概率很小,但它又是無時無刻隨時可能出現的,
    那麼當我們現在要求出一段時間內發生這種事件次數的概率時,
    就可以全用泊松分佈來計算概率

     						在統計學上,滿足下面三個條件就是服從 泊松分佈:
     						 - 事件是小概率
     						 - 各個事件發生是獨立的,不會互相影響
     						 - 事件發生的概率是穩定的
     						 
     	  連續性隨機變量類型
     	  		均勻分佈:也叫矩形分佈,它是對稱概率分佈,在相同長度間隔的分佈概率是等可能的
     	  		正態分佈:如果連續性隨機變量概率密度符合正態分佈函數
     	  			下面兩句話可以看出正態分佈的重要性
     	  			『神說,要有正態分佈,於是就有了正態分佈
     	  			神看正態分佈是好的,就讓隨機誤差都隨了正態分佈』
    
     	  	在分析過種中我們認爲:		
     		大概率事件發生是正常的
     		小概率事件發生是異常的
     		最終目標是根據事件發生的概率制定最優決策
    
  2. 定性數據
    定性數據分析的目的:
    尋找不同類別對象間的區別,或者對不同類別別的對象做不同的處理,確定需要重點關注的對象

     分析方法  佔比方法     以某一類定性特徵作爲分類標準看定量數據的分佈情況
                   貢獻度分析(二八分析,帕雷託分析)以某一類定性特徵作爲統計對象看定量數據的分析情況
    
  3. 定時數據
    分析目的:尋找事件發生結果隨時間變化的規律
    分析方法:
    週期性分析 - 事件的發生是否存在週期性
    時間序列分析 - 事件發生的的趨勢是什麼樣

    	時間序列分析模型:
    		趨勢擬合:把時間作爲自變量,相應序列的觀察值作爲因變量,建立迴歸模型,
    						  根據序列的特徵,可以分爲線性擬合和曲線擬合
    		平滑法:利用修勻技術,消弱短期波動對序列的影響,使用平滑化,
    		              具體分爲移動平均法和指數平均法
    		其他還有 AR 模型、MA模型、ARMA模型
    
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章