以下基於統計學視角,對商務與經濟的數據分析知識進行總結:
(1)數據
元素(數據來源的原有實物(體))、變量和觀測值
度量尺度
定性和定量數據
截面數據和時間序列數據
(2)描述性統計
①表格法和圖形法
彙總定性數據(柱狀圖和餅狀圖)
彙總定量數據(點位圖(橫軸表示觀測值得取值範圍,每一個觀測值由位於橫軸上的點表示)、直方圖、累積分佈、累積曲線)
探索性數據分析(莖葉圖)
交叉分組列表和散點圖
②數值方法(位置、變異程度、探索性數據分析(五數概括、箱形圖)、兩變量間關係、加權平均)
(3)統計推斷
點估計
區間估計
一個總體均值:①大樣本下總體均值區間估計,用z分佈,如果總體方差未知,則用樣本方差s代替;②小樣本下總體均值區間估計,假定總體服從正態分佈,則總體方差已知情況下,用z分佈,總體方差未知用樣本方差代替,且用t分佈
兩總體均值(獨立樣本):①大樣本下,用z分佈,如果兩總體方差未知,則用樣本標準差代替;②小樣本下,用t分佈
兩總體均值(匹配樣本):使用樣本標準差,t分佈
(4)假設檢驗
判斷總體分佈情況(泊松分佈、正態分佈),均可用擬合度檢驗先後表示用泊松分佈、正態分佈概率公式求得的總體頻數預期結果值。
(5)方差分析
①k個總體均值相等性檢驗分子、分母分別表示組間、組內均方差;多重比較:費舍爾(Fisher)LSD法(Least-Significant Difference, 最小顯著差異法, 用t檢驗完成各組均值間的配對比較的方法);②實驗設計:純隨機設計(方差分析F檢驗)、隨機區組設計(樣本在某一水平進行了重複觀測,SST=SSTR+SSBL+SSE)、因子試驗(SST=SSA+SSB+SSAB+SSE)
(6)簡單線性迴歸
①最小二乘法估計係數;
②判定係數(判斷估計迴歸方程的擬合程度)
④利用迴歸方程估計與預測:點估計、區間估計
⑤殘差分析:
殘差圖;
殘差正態概率判斷圖(首先得到標準正態分數表,然後將被檢測的標準殘差序列從大到小依次和該分數表進行比對,可以得到殘差正態分佈檢測圖);
檢測異常值(散點圖,軟件包)如果一個觀測值與其他數據的形狀偏離很大,那麼對應的標準殘絕對值也將很大;
高槓杆率點,指自變量的值是極端值的觀察值。可以根據自變量的值與它們的平均值距離的遠近確定一個觀察值的槓桿率(對於只有一個自變量的情形)⑥多重共線性(兩變量相關係數大於0.7或者小於-0.7,將可能產生多重共線性)
⑦變量選擇逐步迴歸、前向選擇、後向消元)
⑧自相關性:杜賓-瓦特森(DW)檢驗
(7)預測
加權移動平均法
消除季節影響的時間系列來分析趨勢
迴歸分析
定性預測(德爾菲法、專家判斷法、遠景規劃法)
(8)非參數法
用於一個主體前後變化比較,或者兩個主體差異比較。
①符號檢驗(signtest)
針對的是正號或負號的符號個數。
小樣本,根據發生概率得到二項概率分佈表,利用二項概率分佈進行檢驗;
大樣本,近似正態分佈z檢驗
②威爾克科森符號秩檢驗
基於匹配樣本,針對的是正負符號個數的差值。
當,使用近似正態分佈z檢驗。
③曼-懷特尼檢驗:
所使用的兩個獨立樣本來自不同的總體。
小樣本,,,;大樣本,近似正態分佈z檢驗
④克魯斯卡爾-沃利斯檢驗:多個總體
⑤秩相關:
使用斯皮爾曼秩相關係數(spearman 等級相關係數)求解品質相關係數。
秩相關顯著性檢驗(,使用近似正態分佈z檢驗)