數據平穩性與差分法
平穩性:
- 平穩性就是要求經由樣本時間序列所得到的擬合曲線 在未來的一段期間內仍能順着現有的形態“慣性”地延續下
- 平穩性要求序列的均值和方差不發生明顯變化
嚴平穩與弱平穩:
- 嚴平穩:嚴平穩表示的分佈不隨時間的改變而改變。 如:白噪聲(正態),無論怎麼取,都是期望爲0,方差爲1
- 弱平穩:期望與相關係數(依賴性)不變 未來某時刻的t的值Xt就要依賴於它的過去信息,所以需要依賴性
差分法:時間序列在t和t-1時刻的差值
自迴歸模型(AR)
- 描述當前值與歷史值之間的關係,用變量自身的歷史時間數據對自身進行預測
- 自迴歸模型必須滿足平穩性的要求
- p階自迴歸過程的公式定義:
- 是當前值 是常數項,是階數 是自相關函數是誤差
自迴歸模型的限制
- 自迴歸模型是用自身的數據來進行預測
- 必須具有平穩性
- 必須具有自相關性,如果自相關係數(φi)小於0.5,則不宜採用
- 自迴歸只適用於預測與自身前期相關的現象
移動平均模型(MA)
- 移動平均模型關注的是自迴歸模型中的誤差項的累加
- q階自迴歸過程的公式定義:
- 移動平均法能有效地消除預測中的隨機波動
自迴歸移動平均模型(ARMA)
- 自迴歸與移動平均的結合
- 公式定義:
ARIMA
- ARIMA(p,d,q)模型全稱爲差分自迴歸移動平均模型 (Autoregressive Integrated Moving Average Model,簡記ARIMA
- AR是自迴歸, p爲自迴歸項; MA爲移動平均 q爲移動平均項數,d爲時間序列成爲平穩時所做的差分次數
- 原理:將非平穩時間序列轉化爲平穩時間序列然後將因變量 僅對它的滯後值以及隨機誤差項的現值和滯後值進行迴歸所建立的模型
自相關函數ACF(autocorrelation function)
- 有序的隨機變量序列與其自身相比較 自相關函數反映了同一序列在不同時序的取值之間的相關
- 公式:
- 的取值範圍爲[-1,1]
偏自相關函數(PACF)(partial autocorrelation funtion)
- 對於一個平穩AR§模型,求出滯後k自相關係數p(k)時 實際上得到並不是x(t)與x(t-k)之間單純的相關關係
- x(t)同時還會受到中間k-1個隨機變量x(t-1)、x(t-2)、……、x(t-k+1)的影響 而這k-1個隨機變量又都和x(t-k)具有相關關係 所以自相關係數p(k)裏實際摻雜了其他變量對x(t)與x(t-k)的影響
- 剔除了中間k-1個隨機變量x(t-1)、x(t-2)、……、x(t-k+1)的干擾之後 x(t-k)對x(t)影響的相關程度。
- ACF還包含了其他變量的影響 而偏自相關係數PACF是嚴格這兩個變量之間的相關性
ARIMA(p,d,q)階數確定:
截尾:落在置信區間內(95%的點都符合該規則)
ARIMA建模流程:
- 將序列平穩(差分法確定d)
- p和q階數確定:ACF與PACF
- ARIMA(p,d,q)
ARIMA實例(基於python實現)
模型選擇AIC與BIC: 選擇更簡單的模型
- AIC:赤池信息準則(Akaike Information Criterion,AIC)
??? = 2? − 2ln(?) - BIC:貝葉斯信息準則(Bayesian Information Criterion,BIC)
??? = ??? ? − 2ln(?) - k爲模型參數個數,n爲樣本數量,L爲似然函數
模型殘差檢驗:
- ARIMA模型的殘差是否是平均值爲0且方差爲常數的正態分佈
- QQ圖:線性即正態分佈