我們可以用時間序列分析解決一些預測模型,這種方法可以預測數據在未來的發展趨勢。下面將會介紹時間序列分析的基礎理論。
基礎介紹
1.時間序列
- 時間戳(timestamp)
- 固定週期(period)
- 時間間隔(interval)
2.數據重採樣:將數據的分佈頻率從一個頻率轉換爲另一個頻率。
- 降採樣:將數據的分佈頻率減小,即數據的個數由多到少,如將日變成月。
- 升採樣:將數據的分佈頻率增加,即數據的個數由少到多,如將月變成日。
- 由於在升採樣時,數據中可能會出現空值,這是由於從少量數據到大量數據會造成部分數據未知。這時我們需要採用插值方法。
3.滑動窗口:將待預測數據所在數據區間縮小以獲得更加精確的結果。
ARIMA模型
1.平穩性:平穩性就是要求經由樣本時間序列所得到的擬合曲線在未來的一段時間內仍能順着現有的形態“慣性”地延續下去。平穩性要求序列的均值和方差不發生明顯變化。
- 嚴平穩:嚴平穩表示的分佈不隨時間的改變而改變,如:正態分佈,無論如何取值,期望都是0,方差都是1。
- 弱平穩:期望與相關係數(依賴性)不變,未來某時刻的t的值就要依賴於它的過去信息,所以需要依賴性。
2.原理:將非平穩時間序列轉化爲平穩時間序列,然後將因變量僅對它的滯後值以及隨機誤差項的現值和滯後值進行迴歸所建立的模型
3.各物理量含義:
- AR:自迴歸
- p:自迴歸項
- MA:移動平均
- q:移動平均項數
- d:時間序列平穩時的差分次數
差分法(I)
- 計算時間序列在t與t-1時刻的插值,以將非平穩時間序列轉化爲平穩時間序列,可以進行多階差分。
自迴歸模型(AR)
- 描述當前值與歷史值之間的關係,用變量自身的歷史時間數據對自身進行預測。
- 自迴歸模型必須滿足平穩性的要求。
- p階自迴歸過程的公式定義爲:
- 是當前值,是常數項,p是階數,是自相關係數,是誤差。
自迴歸模型的限制:
- 自迴歸模型是用自身的數據來進行預測。
- 必須具有平穩性。
- 必須具有自相關性,如果自相關係數小於0.5,則不宜採用。
- 自迴歸只適用於預測與自身前期相關的現象。
移動平均模型(MA)
- 移動平均模型關注的是自迴歸模型中的誤差項的累加。
- q階自迴歸過程的公式定義:
- 移動平均法能有效地消除預測中的隨機波動。
自迴歸移動平均模型(ARMA)
- 自迴歸與移動平均的結合。
- 公式定義:
自相關函數(ACF)
- 有序的隨機變量序列與其自身比較,自相關函數反映了同一序列在不同時序的取值之間的相關性。
- 公式:
- 的取值範圍是[-1,1]。
偏自相關函數(PACF)
- 經過自相關可以得出和的關係,但是和均受中間的k-1個變量影響,所以需要用偏自相關函數獲得更準確的預測。
- ACF包含其他變量影響。
- PACF是嚴格的兩個變量間的相關性。
- ACF決定MA的q,PACF決定AR的p。
ARIMA建模流程
1.得到平穩的時間序列(用差分法求出d)。
2.根據ACF和PACF的圖像求出p和q,ACF決定q,PACF決定p。
3.ARIMA(p,d,q)
模型選擇
由於根據圖像求出來的p和q可能不止一組,這時候我們就要從中選擇出一組最適合的p和q,模型越簡單越好,這部分可以繪製熱度圖來觀察AIC和BIC的值從而選擇p和q。
- AIC:赤池信息準則
- BIC:貝葉斯信息準則
- k爲模型參數個數,n爲樣本數量,L爲似然函數,AIC和BIC均越低越好,也就是k,越小,L越大越好。
模型殘差檢驗
- ARIMA模型的殘差是否是平均值爲0且方差爲常數的正態分佈。
- QQ圖:呈線性則殘差正態分佈。