參考:《時間序列分析—基於R王燕 編著》
一、時間序列分析
時間序列分法主要針對動態數據進行處理。該方法是以數理統計學方法和隨機過程理論爲基礎,並對一序列隨機數據所遵從的統計規律進行研究,以方便解決實際工作中存在的問題。
實質:時間序列分析就是對時間序列進行觀察、研究,尋找它變化發展的規律,預測它將來的走勢。
時間序列分析法的基本過程主要有:時間序列分析預處理、時間序列基本模型、ARIMA模型建模。
1.1 數據預處理
對於一組觀察值序列,首先要對它的平穩性和純隨機性進行檢驗,根據檢驗的結果可以將序列分爲不同的類型,對不同類型的序列採用不同的分析方法。
-
自協方差函數
γ(t,s)=E[(Xt−μt)(Xs−μs)]
-
自相關係數(ACF)
p(t,s)=DXt⋅DXsγ(t,s)
自協方差函數和自相關係數度量的是同一事件在兩個不同時期之間的相關程度
(1)平穩性檢驗
時間序列的分析方法的關鍵步驟就是對數據預先進行平穩性檢驗。通常我們首先使用時間序列圖和自相關圖粗略的觀察數據是否平穩,對於不確定的序列再進一步構造檢驗統計量進行假設檢驗。
一個時間序列,如果均值沒有系統的變化(無趨勢)、方差沒有系統變化,且嚴格消除了週期性變化,就稱之是平穩的
-
嚴平穩:當序列所有的統計性質都不會隨着時間的推移而發生變化時,該序列被認爲平穩。
Ft1,t2,⋯,tm(x1,x2,⋯,xm)=Ft1+k,t2+k,⋯,tm+k(x1,x2,⋯,xm)
-
寬平穩:只要求序列二階平穩,對於高於二階的矩沒有任何要求
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧(1)EXt2<∞,∀t∈T(2)EX=μ,μ爲常數,∀t∈T(3)γ(t,s)=γ(k,k+s−t),∀t,s,k 且 k+s−k∈T
通常情況下,嚴平穩序列也滿足寬平穩條件,而寬平穩序列不能反推嚴平穩成立。寬平穩一般推不出嚴平穩,但當序列服從多元正態分佈時,二階平穩可以推出嚴平穩。
平穩時間序列的統計性質
- 常數均值 EXt=μ,∀t∈T
- 自協方差函數和自相關函數只依賴於時間的平移長度而與時間的起止點無關
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧γ(t,s)=γ(k,k+s−t),∀t,s,k∈Tγ(k)=γ(t,t+k)DXt=γ(t,t)=γ(0)pk=DXt⋅DXt+kγ(t,t+k)=γ(0)γ(k)
自相關係數的性質
(1) 規範性 p0=1 且 ∣pk∣≤1,∀k
(2)對稱性 pk=p−k
(3)非負定性
平穩性的檢驗(圖檢驗方法)
- 時序圖檢驗
根據平穩時間序列均值、方差爲常數的性質,平穩序列的時序圖應該顯示出該序列始終在一個常數值附近隨機波動,而且波動的範圍有界、無明顯趨勢及週期特徵
- 自相關圖檢驗(ACF)
平穩序列通常具有短期相關性。該性質用自相關係數來描述就是隨着延遲期數的增加,平穩序列的自相關係數會很快地衰減向零
該序列的自相關係數一直都比較小,始終控制在2倍的標準差範圍以內,可以認爲該序列自始至終都在零軸附近波動,這是隨機性非常強的平穩時間序列通常具有的自相關圖特徵。
(2)純隨機性檢驗
拿到一個觀察值序列之後,首先是判斷它的平穩性,通過平穩性檢驗,序列可以分爲平穩序列和非平穩序列兩大類
對於非平穩序列,由於它不具有二階矩平穩的性質,所以對它的統計分析要費一些周折,通常要通過進一步的檢驗、變換或處理,才能確定適當的擬合模型
對於平穩序列,則繼續進行純隨機性檢驗
如果時間序列 {Xt} 滿足如下性質:
- 任取 t∈T ,有 EXt=μ ;
- 任取 t,s∈T , 有
γ(t,s)=⎩⎨⎧σ2 ,t=s0 ,t=s
則稱序列 {Xt} 爲純隨機序列,也稱爲白噪聲序列。即如果一個純隨機過程的期望和方差爲常數,則稱爲白噪聲過程,白噪聲過程是平穩的隨機過程。
白噪聲序列的性質
- 純隨機性 γ(k)=0 , ∀k=0,各序列值之間沒有任何相關關係,即爲“沒有記憶”的序列
- 方差齊性 ,即序列中每個變量的方差相等,DXt=γ(0)=σ2,如果不滿足方差齊性,則該序列具有異方差性質。
純隨機性檢驗也稱爲白噪聲檢驗,是專門用來檢驗序列是否爲純隨機序列的一種方法,如果一個序列是純隨機序列,那麼它的序列值之間應該沒有任何相關關係,即滿足γ(k)=0 , ∀k=0,這是一種理論上纔會出現的理想狀況.實際上,由於觀察值序列的有限性,導致純隨機序列的樣本自相關係數不會絕對爲零。
樣本自相關圖顯示這個純隨機序列沒有一個樣本自相關係數嚴格等於零。但這些自相關係數確實都非常小,都在零值附近以一個很小的幅度隨機波動,從統計意義上來判斷序列的純隨機性質
如果一個時間序列是純隨機的,得到一個觀察期數爲n的觀察序列,那麼該序列的延遲非零期的樣本自相關係數將近似服從均值爲零、方差爲序列觀察期數倒數的正態分佈。
(3)單位根檢驗
在實際生活中,當我們直接拿出一組時間序列數據時,常常是不清楚時間序列的產生過程的,如果我們需要建立相對準確的模型,第一要解決的就是序列是否平穩的問題,其後才能繼續往下建模。
所謂單位根檢驗就是判斷序列中是否存在單位根,稱之爲DF檢驗方法。DF檢驗常用於檢驗 AR(1) 過程的平穩性。隨着研究的進一步推進,爲了更好的得到檢驗效果,學者們進一步改進修正了DF檢驗,得到ADF檢驗。
這裏主要介紹DF和ADF檢驗單位根檢驗的方法原理。
1) DF檢驗
以一階自迴歸序列爲例:
一個序列經過預處理被識別爲平穩非白噪聲序列,那就說明該序列是一個蘊涵着相關信息的平穩序列。
二、適用於平穩序列的三種基本模型
平穩時間序列模型主要包含三種類型:AR、MA和ARMA,它們有各自的適用範圍和條件。
2.1 自迴歸模型—AR模型
p階自迴歸模型(AR(p))結構如下:
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧xt=ϕ0+ϕ1xt−1+ϕ2xt−2+⋯+ϕpxt−p+εtϕp=0E(εt)=0,Var(εt)=σε2,E(εtεs)=0,s=tE(xsεt)=0,∀s<t
ϕ1,ϕ2,⋯,ϕp爲自迴歸係數,當 ϕ0=0 時,自迴歸模型爲中心化模型,中心化模型是最常見的。
xt 的變化主要與時間序列的歷史數據有關,與其它因素無關。因此模型含義爲:用時間序列的歷史數據的線性組合來表達當前預測值。
AR模型平穩性判別
判別原因
- AR模型是常用的平穩序列的擬合模型之一,但並非所有的AR模型都是平穩的
判別方法
記 Bk 爲 k 步滯後算子,即 Bkxt=xt−k ,則AR模型可以表示爲
xt=(ϕ1B+ϕ2B2+⋯+ϕpBp)xt+εt
令 ϕ(B)=1−ϕ1B−⋯−ϕpBp ,則模型可以表示爲:
ϕ(B)xt=εt
因此,AR模型的自迴歸係數多項式ϕ(B)=1−ϕ1B−⋯−ϕpBp 的根,即 ϕ(B)=0的根,都在單位圓外。
2.2 移動平均模型—MA(q)模型
q 階自迴歸模型(MA(q))結構如下:
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧xt=μ+εt−θ1εt−1−θ2εt−2−⋯−θqεt−qθq=0E(εt)=0,Var(εt)=σε2,E(εtεs)=0,s=t
其中,θ1,θ2,⋯,θq 爲移動平均係數
模型含義:
用過去各個時期的隨機干擾或預測誤差的線性組合來表達當前預測值。
若用滯後算子 Bk 表示,令 θ(B)=1−θ1B−θ2B2−⋯−θqBp 爲 q 階移動平均係數多項式。則模型可以寫爲
xt=θ(B)εt任何條件下,MA(q)模型都是平穩的。MA(q)模型的可逆條件是模型的係數多項式的根都在單位圓外。
2.3 自迴歸移動平均模型 —ARMA(p,q) 模型
模型結構如下:
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧xt=ϕ0+ϕ1xt−1+⋯+ϕpxt−p+εt−θ1εt−1−⋯−θqεt−qϕp=0,θq=0E(εt)=0,Var(εt)=σε2,E(εtεs)=0,s=tE(xsεt)=0,∀s<t
ϕ1,ϕ2,⋯,ϕp爲自迴歸係數,θ1,θ2,⋯,θq 爲移動平均係數
對於ARMA(p,q) 模型,當 q=0 時,模型即爲 AR(p)模型;當 p=0 時,模型即爲 MA(q)模型
如果用滯後算子 Bk 表示,則 ARMA(p,q) 模型可以寫爲:
ϕ(B)=θ(B)εt
ARMA(p,q) 模型的平穩條件是: ϕ(B)=0的根,都在單位圓外。
實際問題中,多數要用此模型。因此建模解模的主要工作是求解 p、q 和 ϕ,θ 的值,檢驗 εt 和 xt 的值。
實際應用中p、q一般不超過2。
2.4 平穩序列建模
平穩序列模型就包括上述的 AR、MA、ARMA模型
2.4.1 建模步驟
假如某個觀察值序列通過序列預處理可以判定爲平穩非白噪聲序列,就可以利用ARMA模型對該序列建模.建模的基本步驟如下:
(1)求出該觀察值序列的樣本自相關係數(ACF)和樣本偏自相關係數(PACF)的值
(2)根據樣本自相關係數和偏自相關係數的性質,選擇階數適當的 ARMA(p,q) 模型進行擬合
(3)估計模型中未知參數的值
(4)檢驗模型的有效性.如果擬合模型未通過檢驗,回到步驟(2),重新選擇模型擬合
(5)模型優化。如果擬合模型通過檢驗,仍然回到步驟(2),充分考慮各種可能,建立多個擬合模型,從所有通過檢驗的擬合模型中選擇最優模型
(6)利用擬合模型,預測序列將來的走勢
事實上,可以總結爲四步:
- 步驟1:模型識別
- 步驟2:模型估計
- 步驟3:模型的診斷檢驗
- 步驟4:模型預測
(1)模型識別
- 自相關函數ACF
- 偏自相關函數PACF ——度量了消除中間滯後項影響後兩滯後變量之間的相關關係
- 以及各自的相關圖(即ACF、PACF相對於滯後長度描圖)
求出該觀察值序列的樣本自相關係數(ACF)和樣本偏自相關係數(PACF)的值,用統計軟件繪製出 ACF 與 PACF 的圖形,根據取值以及圖形,結合下表初步得出模型形式。
通過圖形判別方式:
書中例子
例1——AR
序列沒有顯著非平穩特徵
上圖,除了延遲1~3階的自相關係數在2倍標準差範圍之外,其他階數的自相關係數都在2倍標準差範圍內波動,根據自相關係數的這個特點可以判斷該序列具有短期相關性,進一步確定序列平穩。
考察自相關係數衰減到零的過程,可以看到有明顯的正弦波動軌跡,這說明自相關係數衰減到零不是一個突然的過程,而是一個連續漸變的過程,這是自相關係數拖尾的典型特徵,我們可以把拖尾特徵形象地描述爲“坐着滑梯落水”。
考察偏自相關係數衰減到零的過程,除了1~2階偏自相關係數在2倍標準差範圍之外,其他階數的偏自相關係數都在2倍標準差範圍內,這是一個偏自相關係數2階截尾的典型特徵,可以把這種截尾特徵形象地描述爲“2階之後高臺跳水,濺起水花點點”.
綜上,根據自相關係數拖尾,偏自相關係數2階截尾屬性
可以初步確定擬合模型爲AR(2) 模型
實際中,一般AR過程的ACF函數呈單邊遞減或阻尼振盪,一般用 PACF 函數判別(從p階開始的所有偏自相關係數近似爲0)。
例2——MA
自相關圖顯示除了延遲1階的自相關係數在2倍標準差範圍之外,其他階數的自相關係數都在2倍標準差範圍內波動,根據自相關係數的這個特點可以判斷該序列具有短期相關性,進一步確定序列平穩,同時,可以認爲該序列自相關係數1階截尾。
偏自相關係數顯示出非截尾的性質。
綜合該序列自相關係數和偏自相關係數的性質,爲擬合模型定階爲MA(1)
實際中,一般MA過程的PACF函數呈單邊遞減或阻尼振盪,一般用ACF函數判別(從q 階開始的所有自相關係數近似爲0)。
例3——ARMA
自相關係數顯示出不截尾的性質
偏自相關係數顯示出不截尾的性質
嘗試使用ARMA(1,1) 模型 擬合該序列
(2)模型估計
估計模型中未知參數的值,估計方法有:
(3)模型的診斷檢驗
檢驗:
優化:
(4)模型預測
三、非平穩序列
ARIMA(p,d,q) 模型
這裏的d是對原時序進行逐期差分的階數,差分的目的是爲了讓某些非平穩(具有一定趨勢的)序列變換爲平穩的,通常來說d的取值一般爲0,1,2。
ARIMA建模流程圖
數據平穩化處理
模型識別
參數估計
模型檢驗