時間序列預測概述

時間序列是一種衡量事物隨時間變化的數據類型。在一個時間序列數據集中,時間列本身不代表一個變量:它實際上是一個基本結構,可以使用它對數據集排序。由於我們需要應用特定的數據預處理和特徵工程技術來處理時間序列數據,因此這種基本的時間結構使時間序列問題更具有挑戰性。

時間序列預測就是利用過去一段時間的數據來預測未來一段時間內的信息,包括連續型預測(數值預測,範圍估計)與離散型預測(事件預測)等。

時間序列分析

時間序列分析是要確定時間序列數據的內在結構並推斷其隱藏特徵,以便從中獲得有用的信息。

利用時序分析的原因:

  • 對歷史時間序列數據的基本結構有清晰的認識
  • 提高時間序列特徵解釋的質量,以更好地告知問題域。
  • 預處理並執行高質量的特徵工程,以獲得更豐富、更深入的歷史數據集。

它通常被認爲是爲時序預測分析和準備時序數據的第一步。

時序分析的四個重要組成部分:長期運動或趨勢、季節性短期運動、週期性短期運動、隨機或不規則波動

image-20220619165524120

  • 長期運動或趨勢:當一個時間序列數據長期增長或者長期下降時,表示該序列有趨勢。在某些場合,趨勢代表着“轉換方向”
  • 季節性短期運動:當時間序列中的數據受到季節性因素(例如一年的時間或者一週的時間)的影響時,表示該序列具有季節性。季節性總是一個已知並且固定的頻率。
  • 週期性短期運動:當時間序列數據存在不固定頻率的上升和下降時,表示該序列有周期性。
  • 隨機或不規則波動:是不可控的、不可預測的、不穩定的。如地震、戰爭、洪水和其他自然災害。

image-20220619170104965

通常將前三個組成的部分作爲時間序列數據的信號,因爲它們實際上是可以從數據本身派生出來的確定性指標。而隨機或不規則波動是數據不能真正預測的值的任意變化,因爲這些隨機波動的數據點都獨立於上面的其他信息,如長期和短期運動。因此,通常稱其爲噪聲,因爲它是由難以觀測的潛在變量觸發的。

image-20220619170818477

我們需要仔細確定時間序列數據中的每個組成部分,才能構建一個精確的機器學習預測解決方案。爲了識別和度量這四個組成部分,建議首先執行一個分解過程,從數據中去除組成部分的影響。在識別和度量了這些組成部分並用它們構建其他功能以提高預測準確率後,我們可以利用不同的方法在預測結果中重組和添加各組成部分。

理解這四個時間序列組成部分以及如何識別和刪除它們是構建任何時間序列預測解決方案的第一步,因爲它們可以幫助解決時間序列中的另一個重要概念——平穩性。

平穩性:時間序列的統計參數不會隨時間變化,也就是說,時間序列數據分佈的基本屬性(如均值和方差),不隨時間變化。這樣更容易建模,因爲其基本假設是,它們的屬性不依賴於時間,未來將與它們在歷史時期一樣的。許多時間序列的統計學模型都是依賴於時間序列是平穩的這一前提條件。對於非平穩的時間序列,可以通過差分、log 變換或平方根變換轉化爲平穩序列。

  • 強平穩性:時間序列的所有統計參數不隨時間變化。
  • 弱平穩性:時間序列的均值和自協方差不隨時間變化。

另外,顯示數據值變化(如趨勢或季節性)的事件序列顯然不是平穩的,因此更難以預測和建模。爲了得到準確一致的預測結果,需要將非平穩數據轉換爲平穩數據。試圖使時間序列平穩的另一個重要原因是能夠獲得有意義的樣本統計信息,例如均值、方差以及其他變量的相關性,這些統計信息可以用來獲得更多的見解其更好地瞭解數據,並作爲時間序列數據集中的附加特徵。

時間序列預測

時間序列預測涉及在觀測值之間存在有序關係的情況下針對數據開發和使用預測模型。在開始構建預測解決方案之前,強烈建議定義一下方面。

  1. 預測模型的輸入和輸出

  2. 預測模型的粒度級別:每個時間戳捕獲值的最低詳細級別,粒度與收集時間序列值的頻率有關。

  3. 預測模型的範圍:未來預測所需要的時間長度。

  4. 預測模型的內源性和外源性特徵:影響預測的內部和外部因素

    內源性特徵是輸入變量,其值由系統中的其他變量決定,而輸出變量取決於它們。

    外源性特徵作爲輸入變量不受系統中其他變量的影響,輸出變量依賴於輸入變量,具有一下一些共同的特徵。

    • 在進入模型時時固定的

    • 在模型中被認爲是給定的

    • 影響模型中的內源性變量

    • 不能由模型決定

    • 不能用模型來解釋。

  5. 預測模型的結構化或非結構化特徵

  6. 預測模型的單變量或多變量特徵

  7. 預測模型的單步或多步結構

  8. 預測模型的連續或非連續時間序列值

    ​ 連續:彼此之間呈現一致的時間間隔

    ​ 非連續:時間間隔不一致(原因通常是含有缺失值或損壞值)

缺失數據處理

數據缺失原因:
(1)隨機缺失:意味着數據點缺失的傾向與缺失數據無關,而與某些觀測到的數據有關。
(2)完全隨機確實:某個值缺失的事實與其假設值和其他變量的值沒有關係。
(3)非隨機缺失:兩個可能的原因,缺失值取決於假設值/缺失值取決於其他變量的值。

前兩種情況下,根據出現的情況刪除含有缺失值的數據是安全的,而在第三種情況下,刪除含有缺失值的觀測值可能會在模型中產生偏差,可以使用數據插補解決。不同的問題有着不同的數據插補解決方案。

image-20220619182806773

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章