Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks(LSNet)論文解讀

因爲自己是做時間序列預測這一塊,所以關於閱讀的論文也是這一塊,主要是深度學習在時間序列預測中的一個應用。其實撇開深度學習而言,時間序列預測本身就有自己的方法:ARIMA、VAR、三指數平滑法、SARIMA等等,還包括機器學習中的方法(迴歸分析,隨機森林,GBDT、Xgboost等等)。因爲深度學習被炒得很熱,吸引了很多研究人員的目光,所以深度學習在時間序列預測中的應用也越來越受關注,越來越多的論文是基於深度學習的時間序列預測方面的。

之前看了很多論文也沒有做一個統一一點的總結,現在藉着博客,詳細的返回看看之前看過的論文,無論是之後自己再寫論文或者做實驗,也希望能從這些閱讀過的論文中再次獲得靈感。今天總結的這篇論文是Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks(LSNet),這篇論文是發表在SIGIR 2018會議上,地址:https://arxiv.org/abs/1703.07015。

摘要

論文的開始是摘要,摘要部分是要詳細閱讀,在這篇論文的概要部分首先強調了多元時間序列預測在各個領域的重要性,突出論文中的研究意義,然後就闡述了在實際應用中收集到的時間序列數據通常涉及長期和短期模式的混合 (如下圖),而對付這樣的數據,傳統的方法比如自迴歸模型和高斯分佈可能會失敗,所以作者說到他們在論文中提出了一種新穎的深度學習框架,也就是LSTNet,接下來就是介紹了一下這個框架, LSTNet使用卷積神經網絡(CNN)和遞歸神經網絡(RNN)來提取變量之間的短期局部依賴模式,並發現時間序列趨勢的長期模式。此外,框架中還利用傳統的自迴歸模型來解決神經網絡模型的規模不敏感問題。所以整個摘要的部分清晰明瞭,告訴了我們做什麼、如何做、爲什麼這樣做。

模型 

在這個部分,論文詳細的闡述了LSTNet模型的各個組件以及其作用,LSTNet的整體框架如下:

就上圖所示,可以發現,作者並沒有用非常複雜的組件,都是深度學習中的基本模型:CNN和GRU,但是通過將它們有邏輯的組合在一起,達到了非常驚人的效果,接下來深入框架來看看每一個組件的作用。 

CNN組件

可以看到CNN的主要作用是捕捉多元變量之間的短期模式也就是時間維度的局部依賴。 

GRU組件

在模型的循環神經網絡中採用的GRU,主要是捕獲時間序列數據的時間依賴性以及長期模式。

循環-跳躍組件

 

 這個組件是LSTNet的最大亮點,之前我們說到時間序列數據往往會出現週期性規律,這樣一來,數據也就存在週期性,比如用電量,上週三的用電量與這週三的用電量會出現很強的關聯性,所以上面式子的下標p=7(如果以天爲單位來進行預測的話)。這樣一來也緩解了GRU或者LSTM在捕獲長期模式時可能出現的梯度消失問題。

時間注意力組件

這個組件主要是考慮到循環-跳躍組件中的p值一般是認爲預定義的,那麼這樣一來,對於那些週期性不明顯的數據顯然不適合,所以作者後來又提出了將這個部分換成時間注意力,這樣一來,只有對當前結果影響很大的時間值纔會獲得更大的關注,模型也會考慮這部分的時間值更多,也不需要自己定義p值。 

自迴歸組件

這一部分主要是考慮到深度學習模型中輸出數據的規模對輸入數據的規模不敏感,所以加入了自迴歸組件。整體來說LSTNet模型包含兩個部分,一個是非線性的神經網絡模型部分,一個線性的自迴歸部分,最後的結果也就是這兩個部分的輸出相加:

實驗

實驗的話,選用了四個數據集,以及9組對比方法,

其中加黑的表示結果最佳,很明顯可以看到LSTNet在四個數據集上整體是表現更好,但是也發現在Exchange-Rate上的表現其實是不行的,主要就是正如之前提到的,LSTNet模型的提出其實是更加擅長解決週期性數據,作者也對這部分做了說明,論文中可視化了了四個數據集:

很明顯可以看到,Exchange-Rate數據集的基本上沒什麼週期性,而其它三個數據集的週期性非常明顯,這也就是爲什麼LSTNet在其它三個數據集上表現良好而在Exchange-Rate數據集表現不好的主要原因。

論文中還做了消融實驗,以此來證明LSTNet中每個組件的性能以及LSTNet中的組件缺一不可,這部分貌似是很多審稿人喜歡看到的(主要是博主自己論文中的消融實驗也得到了審稿人的肯定)。消融實驗就是隨意去除LSTNet中的一個組件,然後再在所有數據集上跑一遍,對比完整LSTNet的結果,很明顯,最後的消融實驗結果肯定是顯示完整的LSTNet的效果更好,有興趣的可以去看看實驗結果,作者採用的是條形圖顯示,對比更加明顯。

結論

在論文中,作者提出了一種新穎的深度學習框架(LSTNet)用於多元時間序列預測的任務。 通過將卷積神經網絡和遞歸神經網絡的優勢以及自迴歸組件相結合,提出的方法顯着改善了在多個基準數據集上進行時間序列預測的最新結果。 藉助深入的分析和經驗證據,我們證明了LSTNet模型的體系結構的效率,它確實成功地捕獲了數據中的短期和長期重複模式,並結合了線性和非線性模型以進行穩健的預測。

LSTNet確實也在其他論文中充當着baseline,也是其他研究人員對LSTNet的肯定,但是個人認爲LSTNet確實是不怎麼擅長非週期性的數據,從實驗結果中我們也可以看出,這可能也是LSTNet的一個缺點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章