時間序列問題與自然語言處理的區別

在技術上,經常會把時間序列問題和自然語言處理問題類比,因爲兩者都是時序數據,所以兩類問題的模型經常相互借用。

但兩者還是有一定區別的,自然語言本質上還是符號序列,而通常考慮的時間序列問題是數值序列。

RNN 原本是用於時間序列建模,用其函數逼近的功能來仿真一個非線性動態系統,多用於工程控制領域。早期的自然語言處理是不用 RNN 的,而是建立詞空間的隨機過程模型,如隱馬爾科夫模型,認爲語句的形成是源於詞空間的離散元素之間依概率的遊走。

隨着神經網絡技術的發展,RNN 的訓練變得更容易,大家開始考慮用 RNN 來做處理自然語言了。但要把離散的單詞序列和動態系統聯繫起來,就要用到一個假設:語言可以用隱變量(語義)空間的動態系統來描述。表面上是一個個獨立的詞語拼成的句子,實際上在語義空間是一條連續的路徑,這也是 word2vec 學習詞表示的核心思想。

到了現在嘛,大家發現 RNN 處理自然語言還是不太給力,原因就是上面的假設有點牽強。Attention 機制的興起實際上就是爲了打破傳統 RNN 的嚴格的時序結構,說到底還是因爲自然語言是符號序列,並不具有數值序列中元素與前後鄰居之間的連續性。

現在時間序列預測也開始借鑑自然語言處理中的注意力機制來處理非季節性的序列。非季節性數值序列從另一個角度也可以看成是符號序列,把時間分段後每一段抽象成一個元素即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章