GRAIL Efficient Time Series Representation Learning

有效的時間序列表示學習

作者

芝加哥大學的John Paparrizos和Michael J. Franklin

PVLDB Reference Format:John Paparrizos and Michael J. Franklin. GRAIL: Efficient TimeSeries Representation Learning. PVLDB, 12 (11): 1762-1777, 2019.

DOI: https://doi.org/10.14778/3342263.3342648

原文鏈接：https://pan.baidu.com/s/1Ma0SsR8_iO-GbqMZEwHNQg 提取碼：2der

摘要

時間序列的分析在科學學科和工業應用中變得越來越普遍。時間序列挖掘技術的有效性和可擴展性在很大程度上取決於三個組成部分的選擇：（i）表示；（ii）比較；（iii）索引時間序列。不幸的是，迄今爲止，這些組成部分已被獨立研究和開發，常常導致產生相互不兼容的方法。缺乏統一的方法阻礙了對大量時間序列集合進行快速準確分析的進展【缺點】。爲了解決這個主要缺點，我們提出了GRAIL框架，這是一個通用的框架，用於學習緊湊的時間序列表示形式（a genericframework to learn compact time-series representations），該形式的表示保留了用戶可指定比較函數的屬性。給定比較函數，GRAIL（i）使用聚類來提取界標時間序列【landmark time series】；（ii）優化必要的參數；（iii）通過將每個時間序列表示爲界標時間序列的組合，利用核方法的近似來構造線性時空中的表示形式。我們對GRAIL進行了廣泛的評估，進行了時間序列的查詢，分類，聚類，採樣和可視化。對於這些任務，利用GRAIL表示法與原始時間序列上運行的最新方法相比，速度顯着提高，並且一樣準確無誤。GRAIL將諾言作爲一種新的原始方法，用於高度準確但可擴展的時間序列分析。

1. 前言

時間序列[定義]通常是記錄的是自然進程（例如地震和天氣）或人造工件（例如，股票市場和語音信號）的隨時間變化的測量結果[51,38]。最近技術的進步允許在科學應用（例如，天文學[4]和神經科學[16]涉及數百萬個時間序列）和工業環境（例如，大型互聯網服務每天要處理數十億次帶時間戳的測量[74、94、6]）中收集巨大的時變測量[89,77] 。隨着物聯網（IoT）應用程序的爆炸式增長，時間序列的容量的快速增長有望繼續[77]。因此，時序分析算法將必須在越來越龐大的物聯網集合上運行【基本定義，及發展前景】。

【此段描述了時序挖掘方法的挑戰】但是，大多數最新的時間序列挖掘方法無法擴展到數百萬個時間序列[70、38、9]。觀測值的時序和高維性，再加上較大的時間序列量，帶來了其他數據類型的分析所沒有遇到的嚴峻挑戰[127，38]。具體而言，時序可能會引入失真（請參見第2.3節），這會使時間序列的比較變得複雜化，另外，高維數增加了直接在時間序列上運行方法的計算和存儲要求。最後，較大的時間序列量可能會使有效但不可擴展的方法在大規模設置中不切實際。爲了應對這些挑戰，有效的解決方案需要對三個核心組成部分做出決策[38]：（i）表示方法，以構建保留時序特徵的低維表示；（ii）比較方法，應使時間序列的失真保持不變（檢驗是否失真）；（iii）索引方法，該方法將組織時間序列以便於從大量集合中快速檢索。

【時間序列挖掘方法的缺點】不幸的是，迄今爲止，這些組件已被獨立研究和開發[38]，經常導致相互不兼容的方法。因此，現有的時間序列挖掘方法具有許多缺點：（i）這些方法變得過分昂貴得令人望而卻步，因爲直接在原始時間序列上操作來避免表示不兼容，（例如，大多數分類方法就是這種情況[9]）；（ii）由於這些方法直接利用表示法，因此犧牲了效率的準確性（例如，僅支持低效的p範數的在線聚類方法就是這種情況[36]）；或（iii）這些方法 遵循複雜的兩步方法 利用 表示法 來修剪 成對比較部分（例如，查詢方法就是這種情況，利用與相似性函數不兼容的表示的方法 [130、62、104、61，99]）GEMINI: 子序列相似搜索技術：快速時間序列檢索

【簡要介紹GEMINI框架原理及發展】兩步方法（The two-step approach）是加速時間序列挖掘方法的最突出範例。執行兩個步驟的原因是 對開創性GEMINI框架的依賴[2，39]【The requirement to perform two steps is due to the dependence on the seminal GEMINI framework】，這爲在歐幾里得距離（ED）下快速時間序列檢索奠定了基礎。具體來說，GEMINI（i）構造低維表示；（ii）定義針對此類表示的度量，以降低高維空間中ED比較下界（即，修剪的一部分）。對於不同的距離，兩步方法[130、62、104、61]還顯示了ED lower bounds the new distance。這是一項艱鉅的任務，針對特定比較方法的解決方案，實現了屢獲殊榮的研究[39、58、19、25、99]。但是，過多的表示和比較方法[38，119，9，24]，以及開發低下界測量（measure）的困難，影響了這種方法的可持續性。

【滿足基於GEMINI原理並擴展其原理的 原語要求】缺乏統一的方法阻礙了對時間序列進行快速準確的分析。因此，我們需要一個新的原語（a new primitive）來學習基於GEMINI原理並擴展其原理的時間序列表示。具體來說，給定一個比較函數，學習的表示應：（P1）保留成對相似性，並用作機器學習方法的特徵向量；（P2）降低比較函數的下限，以加快相似度搜索；（P3）允許在資源有限的情況下使用表示的前綴（通過按重要性的降序排列它們的座標）來縮放方法；（P4）支持對新數據進行有效且易於記憶的計算，以實現在 在線設置（online setting）中 的操作；（P5）支持有效且易於記憶的特徵分解，用於數據到數據相似性矩陣，以實現利用依賴於此類基本運算的高效方法。

圖1：使用時間序列的 原始表示形式 與 使用DFT和GRAIL計算的大小爲20的緊湊表示 比較128個數據集的分類精度。對角線上的圓圈表示原始表示優於低維表示的數據集。

【1-NN分類精度：該對象被分到離它最近的鄰居所在的類中。】

【GRAIL框架的實驗效果—對圖1 的解釋說明】在本文中，我們開發了一種滿足所有上述原理的原語。具體而言，我們提出了Generic Represent At Ion Learning（GRAIL）框架，以自動學習緊湊表示，這個表示保留了用戶指定相似性函數的屬性。從根本上來說，這與時間序列文獻有所不同，在這些文獻中，表示方法與後續步驟中使用的相似度函數無關[38]。爲了說明這一點的含義，在圖1中，我們比較了128個數據集的 最近近鄰的（1-NN）分類精度，分別使用了在原始時間序列上的基於形狀的距離（SBD）[91，92]，和通過（i）離散傅里葉變換（DFT）和（ii）GRAIL計算出的大小爲20的兩種表示形式上的歐幾里得距離ED，其中 DFT是一種最新的表示方法[119，105]；GRAIL表示形式保留的距離與我們稍後討論的SBD相似。原始時間序列上的SBD明顯優於DFT表示上的ED，相反，GRAIL表示上的ED至少和在原始時間序列上SBD一樣準確，並且速度明顯更快。（SBD over raw time series signiﬁcantly outperforms ED over DFT representations. In contrast, ED over GRAIL representations is at least as accurate as SBD over raw time series and signiﬁcantly faster.）

we compare the onenearest-neighbor (1-NN) classiﬁcation accuracies(n.) across 128 datasets [32] using the Shape-Based Distance (SBD) [91, 92] over raw time series against ED over two representations of size 20(修飾two representations) computed by (i) Discrete Fourier Transform (DFT), a state-of-the-art representation method [119, 105]（修飾DFT）; (ii) our GRAIL representations, which preserve a distance similar to SBD that we discuss later.（修飾GRAIL）

compare … against …兩者作比較、SBD和ED處於同等地位

爲了學習高度精確的表示，GRAIL利用內核方法來統一數據建模和算法設計[26、53、108、109、7]。GRAIL需要執行兩個步驟來學習線性時空中的表示形式：（i）近似（vt. approximate）序列到序列（SS）的相似矩陣；（ii）估計（vt. approximate）SS的特徵分解。爲了近似估計SS並促進內核函數的適應性（即相似性度量），GRAIL依賴於Nystrom方法[86，123]，該方法與內核函數的選擇無關。具體來說，GRAIL首先提取時序序列的字典，並構建序列字典（SD）和字典到字典（DD）的相似性矩陣。然後，Nystrom使用這些矩陣構造表示形式，通過將每個時間序列表示爲字典中的時間序列的線性組合。

Speciﬁcally, GRAIL ﬁrst extracts a dictionary of time-series sequences and constructs the sequenceto-dictionary (SD) and the dictionary-to-dictionary (DD) similarity matrices. Then, Nystrom uses these matrices to construct representations by expressing each time series as a linear combination of the time series in the dictionary.

【Nystrom表示方法的缺陷及改進方法】不幸的是，內斯特羅姆（Nystrom）表示的質量在很大程度上取決於對必要參數的準確估算。此外，尼斯特魯姆表示的維度可能會超過原始時間序列的維度，這是不希望的。爲了避免這些限制，我們提出了一種無監督參數估計的輕量級方法。此外，我們建議利用Nystrom表示對 SS的特徵分解進行額外的近似，以學習到降維的最終表示。考慮到使用位移不變比較方法 進行 時間序列分析 的重要性（請參見第2.3節），我們將通過展示GRAIL如何支持該屬性來描述GRAIL。爲了減輕計算大型相似矩陣（例如SD）的高內存和運行時的成本負擔，我們首先展示如何通過將原始時間序列分解爲其頻率分量 並通過在與原始時間序列非常近似的最初的前幾個頻率上進行操作（by decomposing the original time series into their frequency components and by operating over the first few frequencies that well approximate the original time series）來計算平移不變核（SINK）。爲了計算總結可用數據的地標時間序列（landmark time series），我們研究了使用時間序列聚類方法（例如k形[91]）進行詞典學習的有效性。（we study the effectiveness of using time-series clustering methods, such as k-Shape [91], for dictionary learning.）最後，我們在ApacheSpark[131]的基礎上構建了端到端的解決方案，以促進對大量集合的表示學習和時間序列分析。

爲了證明SINK和GRAIL的有效性，我們對128個數據集進行了廣泛的評估，並將它們的性能與用於五個任務的最新方法進行比較，即（i）查詢；（ii）分類；（iii）集羣；（iv）抽樣；（v）可視化。我們使用公共數據集並提供源代碼。總而言之，我們表明在準確性方面使用SINK的內核分類器 與 具有最新距離度量的11個1-NN分類器集合 一樣強大（we show that kernel classifiers using SINK are as powerful in terms of accuracy as an ensemble of eleven 1-NN classifiers with state-of-the-art distance measures.）。GRAIL表示比當前的表示更準確，並且比現有的較低邊界度量具有更好的修剪能力。重要的是，對於所有五個任務，在高維時間序列上進行操作時，GRAIL表示法與最新方法相比，顯着更快，更準確。最後，我們對數百萬個代表能源使用方式的時間序列進行了案例研究，以強調我們思想的可擴展性。

我們首先回顧相關背景（請參閱第2節）。我們提供了我們方法的概述overview（本節3.1），然後介紹我們的貢獻如下：

•我們展示了位移不變核函數SINK在時間序列的最初幾個低頻中的原理性操作（第3.2節）【We show how SINK, a shift-invariant kernel function, can operate in a principled manner over the first few low frequencies of time series (Section 3.2).】

•我們研究了時間序列聚類對於採用Nystrom法學習字典的有效性（第3.3節）。

We study the effectiviness of time-series clustering for learning dictionaries for Nystr¨om

•我們開發了一種解決方案，用來估計 必要的參數 和 表示的緊湊性（第3.4節）。

•我們介紹了GRAIL，這是我們用於學習緊湊時間序列表示的端到端解決方案（第3.5節）。

•我們在Apache Spark的基礎上構建GRAIL，以促進大規模的時間序列分析（第4節）。

•我們通過對五個任務進行廣泛的實驗評估來評估我們的想法（第5和第6節）。最後，我們以相關工作（第7節）和我們工作的含義（第8節）爲結尾進行討論。

2.背景和前提

在本節中，我們回顧了線性和非線性的降維方法（第2.1節）。然後，我們總結了時間序列表示方法（第2.2節）以及常見的時間序列失真和距離度量（第2.3節）。最後，我們提出了關注的問題（第2.4節）。

2.1降維方法

降維是將高維向量映射到低維空間的過程，同時保留了一些令人關注的屬性[29，49]。根據映射，我們將降維方法分爲線性方法和非線性方法[67]。爲了涵蓋必要的概念以理解所提出的思想，我們首先回顧一下線性方法，然後是非線性方法。

線性降維：考慮n個m維實值向量，目標尺寸k<m。目標是產生低維向量，這樣，使得在低維空間中成對相似性非常接近在高維空間中的成對相似性,其中成對相似性由內積表示的。（such that pairwise similarities, expressed as inner products, in the low dimensional space closely approximate pairwise similarities in the high-dimensional space.）這是奇異值分解SVD[93、54、116、27]方法最佳解決的問題[49、29]。爲了查看SVD如何產生Zk，我們首先表示X的SVD如下：

其中矩陣包含左奇異向量，矩陣包含右邊的奇異矢量，矩陣Σ=包含沿着對角線降序排列的奇異值其他所有位置都爲零。通過保留第一個k <m個奇異值和向量，我們得到Z k，如下所示：

SVD需要時間，但是不幸的是，SVD無法有效地對具有非線性結構的數據進行建模。相反，內核方法[26、53、107、108、109]通過啓用高維特徵空間中的操作，在現實世界數據分析中發揮了核心作用。

對於奇異值,它跟我們特徵分解中的特徵值類似，在奇異值矩陣中也是按照從大到小排列，而且奇異值的減少特別的快，在很多情況下，前10%甚至1%的奇異值的和就佔了全部的奇異值之和的99%以上的比例。也就是說，我們也可以用最大的k個的奇異值和對應的左右奇異向量來近似描述矩陣。

非線性降維：具體地說，內核法使用函數隱式地將數據映射到高維（通常是無限長）的再生內核希爾伯特空間（RKHS）中。由於無法顯式計算H中的座標，因此內核方法調用“內核技巧” [3]，該內核技巧可使用內核函數與數據進行交互。 H或其對應的距離度量 [106]。爲了在H中執行降維，核主成分分析（KPCA）[107，108]對 Gram矩陣K 進行特徵分解，其中。KPCA需要O（n2）空間來存儲K，需要O（n2）時間來構造K，並且需要O（n3）時間來對K進行本徵分解。

Gram矩陣：每個Gram矩陣背後都有一組向量，Gram矩陣就是由這一組向量兩兩內積得到的，a·b>0    方向基本相同，夾角在0°到90°之間
a·b=0    正交，相互垂直
a·b<0    方向基本相反，夾角在90°到180°之間
簡單來說就是內積可以反映出兩個向量之間的某種關係或聯繫。

核矩陣近似算法的核必思想是用部分採樣取代所有的數據計算核矩陣

【內核方法的近似】：爲減輕與內核方法的高內存和運行時的成本負擔，已提出了兩種精簡的方法來近似K：Nystrom方法[86，123，37]和隨機傅里葉特徵（RFF）方法[98]。具體地說，Nystrom是一種數據感知方法，可以從可用數據中計算界標向量，並且需要時間來構造Zd，其中d是界標向量的數量。相反，RFF是一種數據不可知的方法，它從獨立的分佈中採樣特徵圖，並需要時間來構造Zd，其中d是特徵圖的數量。

Nystrom近似爲d個向量的線性組合

arg min 就是使後面這個式子達到最小值時的x的取值

對於每一個Xi，這是一個關於a的單列的凸問題，最優解是當

對於這兩種方法，近似值的好處是雙重的：（i）具有重要意義的 節省內存（significant memory savings），因爲Zd僅需要O（nd）空間；（ii）節省大量的運行時間。但是，考慮到難以在任意核函數上推廣RFF的困難以及與RFF相比Nystrom令人印象深刻的理論和經驗優勢 [128]，在我們的方法中，我們依靠Nystrom有效地學習時間序列的表示形式。

2.2時間序列表示方法

儘管它們具有最優性[49，29]，但精確的線性和非線性降維方法在實踐中卻過於昂貴。因此，表示方法依靠頻譜分解[49、29、95、56、88]來減少時間序列的高維數並降低時間序列分析方法的存儲和計算成本。自從GEMINI框架[2，39]首次出現以來，關於表示方法的研究一直集中在探索低維表示之間的權衡，例如重構質量，對噪聲的敏感性，緊湊性和計算成本。根據時間序列的轉換和輸出格式，我們將表示方法分爲 數據不可知的方法 和 數據感知方法，以及數字和符號方法[38]。

數據不可知的方法：GEMINI框架使用(傅里葉變換)DFT將時間序列表示爲一組正弦係數[2，39]。隨後，提出了許多替代DFT的方法，包括離散餘弦變換（DCT）[63]，離散小波變換（DWT）[22]，Daubechies和Haar小波[96、21]，Coiﬂets[111]和Chebychev多項式[19]。對於時間序列更特殊，分段總逼近法（PAA）[129，57]將時間序列表示爲分段的平均值。

數據感知方法：與數據不可知方法相反，數據感知方法可調整可用數據的轉換參數以提高其有效性。例如，依靠頻譜分解的數據感知方法選擇DFT[117]或DWT[115]係數的子集。PAA的一種數據感知版本使用矢量量化來構建段碼本[78，79]，而其他方法（即分段線性逼近（PLA）[112]和自適應分段常數逼近（APCA）[58]）則適合多項式模型。或分別對每個線段使用恆定近似值。SVD本質上也是一種建議用於表示時間序列的數據感知方法[63，101]。

符號方法：所有先前方法的輸出都是數字。符號方法還對數字輸出進行量化。例如，符號聚合近似（SAX）[72]和符號傅立葉近似（SFA）[105]依靠字母分別將PAA和DFT表示轉換爲短詞。

先前描述的方法構建了下限或近似ED的表示[135，20]。不幸的是，最近的距離測量實驗評估[91，92，35，119，9]表明ED在大多數應用中效果較差。接下來，我們回顧替代性的距離度量。

2.3不變性和距離測度

通過比預處理前的時間序列，距離測量可處理大多數失真（信號在傳輸過程中與原有信號或標準相比所發生的偏差）（例如，噪聲和離羣值）[59、60、5、88、48]。但是，對於許多重要的失真而言，預處理是無效的，因此，複雜的距離測量在比較中提供了不變性。（sophisticated distance measures offer invariances during comparison. ）。例如，爲了滿足移位不變性，SBD[91，92]比較異相位的（out-of-phase）時間序列，而DTW[103] 將時間序列與未對齊的（misaligned）區域進行比較。

【 k-shape的一部分】

基於形狀的距離SBD，一種無參數的距離度量，以O（mlogm）的運行時間成本比較時間序列。令分別表示x的DFT和逆DFT[56，88]，我們計算SBD如下：

通過距離測量來判斷兩個序列是否接近，SBD取0到2之間的值，兩個時間序列越接近0就越相似

其中*是頻域中的複共軛。DTW【求解兩時序匹配時累計距離最小所對應的規整函數】動態時間規整DTW，首先構造一個矩陣，每個矩陣中都包含任意兩個座標的ED。【序列x的每一個點和y的每一個點之間的相似度，距離越小則相似度越高】然後，DTW在O（m2）時間中計算M中的翹曲路徑，即矩陣元素，並且在可能路徑的指數數量中具有最小的翹曲成本：