GRAIL Efficient Time Series Representation Learning論文閱讀筆記(三)

GRAIL Efficient Time Series Representation Learning

有效的時間序列表示學習

作者

芝加哥大學的John Paparrizos和Michael J. Franklin

PVLDB Reference Format:John Paparrizos and Michael J. Franklin. GRAIL: Efficient TimeSeries Representation Learning. PVLDB, 12 (11): 1762-1777, 2019.

DOI: https://doi.org/10.14778/3342263.3342648

原文鏈接:https://pan.baidu.com/s/1DZbKFWrfEAWTG6NBfi5IWw  提取碼:36qd

5. 實驗設置

       在本節中,我們將回顧(i)內核函數SINK的求值設置;k-Shape作爲字典學習算法;(i)我們的參數選擇方法;(五)利用GRAIL表象的五種時間序列挖掘方法。數據集:我們使用來自UCR archive32的128個數據集,這是最大的類標記時間序列數據集的集合。數據集跨越不同的領域,被歸一化,並分成訓練集和測試集。每個數據集包含40到24000個序列。我們使用標準化的重採樣和插值方法來修復不同長度和缺失值的問題[90],故意留下這些值來反映真實世界。最大序列長度爲2,844。每個數據集中的每個序列只屬於一個類。

       平臺:我們在300臺服務器的集羣上運行實驗,配置相同:雙Intel XeonE5-2650v4(12核,雙向SMT)處理器,時鐘速度爲2.2 GHz,最高128 GB RAM。每個服務器運行Red Hat Linux 6.6(64位)和Matlab R201 8a(64位)。

       實現:我們在Matlab中實現了所有方法,以實現一致的評估。我們還在Apache Spark(使用PySpark)之上構建了GRAIL,用於大規模分析。出於可重複性的目的,我們使源代碼可用。

       基線: 【評估SINK我們將SINK與以下時間序列的最先進的距離測量和核函數進行比較:(i) SBD,一種高效、準確、無參數的距離測量方法[91];(ii) cDTW,約束版本)of  DTW,提高了精度和效率[103];和(ii) GA,一個最先進的全球對齊內核[30]。在[35,119]之後,我們使用1-NN分類器,這是一個簡單的、無參數的分類器,來評估距離度量。重要的是,將1-NN分類器與彈性距離度量(如cDTW)相結合,可以實現最先進的時間序列分類性能[126,119,9]。對於核函數,我們使用[23]實現的支持向量機(SVM)分類器26[來評估SINK (SVM+SINK)和GA (SVM+GA)核。此外,我們還將這些方法與最近提出的彈性集成分類器(Elastic Ensemble, EE)和COTE分類器進行了比較。

分類精度                                              運行時間

       【SVM+SINK的分類器在絕大多數數據集上都優於SVM+GA分類器、SVM+SINK比SVM+GA2的速度快得多】

              圖7:基於各個數據集的平均等級的分類器的等級。wiggly連接的方法在統計上並沒有什麼不同。

【圖7顯示了128個數據集中85個數據的平均等級,波浪線:沒有統計學上顯著的差異,Cote的那個中心,優於第二個聚類,更優於第三個聚類,SVM+SINK99是保存99%的能量】

       【評估K-shape我們將k-shape與最先進的採樣和投影方法相比較,後者用於計算Nystrom的地標向量。具體而言,我們考慮以下抽樣方法:(i) Random隨機,一種簡單高效的均勻抽樣方法[123];(ii) AFK MC2, k-means++抽樣方法[8]的近似版本;(iii) GibbsDPP,基於Gibbs採樣的確定性點過程(DPP)抽樣方法的近似版本[64,1];(iv)LevScore,一種基於槓桿評分[47]的非均勻抽樣方法。此外,我們考慮了兩種投影方法:(i) SRFT基於傅立葉變換[47]的投影方法;(二)基於高斯過程(GP)[47]的投影方法。

       【a: 在大多數數據集中,k-Shape優於Random, b: k形在所有不同的k值上都優於所有方法,】

       【圖9顯示了每個方法在數據集上的平均排名,K-shape領先,排第一,唯一顯著優於所有方法的方法.】

       【評估參數調整方法函數我們評估GRAIL-PT,我們的參數調整方法,針對三種方法的核函數參數估計:(i) MinVariance最小方差法,這是一種選擇核函數參數以使數據方差最小的簡單方法;(ii) MaxVariance最大方差,一種選擇核函數參數使數據方差最大化的簡單方法;(iii) LOOCAcc,一種始終選擇核函數參數以使遺漏分類精度最大化的監督方法。

       【圖10顯示了每個方法的在各個數據集的平均排名,使用它們的分類精度作爲度量。GRAIL-PT、LOOCAcc、MaxVariance排名靠前,MinVariance計算能力較差】

       【圖11顯示了每個方法在數據集上的平均等級(長度),這些方法用於測量學習表示的維數。最小方差排在第一位,最小方差產生了最緊湊的表示,最小的差異也會導致在分類上的重大損失,儘管GRAIL-PT和MaxVariance在分類精度方面的表現相似,但是GRAIL-PT平均產生的維數地域GRAIL,總體來說GRAIL是很優秀的】

       在五個主要的時間序列挖掘任務中,結合合適的內核方法評估學習表示。【評估GRAIL表示性能】爲了在實踐中瞭解GRAIL表示的性能,我們在5個主要的時間序列挖掘任務中將學習表示與合適的內核方法 結合 起來進行評估。此外,我們對文獻中提出的不同方法進行了廣泛的實驗,以學習時間序列的表示。具體來說,我們使用平移不變的字典學習(SIDL)方法[134],相似性保持表示學習方法(SPIRAL)[68], the Random Warping Series (RWS)[125],和Encoder ADAPT深學習方法(EncoderA)[110],股票一個非常類似的架構完全卷積神經網絡(FCN) [121],這五種方法進行評估

       計算表示

       爲了查詢,我們將GRAIL-LB,即SINK的下界,與ED和cDTW距離度量的兩個最新的下界進行比較:(i) DFT-LB:一種使用傅里葉變換來表示時間序列並使用第k個傅里葉係數來表示下界ED[39]的方法;(ii) Keogh-LB, cDTW的最新下界[61]

       對於分類,我們評估GRAIL-SVM,我們的分類器利用線性支持向量機的[40]對相同的分類器,我們認爲上述評估匯。此外,我們還將GRAIL-SVM與經過SIDL (SIDL-SVM)、SPIRAL-SVM (SPIRAL-SVM)和RWS表示(RWS-SVM)訓練的線性SVM分類器進行了比較。對於EncoderA,我們使用的是原文中建議的培訓和測試程序[110]。

       對於聚類,我們將GRAIL-SC,一種運行於GRAIL表示上的光譜聚類方法[85]與兩種最先進的聚類方法[91,92]進行比較: (i) k-AVG+ED,原k-means聚類方法,效率高,但精度低[76]; (ii) k-Shape:一種高效、高精度的時間序列聚類方法[91]。

       此外,我們還比較了GRAIL-SC和k-means方法在SIDL (SIDL- km)、SPIRAL (SPIRAL- km)和RWS (RWS- km)表示上的運行情況。

       對於採樣,我們將使用GRAIL-DPP,一種運行在GRAIL表示的DPP採樣方法[64,1],與目前兩種最先進的方法進行比較,(i)即使用k-means++機制,即AFKMC2,(ii)以及使用我們前面討論過的DPP方法,即GibbsDPP

       最後,爲了可視化,我們比較了我們的表示(GRAIL+Rep)之間的近似誤差(見下文),當我們使用精確的KPCA方法(KPCA +Rep)來可視化二維時間序列時。在這兩種方法中,Rep表示所使用的表示(例如…GRAIL+Z95表示GRAIL表示,Zk,這解釋了Zd中95%的方差)。

       參數設置:在上面討論的距離度量中,eDTW需要設置一個參數來控制其翹曲窗口的應變。我們通過對每個數據集的訓練集(cDTW)執行遺漏分類步驟來計算最優窗口。爲了使用SVM來評估SINK和GA核,我們需要設置一個正則化參數C。我們使用兩個C值的power進行網格搜索,調整每個數據集訓練集中的C值,C值的範圍是-10到20,步驟0.11。對於這兩個內核,我們考慮從1到20的縮放參數。我們稱SINK爲“SINK的一個版本,它通過計算一個減少的傅里葉係數來預先提供w%的信號能量。對於字典學習,所有的方法爲每個數據集選擇或構造相同數量的地標時間序列,相當於每個數據集時間序列數量的40%(對於大型數據集,上限爲100)。爲了評估學習表徵,我們使用k-Shape和GRAIL-PT提取地標時間序列來估計SINK的參數,

       對於查詢,GRAIL-LB和DFT-LB方法在每個數據集上以固定數量的座標(10)進行低維表示。keoh - lb使用cDTW'對原始時間序列進行操作,cDTW的窗口爲每個數據集時間序列長度的5%。

       對於分類,我們使用與之前相同的網格搜索值設置GRAIL-SVM的正則化參數c,並利用d地標時間序列構建GRAIL表示。

       我們對SIDL-SVM、SPIRAL-SVM和RWS SVM使用相同的訓練過程。我們對這些方法所需的附加參數進行了調優,這些參數需要遵循相應論文中的推薦值。唯一的區別是,爲了進行公平的比較,我們強迫習得的表示具有與我們相同的大小。對於聚類和採樣,我們使用G RA IL表示來解釋f = 95%的方差,我們使用每個數據集中的類的數量分別作爲聚類的數量和樣本的數量。

       度量:我們比較我們的方法在運行和管理。對於運行時,我們計算CPU時間利用率並測量每個數據集比較的時間比。爲了評估分類器,我們報告分類精度(i。通過對每個數據集的訓練和測試集執行分類,可以得到正確分類的實例總數。評估表示我們報告使用弗羅貝尼烏斯的近似誤差範數之間原有的內核矩陣k和近似內核k = ZkZk•128數據集的可視化結果,我們採用min-max規範化約束它的近似誤差在0和1之間,report1 -誤差精度值。我們使用Rand Index (RI)[100]來評估每個數據集的融合訓練和測試集的聚類精度。對於聚類和抽樣,我們報告平均RI / 10次運行;在每次運行中,我們使用不同的隨機初始化。

       統計分析:在[33,91,9]之後,我們使用具有99%置信水平的Wilcoxon檢驗[122]來評估多個數據集上的算法對,該檢驗受異常值的影響小於t檢驗[102]。我們還使用了Friedman test[43]和post-hoc Nemenyi test[84],其中95%置信水平用於比較多個數據集上的多種算法。

6. 實驗結果

       在這一部分,我們報告我們的實驗結果。我們的目標是:(1)根據最新的標準和核心函數來評估SINK(6.1);(2)k-Shape與字典學習方法進行比較(6.2);(3)評估我們的參數調整方法(6.3);(4)評估GRAIL的五個任務:(i)查詢;(2)分類;(3)聚類;()採樣;(v)可視化(6.4)。最後,我們提出我們的案例研究(6.5),並強調我們的發現(6.6)

6.1距離測量評價

 

                    分類精度                                               運行時間

       SVM+SINK的分類器在絕大多數數據集上都優於SVM+GA分類器、SVM+SINK比SVM+GA2的速度快得多

圖6:SVM+SINK和SVM+GA分類器在128個數據集上的比較。

       我們評估了結合SINK和GA核的SVM分類器的準確性。圖6a顯示了128個數據集之間的兩兩差異。SVM+SINK的分類器在絕大多數數據集上都優於SVM+GA分類器(即大多數圓(每個圓代表一個數據集)都在對角線的上方),Wilcoxon認爲這種準確性上的差異具有統計學意義。SVM+SINK在效率上也明顯優於SVM+GA。具體而言,圖6b顯示,在我們考慮的所有數據集中,SVM+SINK比SVM+GA2的速度快得多,差異在一個數量級到三個數量級之間。

       圖7:基於各個數據集的平均等級的分類器的等級。wiggly連接的方法在統計上並沒有什麼不同。圖7顯示了128個數據集中85個數據的平均等級,波浪線:沒有統計學上顯著的差異,Cote的那個中心,優於第二個聚類,更優於第三個聚類,SVM+SINK99是保存99%的能量

       隨後,我們對所有分類器的性能進行了綜合評價。圖7顯示了128個數據集中85個數據的平均等級(因爲COTE和EE的精度值只對這個子集有效)。根據弗裏德曼隨後進行的Nemenyi測試,這條曲線代表了這兩個排名之間沒有統計學上的顯著差異。我們觀察到三個聚類:cote是第一個聚類,SVM+SINK, SVM+SINK%和EE,形成第二個聚類,而1-NN+SBD, 1-NN+cDTWOpt, SVM+GA形成第三個聚類。COTE在第二個集羣中的方法和在第二個集羣中的方法明顯優於第三個集羣中的方法。我們觀察到支持向量機+SINK和支持向量機+SINK99之間沒有統計學上顯著的差異,雖然SINK99只對前幾個傅里葉係數起作用,但這並不意味着精度損失。保留時間序列99%的能量,爲每個數據集確定的係數。平均而言,這一步會導致所需係數大小減少67%,從而使支持向量機+SINK99相對於支持向量機+SINK的速度提高4.2倍。

       我們測試了SINK的不同能量水平,發現當我們壓縮越來越多的原始時間序列時,精度逐漸降低(例如,SINK9o的精度明顯低於SINK)。此外,我們觀察到SINK的變化,當與適當的核方法相結合時,可以像EE(11個分類器的集合)一樣準確地執行。對於一個單獨的相似函數來說,這是非常高的性能,這意味着,正如我們將要展示的那樣,儘管在低維(壓縮)表示上操作,保存sink的學習表示仍然可以在我們的分析中考慮的所有5個任務上取得最先進的性能。相比之下,sINK的變種要比cote嚴重得多,cote是目前最先進的分類器。然而,我們注意到COTE是由35個分類器組成的一個集合。考慮到SVM+SINK是多麼強大,我們相信新版的COTE,包括SINK和之前省略的其他核函數(如GA),將會產生新的最先進的分類性能

6.2詞典評價

       【a: 在大多數數據集中,k-Shape優於Random,b: k形在所有不同的k值上都優於所有方法】

       在展示了SINK的魯棒性之後,我們現在評估k-Shape作爲字典學習算法的性能。首先,我們用最簡單、最有效的隨機時間序列抽樣方法來評價k形。圖8a比較了這兩種方法的近似值誤差(如第5節所討論的轉化爲精度)。在大多數數據集中,k-Shape優於Random,而Wilcoxon檢驗表明這種精度差異在統計上是顯著的。爲了確保k-Shape的性能不會因爲選擇k界標序列作爲每個數據集的類數而受到影響,我們進行了一個額外的實驗,將k landmark時間序列的數量從10變化到100。圖8b顯示了StarLightCurve (SLC)數據集(隨機選擇)上的近似誤差(轉換爲第5節中討論的精度)。我們觀察到,k形在所有不同的k值上都優於所有方法,而wilcoxon表明,所有精度上的差異在統計上都是顯著的。我們在數據集中觀察到類似的行爲。

       爲了驗證k形相對於其他方法的優越性,我們評估了它們在精度上的差異的重要性。圖9顯示了每個方法在數據集上的平均排名。k- shapeis是最常見的,這意味着k-Shape在大多數數據集中表現最好。我們觀察到三種方法的聚類,它們的等級在統計學上沒有顯著性差異:SRFT和GP,這兩種投影方法形成第一個聚類;AFKMC2和Random這兩種採樣方法構成第二個簇;第三個聚類是兩種抽樣方法:GibbsDPP和Lev-Score。第一個集羣中的方法比第二個集羣中的方法好得多,而第二個集羣中的方法又比第三個集羣中的方法好得多。因此,我們可以得出結論,投影方法在字典學習任務中執行抽樣方法,重要的是,k-Shape是唯一顯著優於所有方法的方法.

6.3參數估計的評估

       現在我們將重點放在參數選擇離子方法上。LOOCAcc,一種使用每個數據集的訓練集來選擇參數的監督方法,如預期的那樣,排名第一,這意味着LOOCAcc在大多數數據集中表現最好。有趣的是,我們觀察到GRAIL-PT,我們的非監督方法來調整參數,和最大方差達到與LOOCAcc相似的分類精度。根據Friedman檢驗和事後Nemenyi檢驗來評估等級差異的重要性,只有MinVariance與其他方法相比在計算能力上有顯著的降低。

       圖11顯示了每個方法在數據集上的平均等級(長度),這些方法用於測量學習表示的維數。最小方差排在第一位,最小方差產生了最緊湊的表示,最小的差異也會導致在分類上的重大損失,儘管GRAIL-PT和MaxVariance在分類精度方面的表現相似,但是GRAIL-PT平均產生的維數地域GRAIL,總體來說GRAIL是很優秀的。我們觀察到最小方差排在第一位,這意味着與其他所有方法相比,最小方差產生了最緊湊的表示。然而,正如我們以前所看到的,最小的差異也會導致在分類上的重大損失。相反,我們觀察到GRAIL-PT產生的響應與LOOCAcc產生的響應一樣緊密,LOOCAcc是調整參數的超級直觀方法。重要的是,儘管GRAIL-PT和MaxVariance在分類精度方面的表現相似,但在學習表徵離子的雙量值方面,grail - pt4明顯優於MaxVariance。因此,我們可以得出這樣的結論:grail - pt是唯一一種產生精確而緊湊的代表離子的非監督方法,類似於LOOCAcc以監督方式產生的代表離子。相反,MaxVariance和MinVariance分別產生非常高維的表示和非常低維的表示。非常低維的表示是可取的。不幸的是,在選擇這種低維表示時,最小方差在準確性方面沒有競爭力。

6.4 GRAIL五項任務的評價

       在展示了grail的所有關鍵組件的魯棒性之後,我們現在將評估重點放在五個時間序列挖掘任務的學習表示的性能上。

GRAIL-LB顯著優於Keogh-LB

       查詢:我們評估GRAIL-LB,我們的SINK下限與最先進的ED和cdtw的下限。我們用剪枝力(即剪枝力)來度量剪枝力。方法避免了所有可能的兩兩比較)。圖12顯示,GRAIL-LB顯著優於Keogh-LB,後者是一種下界tw方法,也是ED的最先進表示方法,即DFT-LB。這是一個關鍵的成就,因爲,據我們所知,這是第一次自動構建較低的邊界度量,而且,重要的是,導致了比現有的手工解決方案更好的結果。

       分類:圖13比較了grail表示與最先進的分類任務的表示學習方法的性能。我們觀察到RWS-SV M、SPIRAL-RWS和EncoderA方法的性能類似,而SIDL-S VM明顯比其他所有方法更差。有趣的是,GRAIL-SVM的輸出顯著地形成了所有的方法。

       爲了理解這個結果,在圖14中,我們展示了GRAIL-SVM,我們的SVM 分類器 在GRAIL表示與SVM+SINK的性能非常相似(因爲GRAIL-SVM基本上接近SVM+SINK的精度),這表明了GRAIL表示在這個任務中的robus性。重要的是,grailal -SVM的性能顯著優於SVM+GA和1-NN+SBD方法,這表明,儘管操作的維數超過了重構的維數,但grailal -SVM的性能優於原始的、高維的timeseries方法。而受遺傳算法核啓發的二叉樹-支持向量機的性能明顯低於支持向量機+SINK。螺旋支持向量機是一種無參數的方法,因此使用支持向量機的好處是有限的。SIDL-SVM依賴於與out方法相似的移不變性質,但是調優後的參數並沒有顯示出任何顯著的性能改進。最後,對於EncoderA方法,我們報告的結果比原始論文(即因爲我們強制EncoderA的表示具有有限的大小(與我們的類似)。

       聚類:我們根據k-Shape和k-AVG+ ED對我們的譜分類算法GRAIL-SC進行了評估。從圖15a可以看出,儘管GRAIL-SC是一種低維表示,但它的性能與k-Shape相似,是一種高精度、高效率的時間序列聚類方法。重要的是,由於時間序列的維數減少,GRAIL-SC帶來了比k形算法更快的時間序列聚類算法(圖15b)。GRAIL-SC是唯一一種顯著優於k-AVG+ ED的方法,並達到與k-Shape相似的精度。所有其他方法,即SPIRAL-KM、RWS-KM和SIDL-KM,執行與k-AVG+ED類似或更差(圖16)。螺旋km和rws - km的效果與k-AVG +ED相似,而SIDL-KM的表現則要差得多。

       抽樣:我們將基於抽樣方法的GRAIL-DPP與兩種最先進的近似抽樣方法(採用k- means++機制和DPP方法)進行比較。圖17將所有方法放在一起考慮。GRAIL-DPP outper兩種方式AFKMC2和GibbsDPP無顯著差異。

       可視化:爲了可視化的目的,我們用精確的KPCA生成的表示來評估grail表示的性能。圖18顯示了兩個KPCA-Z85、KPCA-Z90、GRAIL- z90和GRAIL Z95在數據集中的平均排名。我們觀察到KPCA-Z90排名第一,這意味着KPCA-Z90在大多數數據集中有最好的近似誤差。GRAIL-Z95排名第二,KPCA-Z85緊隨其後,但二者的近似值誤差差異無統計學意義。我

6.5 10M時間序列的案例分析

       現在,我們使用Spark演示了GRAIL的可伸縮性。通過與伊利諾斯州著名的能源供應商的合作,我們獲得了包含客戶兩年能源使用情況的智能能源計算數據。我們創建了一個包含1000個能量測量值的1000萬timeseries(不同周的客戶數據)數據集。我們做了兩個實驗來演示GRA IL在不同的環境下的可擴展性,使用我們集羣中的機器(見第5節)。在這兩個實驗中,我們報告了用於學習grail表示和執行k-means集羣的運行時(在學習的表示之上),並根據客戶機的能源使用模式將它們分組在一起。在圖19a中,我們利用了100個核心(5臺機器)來顯示我們的框架是如何隨着數據集大小的增加(從10K到10M timeseries)以及字典大小的增加(100、500和1000)而擴展的。我們觀察到我們的框架是隨着數據量的增加而線性擴展的,而字典的大小並不影響其擴展性。在圖19b中,我們保持數據集不變,但是考慮到時間序列長度的變化。我們觀察到,當有更多可用內核時,我們的框架會線性擴展,並且長度不會影響可伸縮性。

6.6實驗評價總結

       簡而言之,我們的實驗評估表明:(1)與合適的核函數相結合的核方法,如SINK,明顯優於與1- nn分類器相結合的最先進的距離測量方法;(2)聚類中心向量,如k形聚類中心向量,可以有效地作爲表徵學習任務的地標性時間序列字典;(3)對核函數參數進行無監督整定,得到精確、緊湊的時間序列表示;(4)聖盃;學習比最先進的表達方式更緊湊、更準確的時間序列再現;(5) GRAIL表徵實現了對時間序列比較的優秀修剪;(6)GRAIL表示法,結合合適的方法,在低維repre-sentations上運行,實現了高精確度並顯著提高了算法的運行速度;GRAIL適用於大規模的時間序列分析,因爲它可以在越來越大的數據集中線性地擴展它的所有參數。

7.相關工作

       我們着重於從時間序列中學習有效的表示。在非監督方法之外,傳統的基於模型的方法假設一個模型,該模型通常以帶參數的解析方程的形式表示,來去除時間序列,並將該模型的估計參數作爲時間序列挖掘任務的特徵[66]。文獻[55,17,44]中大量基於模型的方法依賴於不同的模型來滿足不同的應用需求,如隱馬爾可夫模型[97]、高斯過程模型[18]和自迴歸模型[75]。不幸的是,這些模型不切實際的假設,加上它們用解析方程對高度複雜高維時間序列建模的能力有限,影響了基於模型的方法作爲現實問題的獨立特徵提取方法的有效性[66]。

       因此,時序文學方面付出了大量努力來提取通用的特性來表示時間序列的使用組合統計措施,總結不同的時間系列的屬性,包括它們的分佈、相關結構、平穩性,熵,和合適的一系列不同的時間系列模型(83年,120年,34歲,46歲,45歲)。儘管這類方法對於分類和預測任務是有效的,但是當特徵的監督選擇降低了特徵向量的維數並提高了準確性時,這些方法對於非監督任務來說是沒有競爭力的。同樣,許多時間序列分類方法也涉及到特徵提取的操作。我們建議讀者參考[9],以便對這些方法進行大量的調查和評估。不幸的是,對於非監督設置,這種方法沒有競爭力,這在基於shapelet的聚類方法中得到了證明[92]。

       其他學習特徵表示的方法依賴於深度學習方法[132,15,14,13,41,12]。這些方法的一個優點是,它們可以學習多層特性表示。最近的一種深度學習方法,即編碼器[110],已經取得了與最先進的COTE分類器類似的運算性能。不幸的是,當我們限制表示的大小(以匹配GRAIL的大小)時,這種方法就不再具有競爭力了。使用神經網絡學習表示有許多不同的體系結構。我們建議讀者參考[66]以獲得徹底的回顧。最近,人們提出了許多與我們的方法相關的方法來學習時間序列的表示。SIDL[134]試圖在時間序列的不同位置捕獲信息豐富的本地模式,並依賴於稀疏編碼來學習表示。與我們的方法類似,spirn[68]通過保留時間序列的DTW距離來學習時間序列的表示。最後,RWS[125,124]以第2節中描述的RFF內核方法爲基礎來學習表示。

8.結論

       在本文中,我們解決了有效學習數據感知表示的問題。首先,我們開發了一個比較移位不變量下時間序列的快速核函數SINK。利用有效的時間序列聚類方法構造了地標時間序列,提出了一種估計核函數參數和提高表示緊度的方法。然後,我們通過使用內核方法的近似來學習使用GRAIL的表示。最後,我們展示了GRAIL表示如何加速5個主要時間序列挖掘任務的內核方法。我們通過使用嚴格的統計分析對128個數據集進行廣泛的實驗評估來評估我們的想法。此外,我們在Apache Spark上實現了GRAIL來分析真實的物聯網數據。我們的研究結果表明,通過使用SINK和GRAIL,我們可以在時間序列的查詢、分類、聚類、採樣和可視化方面顯著優於現有的最先進的方法。GRAIL作爲一種能夠統一時間序列方法設計的新原語出現了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章