時間序列分類算法之LPS論文翻譯

本文主要翻譯LPS論文的主體部分,由於水平有限,可能翻譯的不夠準確。算法原文連接爲

基於局部自動模式的時間序列表示與相似度

摘要:隨着從醫學、金融、多媒體等不同領域的時間序列數據集的增加,時間序列數據挖掘受到更多人的關注。對於減少維數和產生有用的相似性度量來說,時間序列表示是很重要的。高階表示,如傅立葉變換,小波,分段多項式模型等,是以前所提出來的。最近,自迴歸核被用來反映時間序列的相似性。我們介紹了一種新的方法來模擬時間序列中的依賴結構,推廣自迴歸概念到局部自動模式。我們的方法產生一個基於模式的表示,以及相似性度量稱爲學習模式相似性(LPS)。基於樹的集成學習策略,快速和不敏感的參數設置是該方法的基礎。然後,提出了一種基於學習模式的魯棒相似性度量方法。這種無監督的方法來表示和測量時間序列之間的相似性通常適用於許多數據挖掘任務(例如,聚類、異常檢測、分類)。此外,一個表示的嵌入式學習避免了預定義特徵和提取步驟,這在一些基於特徵的方法中是常見的。該方法以簡單的方式推廣到多變量時間序列。LPS的有效性評價來自不同領域的時間序列分類問題。我們將LPS與11個較好的時間序列相似性度量方法進行比較,我們的實驗結果表明,LPS在多個領域的基準數據集上提供了快速和有競爭力的結果。LPS提供了一個研究方向和模板方法,打破了線性依賴模型,潛在地促進其他有前途的非線性方法。

      關鍵詞:時間序列;相似性;模式發現;自迴歸;迴歸樹

 

1  引言

 在過去幾十年,隨着在應用領域時間序列數據的增加,時間序列數據上的機器學習研究受到很大得關注。對於時間序列數據分析來說,數據維度高是一個重要得挑戰。許多研究都集中在通過將原始數據轉換爲另一個域來降低維度的高層表示[Ratanamahatana2010A]。另外,數據的趨勢、形狀和模式通常比單個的數據值提供更多的信息[Ratanamahatana2010A]。因此,更高級別的表示也被提出用於捕獲這些屬性[Lin2007A]。這些表示包括傅立葉變換、小波、分段多項式模型等[Lin2003A]。此外,離散化表示時間序列的方法在過去的十年中已經變得流行起來。例如,符號聚集近似(SAX)是單變量序列的簡單符號表示[Lin2007A, Lin2012A, Shieh2008A],它將序列分割成固定長度的間隔(並使用符號表示值的平均值)。這種表示類似於分段聚集近似(PAA)[ChakabaTi2002A]。時間序列表示方法的概述由[Fu2011A, Lin2007A, Ratanamahatana2010A, Wang2013A]等人提供。

生成模型是通過學習模型參數表示序列的另一種模型[Chen2013A, Liao2005A]。這些方法被稱爲“基於模型的內核”[Chen2013A]。這類方法假定有某種形式的參數模型。諸如概率生成內核[Jebara2004A]、子序列內核[Kuksa2010A]、Fisher內核[Jaakkola1999A]等等,在基於模型轉換序列後隱式生成相似度度量。其中自迴歸(AR)內核假設時間序列值之間存在線性遞歸關係[Cuturi2011A]。AR模型着重於時間序列的動態方面,通過指定特定時間內的值與之前的值成線性關係。

在時間序列數據庫上進行有效的相似度搜索是時間序列學習的另一個重要課題,因爲這些數據變得無處不在。對於聚類、異常檢測、分類等多種數據挖掘任務來說,一種能夠正確捕獲底層信息並反映數據相似性的距離度量是最基本的[Han2001A]。[Wang2013A]中對最流行的時間序列相似度方法進行綜合評價和比較。

作爲一種無參數的方法,基於歐幾里得距離的相似性是非常流行的,並且在很多應用中都表現得很好[Wang2010A]。歐幾里得距離屬於鎖步測量的範疇,因爲它將一個時間序列的第i個值與另一個時間序列的第i個值進行比較[Wang2013A]。這使得歐幾里得距離對時間序列中模式的噪聲、縮放、平移和擴張非常敏感。但另一方面,隨着訓練數據量的增加,它可以很好地應用於某些應用[Wang2013A]。

另一種方法是用彈性度量計算時間維度中某些非線性變化的相似性不變性。這是通過在動態時間扭曲(DTW) [Ratanamahatana2005A]或LCS[Latecki2005A]中的一對多(一對多)/一對多(一對多)/一對無(一對多)點來實現的。對於許多時間序列數據挖掘問題[Ratanamahatana2005A],DTW距離被認爲是很有效的。文獻中也提到了基於DTW思想的類似方法。WDTW採用加權方案來防止較大扭曲[Jeong2011A]。導數DTW (DDTW)使用了連續時間值之間的差異[Keogh2001A]。此外,基於編輯距離的方法在這個領域也具有競爭力。使用一個實數懲罰(ERP)的編輯距離[Chen2005A],時間扭曲編輯(TWE)距離[Marteau2009A]和移動-分裂-合併(MSM)基於這種策略的有效方法[Stefan2013A]。

相似度的定義對於“基於相似度的內核”也是至關重要的[Lowe1995A]。這些內核利用時間序列數據的相似性信息。例如,Cuturi提出了一種基於DTW的內核,用於語音識別任務的應用[Cuturi2011A]。基於相似性的內核並不直接比較動態性,而是度量時間序列之間的對齊[Gaidon2011]。大多數時間序列內核(包括相似內核和基於模型的內核)都試圖解決時間維度中的某些不變性問題。因此,與計算機視覺文獻存在關聯,從圖像中提取小像素塊來解釋某些不變性,如位置、尺度等。出於類似思想的啓發,最近在時間序列挖掘文獻中提出了基於時間序列分段的研究來處理不變性([Baydogan2013A, Grabocka2014A, Lin2012A])。時間序列的特徵向量來自於它們的片段,使用一種單詞包(BoW)類型的表示[Baydogan2013A]。

這裏描述的學習模式相似(LPS)方法也受到BoW方法的啓發。LPS首先以類似自迴歸的方式從時間序列的片段中學習一個表示,然後引入基於這種表示的相似度度量。爲了說明LPS的基本原理,我們使用了一個綜合時間序列分類問題。考慮一個雙類問題,其中來自類1的序列有3個峯值,類2有有兩個峯值,不考慮峯值位置。圖1a顯示了每個類的10個時間序列,其中熱點圖在x軸表示時間,y軸表示時間序列。圖1b繪製了t時刻和t + 1時刻的值,以提供關於AR模型的直觀顯示。對t時刻的值進行訓練以預測t + 1時刻的值的模型稱爲滯後係數爲1的AR模型。從散點圖可以看出,AR模型中的線性假設是有限制的。本例中的峯值是非線性自迴歸操作的主要原因。因此,我們使用一種基於基於樹的學習策略的非線性方法對依賴項進行建模。這使我們的模型能夠使用健壯的模型捕獲更復雜的依賴關係(很少且對參數不敏感)。對於自迴歸,我們把這些依賴認爲是自動模式。對圖1中可視化的數據進行迴歸樹訓練。樹的結構如圖2a所示。

圖1 20個實例的時間序列數據集。該時間序列長度爲400。熱圖上的x軸表示時間,y軸表示序列值(a)。圖(b)展示的是在時間點tt+1位置上的值的散點圖。需要注意的是在(2,2)點的位置出現重疊。

圖2 圖(a)表示在點t觀測值處訓練迴歸樹預測t+1處的觀測值。圖(b)表示分別從類別1和類別2的時間序列1和11的相應終端結點分佈情況。在每個終端結點的觀測頻率的水平差異揭示了時間序列的差異。

 

圖1中的簡單示例(2個峯值對比3個峯值)展示了樹如何在時間序列中編碼依賴結構。然而,AR建模有可能丟失位置信息,這對於一些時間序列分析問題是很重要的。考慮這樣一種情況:單個預測器段不能充分地分離類(例如,峯值的位置決定類型)。假設一個時間序列數據庫有兩個類的長度爲100的時間序列。第1類序列在時間點1和50之間有峯值,而第2類在時間點51和100之間具有相同的峯值。顯然,AR(1)模型不能捕獲這些序列的差異,因爲它爲兩個類生成相同的表示。在這種情況下,建立隨時間變化的自相關模型是十分重要的。因此,LPS不是學習單一的樹結構,而是訓練一組迴歸樹,以解釋多個長度的多個預測片段。通過自相關的廣義模型對時間序列中存在的局部自動模式進行編碼的概念與圖1中的簡單示例相同。但是,在集成樹中的每個樹的分割結點上,段可以改變位置和長度。這類似於在多個滯後係數和多個位置上建模自相關,就像在自迴歸核[Cuturi2011A]中那樣,但是與線性自迴歸模型相比,它具有更多的表達模型。此外,基於模型的方法通常適用於每個時間序列的模型,並比較它們的參數。對每個系列分別建模是一個迭代的、可能耗時的過程。另一方面,我們的LPS方法同時適用於所有系列的一個自動模式模型。

LPS具有特徵空間的遞歸劃分的好處,可以捕獲非線性關係和集成算法,以便於辯別特徵空間中不同區域的行爲。我們還需要區分單個時間序列的模型。在LPS中,每個序列被表示爲各個區域值得分佈,這些區域是由樹學習的遞歸分區(終端結點)確定的。換句話說,迴歸樹學習依賴相似的區域。然後,對於每個時間序列,使用落在集成學習中每個終端結點的頻率表示時間序列。這是圖2b中不同類的兩個時間序列和一棵樹的箱線圖。

LPS以一種簡單的方式擴展到多變量時間序列(MTS),不需要任何額外的計算成本。MTS相似度的研究大多采用單變量方法,對每個屬性之間的距離進行加權,得出最終的相似度測度。這在許多手勢識別(Gesture Recognition , GR)任務中很常見[Liu2009A]。例如,[Akl2010A],[Liu2009A]主要研究基於DTW距離的GR。隨着多屬性和長序列帶來的高維性,多變量級數之間的相似度難以計算。此外,當相似度計算在單個序列上時,屬性之間的關係沒有被考慮,對於某些應用程序來說,這些屬性之間的交互作用是有問題的[Baydogan2014A]。我們的LPS相似度度量考慮MTS的各個屬性之間的交互。

我們的方法繼承了集成樹的特性。也就是說,它可以處理數值、分類和順序數據、非線性和交互效應。它具有尺度不變性,對缺失的值具有魯棒性。大多數現有的時間序列表示方法都存在處理缺失值或數字以外的數據類型的問題。LPS通過表示學習可以處理模式的擴展和轉換(例如,尺度和移位不變性)。這些優點同時適用於單變量和多變量時間序列。此外,LPS允許一個簡單的並行實現,這使得它在計算上更加高效。我們的方法和其它公開工作[Frank2010A, Hills2014A, Lines2014A, Olszewski2012A, Rakthanmanon2013A, Sübakan2014A, CMU2012A]。相比在UCR時間序列數據庫的基準數據集[Keogh2011A]提供了快速而有競爭力的結果。

LPS爲模型依賴關係提供了一種通用的方法,這種方法是非線性的(以及擴展和轉換),它概括了自迴歸的概念。我們把這些依賴關係看作是時間序列中的局部自動模式。因此,LPS爲時間序列建模提供了一個研究方向,它打破了線性依賴模型,有可能潛在的促進其它的非線性方法。LPS提供了一個示例模板,用於在時間上生成非線性自動模式,表示時間序列,並生成可用於許多分析任務的相似性度量。這個模板可以作爲在LPS上擴展的替代方案的指南。

本文的其餘部分組織如下。第2節提供了相關工作的背景和總結。第3部分描述了學習模式和計算相似度的框架。第4節通過對一組完整的基準數據集進行測試,演示了我們提出的方法的有效性和效率。第9節提供的結論。

2  背景和相關工作

一個單變量時間序列xn = { xn (1), xn (2), … , xn (t), …, xn (T)}是一個由T個值得有序集合。我們假設時間序列在等間隔時間點測量。時間序列數據庫x存儲n個單變量時間序列。

2.1  自迴歸模型

滯後係數爲p得自迴歸模型,AR(p),是一組線性模型來預測時間t的值。基於前面的xn(t−1), xn(t− 2), …, xn(t p)預測xn(n)。AR(p)模型的形式爲:

其中假設平均值爲零,迴歸係數,即 是待估計的參數。給定滯後P,有幾種方法來估計係數。通常採用最小二乘估計來求迴歸係數。這種方法假設誤差項 具有獨立的高斯(正態)分佈,具有零均值和常方差。

AR(p)模型之間的滯後依賴觀察。然而,這種類型的AR模型假定線性關係,這對於應用可能是有問題的。此外,最優模型滯後不是先驗已知的,並且必須通過滯後選擇準則來確定。此外,係數可能隨時間而變化,但等式2-1假定在整個時間週期中的關係是相同的。

2.2  迴歸樹

我們的方法使用迴歸樹,但與傳統方法有很大不同。迴歸樹劃分特徵空間以減少目標y在終端結點上的雜質[Breiman1984A]。結點上的雜質通常用誤差平方和來測量, ,其中綜合和均值 是對分配給結點的實例進行計算。選擇分割,以將SSE的加權平均值最小化到子結點上。尋找最佳的分區通常在計算上是不可行的[Hastie2009A]。因此,迴歸樹使用貪婪策略來劃分輸入空間。分配給終端結點的預測實例m是目標屬性的均值 實例的訓練集分配給m。這種類型的模型有時被稱爲分段常數迴歸模型,因爲它們在一組區域中劃分預測空間並在每個區域中擬合一個常數值。

2.3  時間序列表示

爲了在時間序列數據庫中有效地挖掘數據,提出了幾種表示方法。我們參考Ratanamahatana等人對這些方法進行詳細的分類和描述[Ratanamahatana2010A]。離散表示在時間序列研究中很常見Ratanamahatana等人[Ratanamahatana2010A]。例如,SAX ([Lin2007A]基於固定長度間隔內值的平均值對值進行離散。這個表示類似於前面提到的PAA ([Chakrabarti2002A])。

圖3 (a)數據集CBF中時間序列表示;(b)用於獲得該表示的訓練好的迴歸樹。A是特徵空間,b是迴歸樹

 

基於樹的時間序列學習分類器的傳統角色是以遞歸的方式使用分段常數模型進行近似[Geurts2001A]。一個流行的基於樹的表示使用(t, xn(t))作爲時間索引t是唯一的預測因子,而xn(t)是目標[Geurts2001A]。圖2-3中可以看到CBF數據集[Keogh2011A]的一個時間序列。一開始,所有值的均值都是0。分歧最小化加權平方誤差的總和(SSE)的父結點分區的值爲兩個結點的值是−0.83和0.42。樹遞歸地分區時間序列值,以貪婪的方式最小化整個SSE。由於時間被用作預測器,所以每個終端結點上的值是連續的,並定義一個區間,如圖3a所示。在這個例子中,離散向量有128個元素(時間序列的長度)。

每個終端結點上的值的數量可以用來表示時間序列[Geurts2001A]。定義離散化的終端結點有6個,如圖3a所示。僅僅是一個長度爲6的向量,可以用來表示整個時間序列([Hastie2009A, Geurts2001A, Geurts2006A, Breiman1984A]; [Keogh2006A]; [Jebara2004A])。

Baydogan和Runger[Baydogan2014A]、[Baydogan2013A]認爲基於樹的時間序列表示是專門用於分類任務的。前面的工作與這裏的方法有很多不同之處。首先,前面的工作使用類屬性來表示。此外,[Baydogan2013A]使用了一種完全不同的方法,即在生成代碼書之前,從片段中提取簡單的特性(如平均值和標準差)。[Baydogan2014A]的工作考慮了結點計數作爲一種表示。然而,該過程再次關注了用於分割規則的類屬性,並使用了完全不同的數據結構(另外,沒有重疊的段)。這裏的方法是完全無監督的,我們以不同的方式產生分裂。我們提供了一種新的表示,並開發了一種相似度度量,可用於數據挖掘任務,而不僅僅是分類。

2.4  時間序列相似性

用Lines和Bagnall[Lines2014A]對流行的時間序列相似性度量進行總結和評價。對來自不同領域的75個時間序列分類數據進行了實證比較。得出的結論是,沒有任何一項指標能明顯優於其他指標[Lines2014A]。結果表明,彈性測量的性能在統計學上沒有顯著差異。這些數據集中排名前三的算法是WDTW、MSM和DTW,它們都有最好的翹曲窗口(稱爲DTWBest)。由於這些方法在同一水平上的表現接近,所以使用DTWBest進行比較,這是文獻中常見的做法[Batista2014A]。參見[Lines2014A]和[Wang2013A]進一步討論時間序列相似性度量。

另外,由於多系列間的相似性查找問題不明確,所以多系列間的相似性計算是一項具有挑戰性的工作。爲了解決這一問題,一般對MTS的各個屬性採用基於相似度的方法,對MTS的各個系列的相似度進行加權,得到最終的相似度度量。然而,MTS不僅具有個體屬性,而且還具有其關係。

3  基於局部自動模式得時間序列表示方法

LPS通過建模時間序列段之間的關係,從時間序列中學習依賴模式(autopatterns)。我們引入了一個與多個滯後值相關的自相關分割。在將每個時間序列表示爲片段的矩陣之後,討論了基於樹的學習策略來發現依賴結構。爲每個時間序列生成編碼依賴模式的BoW類型表示。在此基礎上,提出了一種基於“學習模式相似度”(learning pattern similarity, LPS)的新相似性度量方法。

3.1  基於時間序列分段的遞歸自動學習算法

我們的方法從每個時間點t =1, 2, …, T L + 1開始提取所有可能的長度爲LL < T)劃分。這裏一個劃分指的是在時間上連續的值。一個從時間點t開始的劃分定義爲 。對於每個時間序列xn,在方程式矩陣Sn中,以每列序列的所有可能的段(tL+1段長度L)爲列,生成每個序列的xn的分段矩陣Sn

在生成數據庫中的每個時間序列的分段矩陣之後,將行矩陣串聯起來,以學習所有時間序列上的依賴關係。我們將這段矩陣表示爲SNL×(T-L+1)。我們的方法使用迴歸樹來識別時間序列觀測之間的結構依賴關係。在訓練基於分段矩陣的迴歸樹之前,隨機選擇S的第r列作爲目標段。然後,我們選擇一個迴歸樹,選擇一個隨機的第p列的段矩陣作爲預測器在每個分裂。注意,這裏使用的索引p不同於AR(p)模型所使用的滯後參數p。類似於迴歸樹中的分裂選擇準則,使用最小化SSE的值作爲分裂決策。這在使用第一節中的一個簡單例子中說明。其中分裂被確定爲T1<1.740247(圖2a)。以這種方式訓練的迴歸樹學習非線性自迴歸模型。列的索引確定段的起始時間。因此,滯後水平是由pr的選擇決定的。爲了允許基於多個(潛在的)不同局部關係發現自動模式,在每個結點上隨機選擇p。與此相關的隨機策略也被證明在[Geurts2006A]等人的另一個迴歸上下文中表現良好。在每個分割中的p的隨機選擇也使得LPS建模隨時間變化的依賴性。

L的設置基本上在方法中設置滯後水平的上界。顯然,滯後不能大於T - L。爲了模擬所有可能的滯後水平,我們引入了一種新的學習策略,訓練J棵樹{ gj, j = 1, 2, …, J },在集成框架中。除了在每個結點上選擇一個隨機預測器段來考慮多個滯後,每個樹在該方法中使用隨機段長度。這允許對大量可能的滯後水平進行建模。此外,樹的深度被限制爲D來控制複雜性。算法1顯示了構建單個樹的步驟。在步驟6中生成分割值的方法可以被修改以用於計算速度。我們考慮兩種分裂策略:“迴歸”和“隨機”分裂。

當所有的時間序列被用於訓練時,該算法類似於搜索所有時間序列上的公共模式。每個樹生成一個表示,最後的時間序列表示是通過級聯獲得的。爲了簡單起見,假設所有的樹都包含相同數量的終端結點R。一般情況下很容易處理。讓Hjxn)表示時間序列xn從樹gj的終端結點中的實例的R維頻率向量。我們將樹上的頻率向量級聯起來,得到每一個時間序列的最終表示,表示爲H(xn),長度爲R×J(並且對於非恆定R明顯地修改)。我們的表示基於實例在樹上的終端結點分佈集合了時間序列中的模式。

對於相同長度的時間序列,提供了描述和示例,但是長度可以不同。在這種情況下,我們的分段提取方案應該被修改。保持相同數量的段,較長的段應提取更長的系列。然後根據分段長度對每個序列進行歸一化。

此外,通常需要插值來估計缺失值的時間序列的缺失值。然而,估計方法本身增加了時間序列問題的附加參數。我們提出的方法自然地處理缺失值的數據,而不需要任何額外的步驟,因爲基於樹的學習隱式地處理具有缺失值的屬性[Breiman1984A]。在4.7節中所提出的方法對缺失值的魯棒性是經驗評估的。儘管我們提出的描述是針對數值型時間序列,LPS同樣可以應用於類別時間序列如DNA序列。

3.2  擴展到多變量時間序列

MTS是一個M-屬性時間序列。在多元場景中,爲多元序列的每個屬性生成分段矩陣Sn,並將其串接在一起,以獲得每個變量序列的大小爲L×(M × ( T - L+1))的分段矩陣。

LPS的一個正性質是算法的其餘部分保持不變。在樹的每個結點的隨機選擇列的幫助下,對多個屬性之間的交互進行建模。這使得我們的方法在不同的滯後水平的廣義廣義互相關。根據屬性的數量,樹的數量和深度級別可以被設置爲更大,以捕獲相關信息。此外,由於每個迭代中的隨機段選擇,LPS的複雜性不受影響。

3.3  分裂策略

分裂決策是LPS的一個步驟,我們的方法考慮兩個分裂策略。在第一個替代方案中,稱爲“隨機分裂”,根據算法1的步驟6中的值的最小值和最大值,從均勻分佈中隨機地確定分裂值。

第二種選擇引入了與迴歸樹中使用的類似的分割。 在這個選擇中,算法1中的樹構造被稍微修改以學習迴歸樹。 迴歸樹需要一個目標,並且選擇一個隨機列作爲每棵樹的目標。 然後,第6步設置拆分值以最小化目標列上的SSE在子結點上的加權平均值。 這種被稱爲“迴歸分裂”的替代方案提供了某些益處。 使用迴歸樹方法,與“隨機分割”相比,以更智能的方式搜索自動模式。

使用明確的目標函數(即,最小化SSE的加權平均值),選擇隨機預測器列上的拆分值以將目標值圍繞子結點平均水平進行分割。從某種意義上說,分段矩陣(預測器和目標)的兩列同時被離散化。如果序列內模式的相關性對於相似性很重要,那麼“迴歸分裂”就有可能更好地發揮作用。換句話說,“迴歸分裂”模型表示時間段之間的依賴關係,如果這種行爲很重要,它有可能很好地工作。這對於MTS尤爲重要,因爲多個屬性之間的關係可能提供有關學習任務的信息。如在“隨機分割”情況中那樣,來自分段矩陣S的行(分段)被分配給樹結點。

用“隨機分割”生成分割值的計算速度非常快。 另一方面,“迴歸分裂”評估每個結點處所有可能的分裂值。 在評估可能的分割位置之前,分類會增加複雜性。這需要更多的計算,但基於樹的方法在計算快是衆所周知的[Breiman1984A]。這兩種策略都在第4節中經驗性地進行評估,並且在第4.5節中在劃分選擇上進行了進一步地討論。

3.4  差分序列

迴歸樹根據值的平均水平找到段之間的依賴關係。 爲了引入表示趨勢方面的依賴關係,我們還根據連續值的差異生成分段(在“迴歸樹”的情況下爲預測器和目標)。這裏,每個時間序列的T-L差分段被生成爲

在我們修改的差異方法中,差分列與原始分段矩陣S級聯並列,並且從這個擴大後的矩陣中隨機選擇分段。 因此,在算法1中使用大小爲NL×(2T - 2L + 1)的分段矩陣用於表示學習。正如實驗中所研究的,潛在地,可以通過這種策略來學習更好的表示。 差異片段的添加不影響複雜性,因爲我們的方法在每次迭代中選擇一個隨機片段。隨着差異序列的增加,LPS具有與衍生動態時間規整(DDTW)相似的優點[Keogh2001A]。DDTW通過估計數據的局部導數來基於趨勢度量相似度。通過引入差異序列,LPS捕獲了相似信息。

3.5  相似性度量

給出了前面描述的表示形式,開發了相似度度量。假設 是H( xn )的第k個元素,那麼時間序列xnxn’之間的相似性被設置爲:

由於相似性度量計算了表示中匹配值的數量,LPS可以被歸類爲基於模式的相似性度量。由於片段的隨機選擇,我們將所有樹的相似性集合在一起,如公式4所示。這使我們能夠從不同的時滯和位置捕獲模式。通過基於模式中最小值的匹配,該度量與基於子序列的相似度方法有一定的關係,例如LCSS [Latecki2005A]。我們的匹配策略也允許我們用這種匹配策略來處理擴張的問題。

我們沒有使用公式4-3生成相似度的度量,而是提出了一種不同的度量方法,以從早期放棄[Keogh2005A]等可以在時間序列中加速相似度搜索的包圍方案中獲益。時間序列xnxn’之間的不相似性被設置爲:

式4-4中的不相似測度懲罰了時間序列之間不匹配值的數量。此外,它還提供了與式4中的相似度度量相反的信息。這可以看作如下。假設公式5中的和的絕對值寫成:

如果和分佈在公式4-5中的項上,我們就得到最大值的和減去最小值的和。表示形式中的項的和是常數B,對於每一個級數,其中B等於每棵樹所考慮的段長度之和。因此,

將式4-8代回到式4-5,在式4-9中產生了不相似,與式4-3中的相似測度具有相同的求和項,但帶有一個負號。由於式4-9中其餘的項都是常數,所以式4-3中的相似點基本上與式4-9中的不相似點相反。

雖然根據DJ的不同,最終表示的長度可以大於時間序列長度,但是它仍然具有計算效率,如第4.4節進一步說明。此外,由於LPS將一個MTS轉換爲一個單變量向量,因此,邊界策略仍然可以與提議描述和相似度度量一起工作。

3.6  參數

我們的方法有四個參數:分割策略、樹數J、深度D和子序列長度l。但是,如果在一定範圍內設置這些參數,LPS對這些參數的設置是魯棒的。例如,每棵樹都隨機選擇L。如果不考慮計算時間,J和D可以設置爲大。同樣,如果訓練時間不是問題,“迴歸分割”是首選。LPS對參數設置非常不敏感,我們通過幾個數據集來說明它的健壯性,從而從經驗上支持這一觀點。

如果有關於應用程序的信息,可能需要相應地設置參數。最重要的參數的方法是L .首先,L上設置一個上限T−L滯後(如前所述)。因此,如果在“迴歸樹”中只有短期依賴關係是重要的,那麼L可以設置爲大。這樣,依賴項在更短的時間窗口中建模。然而,如果長期依賴是重要的,則可能會錯過時間序列的有趣模式。考慮到長期依賴關係,更小的L是首選。

L的設置最好使用一種簡單的方法來處理,這種方法利用LPS中通常使用的大量樹。L不是將L設置爲某個級別,而是爲每棵樹隨機設置L。這提供了健壯的性能,如我們的實驗中所示,並消除了爲l指定一個值的需要。另一種選擇是基於訓練數據的交叉驗證準確性來設置參數。第4節進一步討論了在實驗中如何處理參數。

3.7  算法複雜度

學習表示的時間主要取決於樹的訓練。建立一棵樹的時間複雜度爲O(vhβ),其中,

v=1是在每個分裂中評估的特徵數,h=n×L是段矩陣中的實例數,β=D是樹的深度。因爲我們將L設爲全時序列長度的比例,所以我們定義γ爲L=γT。當我們以隨機方式構建J樹時,訓練的整體複雜度爲O(JNTD)。此外,在分割階段生成S列,以避免不必要的重疊片段的存儲。因此,我們提出的方法在內存使用方面是有效的。

測試複雜性是由表示和分類的複雜性決定的。時間序列表示需要遍歷樹,它是

O(TJD)。分類的時間複雜度類似於表示長度的線性的近鄰歐拉距離的複雜度。時間序列用R×J長度向量表示,其中R是終端結點的數目。這裏,R由深度參數D確定,並且它是非恆定的。假設R是常數且等於最大可能值,R=2D,LPS的最壞情況測試複雜度爲O(NJ2D)。

理論上,測試中LPS的最壞情況複雜度與D的設置成指數關係,但所提出的方法在實踐中是非常快的,這在SECT中被進一步討論。4.4。如果計算時間的一個小的減少是實際關注的,可以使用邊界方案來加速這種方法。關於近鄰歐拉距離最簡單和最著名的方法是提前放棄[Keogh2005A],如前所述。例如,在最近鄰分類的LPS相似度計算中,如果到目前爲止,每對對應的數據點之間的絕對差異的當前總和超過最佳相似性,則可以停止計算[Keogh2006A]。用這個邊界方案可以顯著減少計算時間[Rakthanmanon2012A]。

更重要的是,LPS幾乎所有的步驟都是尷尬並行的。集合中的樹可以並行訓練以學習表示。同樣,相似性計算可以在多個樹上並行進行。這使得LPS非常適合大規模並行環境中的相似性搜索。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章