时间序列分类算法之LPS论文翻译

本文主要翻译LPS论文的主体部分,由于水平有限,可能翻译的不够准确。算法原文连接为

基于局部自动模式的时间序列表示与相似度

摘要:随着从医学、金融、多媒体等不同领域的时间序列数据集的增加,时间序列数据挖掘受到更多人的关注。对于减少维数和产生有用的相似性度量来说,时间序列表示是很重要的。高阶表示,如傅立叶变换,小波,分段多项式模型等,是以前所提出来的。最近,自回归核被用来反映时间序列的相似性。我们介绍了一种新的方法来模拟时间序列中的依赖结构,推广自回归概念到局部自动模式。我们的方法产生一个基于模式的表示,以及相似性度量称为学习模式相似性(LPS)。基于树的集成学习策略,快速和不敏感的参数设置是该方法的基础。然后,提出了一种基于学习模式的鲁棒相似性度量方法。这种无监督的方法来表示和测量时间序列之间的相似性通常适用于许多数据挖掘任务(例如,聚类、异常检测、分类)。此外,一个表示的嵌入式学习避免了预定义特征和提取步骤,这在一些基于特征的方法中是常见的。该方法以简单的方式推广到多变量时间序列。LPS的有效性评价来自不同领域的时间序列分类问题。我们将LPS与11个较好的时间序列相似性度量方法进行比较,我们的实验结果表明,LPS在多个领域的基准数据集上提供了快速和有竞争力的结果。LPS提供了一个研究方向和模板方法,打破了线性依赖模型,潜在地促进其他有前途的非线性方法。

      关键词:时间序列;相似性;模式发现;自回归;回归树

 

1  引言

 在过去几十年,随着在应用领域时间序列数据的增加,时间序列数据上的机器学习研究受到很大得关注。对于时间序列数据分析来说,数据维度高是一个重要得挑战。许多研究都集中在通过将原始数据转换为另一个域来降低维度的高层表示[Ratanamahatana2010A]。另外,数据的趋势、形状和模式通常比单个的数据值提供更多的信息[Ratanamahatana2010A]。因此,更高级别的表示也被提出用于捕获这些属性[Lin2007A]。这些表示包括傅立叶变换、小波、分段多项式模型等[Lin2003A]。此外,离散化表示时间序列的方法在过去的十年中已经变得流行起来。例如,符号聚集近似(SAX)是单变量序列的简单符号表示[Lin2007A, Lin2012A, Shieh2008A],它将序列分割成固定长度的间隔(并使用符号表示值的平均值)。这种表示类似于分段聚集近似(PAA)[ChakabaTi2002A]。时间序列表示方法的概述由[Fu2011A, Lin2007A, Ratanamahatana2010A, Wang2013A]等人提供。

生成模型是通过学习模型参数表示序列的另一种模型[Chen2013A, Liao2005A]。这些方法被称为“基于模型的内核”[Chen2013A]。这类方法假定有某种形式的参数模型。诸如概率生成内核[Jebara2004A]、子序列内核[Kuksa2010A]、Fisher内核[Jaakkola1999A]等等,在基于模型转换序列后隐式生成相似度度量。其中自回归(AR)内核假设时间序列值之间存在线性递归关系[Cuturi2011A]。AR模型着重于时间序列的动态方面,通过指定特定时间内的值与之前的值成线性关系。

在时间序列数据库上进行有效的相似度搜索是时间序列学习的另一个重要课题,因为这些数据变得无处不在。对于聚类、异常检测、分类等多种数据挖掘任务来说,一种能够正确捕获底层信息并反映数据相似性的距离度量是最基本的[Han2001A]。[Wang2013A]中对最流行的时间序列相似度方法进行综合评价和比较。

作为一种无参数的方法,基于欧几里得距离的相似性是非常流行的,并且在很多应用中都表现得很好[Wang2010A]。欧几里得距离属于锁步测量的范畴,因为它将一个时间序列的第i个值与另一个时间序列的第i个值进行比较[Wang2013A]。这使得欧几里得距离对时间序列中模式的噪声、缩放、平移和扩张非常敏感。但另一方面,随着训练数据量的增加,它可以很好地应用于某些应用[Wang2013A]。

另一种方法是用弹性度量计算时间维度中某些非线性变化的相似性不变性。这是通过在动态时间扭曲(DTW) [Ratanamahatana2005A]或LCS[Latecki2005A]中的一对多(一对多)/一对多(一对多)/一对无(一对多)点来实现的。对于许多时间序列数据挖掘问题[Ratanamahatana2005A],DTW距离被认为是很有效的。文献中也提到了基于DTW思想的类似方法。WDTW采用加权方案来防止较大扭曲[Jeong2011A]。导数DTW (DDTW)使用了连续时间值之间的差异[Keogh2001A]。此外,基于编辑距离的方法在这个领域也具有竞争力。使用一个实数惩罚(ERP)的编辑距离[Chen2005A],时间扭曲编辑(TWE)距离[Marteau2009A]和移动-分裂-合并(MSM)基于这种策略的有效方法[Stefan2013A]。

相似度的定义对于“基于相似度的内核”也是至关重要的[Lowe1995A]。这些内核利用时间序列数据的相似性信息。例如,Cuturi提出了一种基于DTW的内核,用于语音识别任务的应用[Cuturi2011A]。基于相似性的内核并不直接比较动态性,而是度量时间序列之间的对齐[Gaidon2011]。大多数时间序列内核(包括相似内核和基于模型的内核)都试图解决时间维度中的某些不变性问题。因此,与计算机视觉文献存在关联,从图像中提取小像素块来解释某些不变性,如位置、尺度等。出于类似思想的启发,最近在时间序列挖掘文献中提出了基于时间序列分段的研究来处理不变性([Baydogan2013A, Grabocka2014A, Lin2012A])。时间序列的特征向量来自于它们的片段,使用一种单词包(BoW)类型的表示[Baydogan2013A]。

这里描述的学习模式相似(LPS)方法也受到BoW方法的启发。LPS首先以类似自回归的方式从时间序列的片段中学习一个表示,然后引入基于这种表示的相似度度量。为了说明LPS的基本原理,我们使用了一个综合时间序列分类问题。考虑一个双类问题,其中来自类1的序列有3个峰值,类2有有两个峰值,不考虑峰值位置。图1a显示了每个类的10个时间序列,其中热点图在x轴表示时间,y轴表示时间序列。图1b绘制了t时刻和t + 1时刻的值,以提供关于AR模型的直观显示。对t时刻的值进行训练以预测t + 1时刻的值的模型称为滞后系数为1的AR模型。从散点图可以看出,AR模型中的线性假设是有限制的。本例中的峰值是非线性自回归操作的主要原因。因此,我们使用一种基于基于树的学习策略的非线性方法对依赖项进行建模。这使我们的模型能够使用健壮的模型捕获更复杂的依赖关系(很少且对参数不敏感)。对于自回归,我们把这些依赖认为是自动模式。对图1中可视化的数据进行回归树训练。树的结构如图2a所示。

图1 20个实例的时间序列数据集。该时间序列长度为400。热图上的x轴表示时间,y轴表示序列值(a)。图(b)展示的是在时间点tt+1位置上的值的散点图。需要注意的是在(2,2)点的位置出现重叠。

图2 图(a)表示在点t观测值处训练回归树预测t+1处的观测值。图(b)表示分别从类别1和类别2的时间序列1和11的相应终端结点分布情况。在每个终端结点的观测频率的水平差异揭示了时间序列的差异。

 

图1中的简单示例(2个峰值对比3个峰值)展示了树如何在时间序列中编码依赖结构。然而,AR建模有可能丢失位置信息,这对于一些时间序列分析问题是很重要的。考虑这样一种情况:单个预测器段不能充分地分离类(例如,峰值的位置决定类型)。假设一个时间序列数据库有两个类的长度为100的时间序列。第1类序列在时间点1和50之间有峰值,而第2类在时间点51和100之间具有相同的峰值。显然,AR(1)模型不能捕获这些序列的差异,因为它为两个类生成相同的表示。在这种情况下,建立随时间变化的自相关模型是十分重要的。因此,LPS不是学习单一的树结构,而是训练一组回归树,以解释多个长度的多个预测片段。通过自相关的广义模型对时间序列中存在的局部自动模式进行编码的概念与图1中的简单示例相同。但是,在集成树中的每个树的分割结点上,段可以改变位置和长度。这类似于在多个滞后系数和多个位置上建模自相关,就像在自回归核[Cuturi2011A]中那样,但是与线性自回归模型相比,它具有更多的表达模型。此外,基于模型的方法通常适用于每个时间序列的模型,并比较它们的参数。对每个系列分别建模是一个迭代的、可能耗时的过程。另一方面,我们的LPS方法同时适用于所有系列的一个自动模式模型。

LPS具有特征空间的递归划分的好处,可以捕获非线性关系和集成算法,以便于辩别特征空间中不同区域的行为。我们还需要区分单个时间序列的模型。在LPS中,每个序列被表示为各个区域值得分布,这些区域是由树学习的递归分区(终端结点)确定的。换句话说,回归树学习依赖相似的区域。然后,对于每个时间序列,使用落在集成学习中每个终端结点的频率表示时间序列。这是图2b中不同类的两个时间序列和一棵树的箱线图。

LPS以一种简单的方式扩展到多变量时间序列(MTS),不需要任何额外的计算成本。MTS相似度的研究大多采用单变量方法,对每个属性之间的距离进行加权,得出最终的相似度测度。这在许多手势识别(Gesture Recognition , GR)任务中很常见[Liu2009A]。例如,[Akl2010A],[Liu2009A]主要研究基于DTW距离的GR。随着多属性和长序列带来的高维性,多变量级数之间的相似度难以计算。此外,当相似度计算在单个序列上时,属性之间的关系没有被考虑,对于某些应用程序来说,这些属性之间的交互作用是有问题的[Baydogan2014A]。我们的LPS相似度度量考虑MTS的各个属性之间的交互。

我们的方法继承了集成树的特性。也就是说,它可以处理数值、分类和顺序数据、非线性和交互效应。它具有尺度不变性,对缺失的值具有鲁棒性。大多数现有的时间序列表示方法都存在处理缺失值或数字以外的数据类型的问题。LPS通过表示学习可以处理模式的扩展和转换(例如,尺度和移位不变性)。这些优点同时适用於单变量和多变量时间序列。此外,LPS允许一个简单的并行实现,这使得它在计算上更加高效。我们的方法和其它公开工作[Frank2010A, Hills2014A, Lines2014A, Olszewski2012A, Rakthanmanon2013A, Sübakan2014A, CMU2012A]。相比在UCR时间序列数据库的基准数据集[Keogh2011A]提供了快速而有竞争力的结果。

LPS为模型依赖关系提供了一种通用的方法,这种方法是非线性的(以及扩展和转换),它概括了自回归的概念。我们把这些依赖关系看作是时间序列中的局部自动模式。因此,LPS为时间序列建模提供了一个研究方向,它打破了线性依赖模型,有可能潜在的促进其它的非线性方法。LPS提供了一个示例模板,用于在时间上生成非线性自动模式,表示时间序列,并生成可用于许多分析任务的相似性度量。这个模板可以作为在LPS上扩展的替代方案的指南。

本文的其余部分组织如下。第2节提供了相关工作的背景和总结。第3部分描述了学习模式和计算相似度的框架。第4节通过对一组完整的基准数据集进行测试,演示了我们提出的方法的有效性和效率。第9节提供的结论。

2  背景和相关工作

一个单变量时间序列xn = { xn (1), xn (2), … , xn (t), …, xn (T)}是一个由T个值得有序集合。我们假设时间序列在等间隔时间点测量。时间序列数据库x存储n个单变量时间序列。

2.1  自回归模型

滞后系数为p得自回归模型,AR(p),是一组线性模型来预测时间t的值。基于前面的xn(t−1), xn(t− 2), …, xn(t p)预测xn(n)。AR(p)模型的形式为:

其中假设平均值为零,回归系数,即 是待估计的参数。给定滞后P,有几种方法来估计系数。通常采用最小二乘估计来求回归系数。这种方法假设误差项 具有独立的高斯(正态)分布,具有零均值和常方差。

AR(p)模型之间的滞后依赖观察。然而,这种类型的AR模型假定线性关系,这对于应用可能是有问题的。此外,最优模型滞后不是先验已知的,并且必须通过滞后选择准则来确定。此外,系数可能随时间而变化,但等式2-1假定在整个时间周期中的关系是相同的。

2.2  回归树

我们的方法使用回归树,但与传统方法有很大不同。回归树划分特征空间以减少目标y在终端结点上的杂质[Breiman1984A]。结点上的杂质通常用误差平方和来测量, ,其中综合和均值 是对分配给结点的实例进行计算。选择分割,以将SSE的加权平均值最小化到子结点上。寻找最佳的分区通常在计算上是不可行的[Hastie2009A]。因此,回归树使用贪婪策略来划分输入空间。分配给终端结点的预测实例m是目标属性的均值 实例的训练集分配给m。这种类型的模型有时被称为分段常数回归模型,因为它们在一组区域中划分预测空间并在每个区域中拟合一个常数值。

2.3  时间序列表示

为了在时间序列数据库中有效地挖掘数据,提出了几种表示方法。我们参考Ratanamahatana等人对这些方法进行详细的分类和描述[Ratanamahatana2010A]。离散表示在时间序列研究中很常见Ratanamahatana等人[Ratanamahatana2010A]。例如,SAX ([Lin2007A]基于固定长度间隔内值的平均值对值进行离散。这个表示类似于前面提到的PAA ([Chakrabarti2002A])。

图3 (a)数据集CBF中时间序列表示;(b)用于获得该表示的训练好的回归树。A是特征空间,b是回归树

 

基于树的时间序列学习分类器的传统角色是以递归的方式使用分段常数模型进行近似[Geurts2001A]。一个流行的基于树的表示使用(t, xn(t))作为时间索引t是唯一的预测因子,而xn(t)是目标[Geurts2001A]。图2-3中可以看到CBF数据集[Keogh2011A]的一个时间序列。一开始,所有值的均值都是0。分歧最小化加权平方误差的总和(SSE)的父结点分区的值为两个结点的值是−0.83和0.42。树递归地分区时间序列值,以贪婪的方式最小化整个SSE。由于时间被用作预测器,所以每个终端结点上的值是连续的,并定义一个区间,如图3a所示。在这个例子中,离散向量有128个元素(时间序列的长度)。

每个终端结点上的值的数量可以用来表示时间序列[Geurts2001A]。定义离散化的终端结点有6个,如图3a所示。仅仅是一个长度为6的向量,可以用来表示整个时间序列([Hastie2009A, Geurts2001A, Geurts2006A, Breiman1984A]; [Keogh2006A]; [Jebara2004A])。

Baydogan和Runger[Baydogan2014A]、[Baydogan2013A]认为基于树的时间序列表示是专门用于分类任务的。前面的工作与这里的方法有很多不同之处。首先,前面的工作使用类属性来表示。此外,[Baydogan2013A]使用了一种完全不同的方法,即在生成代码书之前,从片段中提取简单的特性(如平均值和标准差)。[Baydogan2014A]的工作考虑了结点计数作为一种表示。然而,该过程再次关注了用于分割规则的类属性,并使用了完全不同的数据结构(另外,没有重叠的段)。这里的方法是完全无监督的,我们以不同的方式产生分裂。我们提供了一种新的表示,并开发了一种相似度度量,可用于数据挖掘任务,而不仅仅是分类。

2.4  时间序列相似性

用Lines和Bagnall[Lines2014A]对流行的时间序列相似性度量进行总结和评价。对来自不同领域的75个时间序列分类数据进行了实证比较。得出的结论是,没有任何一项指标能明显优于其他指标[Lines2014A]。结果表明,弹性测量的性能在统计学上没有显著差异。这些数据集中排名前三的算法是WDTW、MSM和DTW,它们都有最好的翘曲窗口(称为DTWBest)。由于这些方法在同一水平上的表现接近,所以使用DTWBest进行比较,这是文献中常见的做法[Batista2014A]。参见[Lines2014A]和[Wang2013A]进一步讨论时间序列相似性度量。

另外,由于多系列间的相似性查找问题不明确,所以多系列间的相似性计算是一项具有挑战性的工作。为了解决这一问题,一般对MTS的各个属性采用基于相似度的方法,对MTS的各个系列的相似度进行加权,得到最终的相似度度量。然而,MTS不仅具有个体属性,而且还具有其关系。

3  基于局部自动模式得时间序列表示方法

LPS通过建模时间序列段之间的关系,从时间序列中学习依赖模式(autopatterns)。我们引入了一个与多个滞后值相关的自相关分割。在将每个时间序列表示为片段的矩阵之后,讨论了基于树的学习策略来发现依赖结构。为每个时间序列生成编码依赖模式的BoW类型表示。在此基础上,提出了一种基于“学习模式相似度”(learning pattern similarity, LPS)的新相似性度量方法。

3.1  基于时间序列分段的递归自动学习算法

我们的方法从每个时间点t =1, 2, …, T L + 1开始提取所有可能的长度为LL < T)划分。这里一个划分指的是在时间上连续的值。一个从时间点t开始的划分定义为 。对于每个时间序列xn,在方程式矩阵Sn中,以每列序列的所有可能的段(tL+1段长度L)为列,生成每个序列的xn的分段矩阵Sn

在生成数据库中的每个时间序列的分段矩阵之后,将行矩阵串联起来,以学习所有时间序列上的依赖关系。我们将这段矩阵表示为SNL×(T-L+1)。我们的方法使用回归树来识别时间序列观测之间的结构依赖关系。在训练基于分段矩阵的回归树之前,随机选择S的第r列作为目标段。然后,我们选择一个回归树,选择一个随机的第p列的段矩阵作为预测器在每个分裂。注意,这里使用的索引p不同于AR(p)模型所使用的滞后参数p。类似于回归树中的分裂选择准则,使用最小化SSE的值作为分裂决策。这在使用第一节中的一个简单例子中说明。其中分裂被确定为T1<1.740247(图2a)。以这种方式训练的回归树学习非线性自回归模型。列的索引确定段的起始时间。因此,滞后水平是由pr的选择决定的。为了允许基于多个(潜在的)不同局部关系发现自动模式,在每个结点上随机选择p。与此相关的随机策略也被证明在[Geurts2006A]等人的另一个回归上下文中表现良好。在每个分割中的p的随机选择也使得LPS建模随时间变化的依赖性。

L的设置基本上在方法中设置滞后水平的上界。显然,滞后不能大于T - L。为了模拟所有可能的滞后水平,我们引入了一种新的学习策略,训练J棵树{ gj, j = 1, 2, …, J },在集成框架中。除了在每个结点上选择一个随机预测器段来考虑多个滞后,每个树在该方法中使用随机段长度。这允许对大量可能的滞后水平进行建模。此外,树的深度被限制为D来控制复杂性。算法1显示了构建单个树的步骤。在步骤6中生成分割值的方法可以被修改以用于计算速度。我们考虑两种分裂策略:“回归”和“随机”分裂。

当所有的时间序列被用于训练时,该算法类似于搜索所有时间序列上的公共模式。每个树生成一个表示,最后的时间序列表示是通过级联获得的。为了简单起见,假设所有的树都包含相同数量的终端结点R。一般情况下很容易处理。让Hjxn)表示时间序列xn从树gj的终端结点中的实例的R维频率向量。我们将树上的频率向量级联起来,得到每一个时间序列的最终表示,表示为H(xn),长度为R×J(并且对于非恒定R明显地修改)。我们的表示基于实例在树上的终端结点分布集合了时间序列中的模式。

对于相同长度的时间序列,提供了描述和示例,但是长度可以不同。在这种情况下,我们的分段提取方案应该被修改。保持相同数量的段,较长的段应提取更长的系列。然后根据分段长度对每个序列进行归一化。

此外,通常需要插值来估计缺失值的时间序列的缺失值。然而,估计方法本身增加了时间序列问题的附加参数。我们提出的方法自然地处理缺失值的数据,而不需要任何额外的步骤,因为基于树的学习隐式地处理具有缺失值的属性[Breiman1984A]。在4.7节中所提出的方法对缺失值的鲁棒性是经验评估的。尽管我们提出的描述是针对数值型时间序列,LPS同样可以应用于类别时间序列如DNA序列。

3.2  扩展到多变量时间序列

MTS是一个M-属性时间序列。在多元场景中,为多元序列的每个属性生成分段矩阵Sn,并将其串接在一起,以获得每个变量序列的大小为L×(M × ( T - L+1))的分段矩阵。

LPS的一个正性质是算法的其余部分保持不变。在树的每个结点的随机选择列的帮助下,对多个属性之间的交互进行建模。这使得我们的方法在不同的滞后水平的广义广义互相关。根据属性的数量,树的数量和深度级别可以被设置为更大,以捕获相关信息。此外,由于每个迭代中的随机段选择,LPS的复杂性不受影响。

3.3  分裂策略

分裂决策是LPS的一个步骤,我们的方法考虑两个分裂策略。在第一个替代方案中,称为“随机分裂”,根据算法1的步骤6中的值的最小值和最大值,从均匀分布中随机地确定分裂值。

第二种选择引入了与回归树中使用的类似的分割。 在这个选择中,算法1中的树构造被稍微修改以学习回归树。 回归树需要一个目标,并且选择一个随机列作为每棵树的目标。 然后,第6步设置拆分值以最小化目标列上的SSE在子结点上的加权平均值。 这种被称为“回归分裂”的替代方案提供了某些益处。 使用回归树方法,与“随机分割”相比,以更智能的方式搜索自动模式。

使用明确的目标函数(即,最小化SSE的加权平均值),选择随机预测器列上的拆分值以将目标值围绕子结点平均水平进行分割。从某种意义上说,分段矩阵(预测器和目标)的两列同时被离散化。如果序列内模式的相关性对于相似性很重要,那么“回归分裂”就有可能更好地发挥作用。换句话说,“回归分裂”模型表示时间段之间的依赖关系,如果这种行为很重要,它有可能很好地工作。这对于MTS尤为重要,因为多个属性之间的关系可能提供有关学习任务的信息。如在“随机分割”情况中那样,来自分段矩阵S的行(分段)被分配给树结点。

用“随机分割”生成分割值的计算速度非常快。 另一方面,“回归分裂”评估每个结点处所有可能的分裂值。 在评估可能的分割位置之前,分类会增加复杂性。这需要更多的计算,但基于树的方法在计算快是众所周知的[Breiman1984A]。这两种策略都在第4节中经验性地进行评估,并且在第4.5节中在划分选择上进行了进一步地讨论。

3.4  差分序列

回归树根据值的平均水平找到段之间的依赖关系。 为了引入表示趋势方面的依赖关系,我们还根据连续值的差异生成分段(在“回归树”的情况下为预测器和目标)。这里,每个时间序列的T-L差分段被生成为

在我们修改的差异方法中,差分列与原始分段矩阵S级联并列,并且从这个扩大后的矩阵中随机选择分段。 因此,在算法1中使用大小为NL×(2T - 2L + 1)的分段矩阵用于表示学习。正如实验中所研究的,潜在地,可以通过这种策略来学习更好的表示。 差异片段的添加不影响复杂性,因为我们的方法在每次迭代中选择一个随机片段。随着差异序列的增加,LPS具有与衍生动态时间规整(DDTW)相似的优点[Keogh2001A]。DDTW通过估计数据的局部导数来基于趋势度量相似度。通过引入差异序列,LPS捕获了相似信息。

3.5  相似性度量

给出了前面描述的表示形式,开发了相似度度量。假设 是H( xn )的第k个元素,那么时间序列xnxn’之间的相似性被设置为:

由于相似性度量计算了表示中匹配值的数量,LPS可以被归类为基于模式的相似性度量。由于片段的随机选择,我们将所有树的相似性集合在一起,如公式4所示。这使我们能够从不同的时滞和位置捕获模式。通过基于模式中最小值的匹配,该度量与基于子序列的相似度方法有一定的关系,例如LCSS [Latecki2005A]。我们的匹配策略也允许我们用这种匹配策略来处理扩张的问题。

我们没有使用公式4-3生成相似度的度量,而是提出了一种不同的度量方法,以从早期放弃[Keogh2005A]等可以在时间序列中加速相似度搜索的包围方案中获益。时间序列xnxn’之间的不相似性被设置为:

式4-4中的不相似测度惩罚了时间序列之间不匹配值的数量。此外,它还提供了与式4中的相似度度量相反的信息。这可以看作如下。假设公式5中的和的绝对值写成:

如果和分布在公式4-5中的项上,我们就得到最大值的和减去最小值的和。表示形式中的项的和是常数B,对于每一个级数,其中B等于每棵树所考虑的段长度之和。因此,

将式4-8代回到式4-5,在式4-9中产生了不相似,与式4-3中的相似测度具有相同的求和项,但带有一个负号。由于式4-9中其余的项都是常数,所以式4-3中的相似点基本上与式4-9中的不相似点相反。

虽然根据DJ的不同,最终表示的长度可以大于时间序列长度,但是它仍然具有计算效率,如第4.4节进一步说明。此外,由于LPS将一个MTS转换为一个单变量向量,因此,边界策略仍然可以与提议描述和相似度度量一起工作。

3.6  参数

我们的方法有四个参数:分割策略、树数J、深度D和子序列长度l。但是,如果在一定范围内设置这些参数,LPS对这些参数的设置是鲁棒的。例如,每棵树都随机选择L。如果不考虑计算时间,J和D可以设置为大。同样,如果训练时间不是问题,“回归分割”是首选。LPS对参数设置非常不敏感,我们通过几个数据集来说明它的健壮性,从而从经验上支持这一观点。

如果有关于应用程序的信息,可能需要相应地设置参数。最重要的参数的方法是L .首先,L上设置一个上限T−L滞后(如前所述)。因此,如果在“回归树”中只有短期依赖关系是重要的,那么L可以设置为大。这样,依赖项在更短的时间窗口中建模。然而,如果长期依赖是重要的,则可能会错过时间序列的有趣模式。考虑到长期依赖关系,更小的L是首选。

L的设置最好使用一种简单的方法来处理,这种方法利用LPS中通常使用的大量树。L不是将L设置为某个级别,而是为每棵树随机设置L。这提供了健壮的性能,如我们的实验中所示,并消除了为l指定一个值的需要。另一种选择是基于训练数据的交叉验证准确性来设置参数。第4节进一步讨论了在实验中如何处理参数。

3.7  算法复杂度

学习表示的时间主要取决于树的训练。建立一棵树的时间复杂度为O(vhβ),其中,

v=1是在每个分裂中评估的特征数,h=n×L是段矩阵中的实例数,β=D是树的深度。因为我们将L设为全时序列长度的比例,所以我们定义γ为L=γT。当我们以随机方式构建J树时,训练的整体复杂度为O(JNTD)。此外,在分割阶段生成S列,以避免不必要的重叠片段的存储。因此,我们提出的方法在内存使用方面是有效的。

测试复杂性是由表示和分类的复杂性决定的。时间序列表示需要遍历树,它是

O(TJD)。分类的时间复杂度类似于表示长度的线性的近邻欧拉距离的复杂度。时间序列用R×J长度向量表示,其中R是终端结点的数目。这里,R由深度参数D确定,并且它是非恒定的。假设R是常数且等于最大可能值,R=2D,LPS的最坏情况测试复杂度为O(NJ2D)。

理论上,测试中LPS的最坏情况复杂度与D的设置成指数关系,但所提出的方法在实践中是非常快的,这在SECT中被进一步讨论。4.4。如果计算时间的一个小的减少是实际关注的,可以使用边界方案来加速这种方法。关于近邻欧拉距离最简单和最著名的方法是提前放弃[Keogh2005A],如前所述。例如,在最近邻分类的LPS相似度计算中,如果到目前为止,每对对应的数据点之间的绝对差异的当前总和超过最佳相似性,则可以停止计算[Keogh2006A]。用这个边界方案可以显著减少计算时间[Rakthanmanon2012A]。

更重要的是,LPS几乎所有的步骤都是尴尬并行的。集合中的树可以并行训练以学习表示。同样,相似性计算可以在多个树上并行进行。这使得LPS非常适合大规模并行环境中的相似性搜索。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章