SPSS(十九)SPSS之时间序列模型（图文+数据集）

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。正如人们常说，人生的出场顺序很重要，时间序列中隐藏着一些过去与未来的关系。时间序列分析试图通过研究过去来预测未来。

时间序列分析在工程、金融、科技等众多领域有着广泛的应用。在大数据时代，时间序列分析已经成为 AI 技术的一个分支，通过将时间序列分析与分类模型相结合，更好的应用于数据检测、预测等场景。

时间序列模型简介

依时间顺序排列起来的一系列观测值（观测值之间不独立）
它考虑的不是变量间的因果关系，而是重点考察变量在时间方面的发展变化规律，并为之建立数学模型
使用时间序列模型的前提：有足够长的数据序列；数据序列的变动是稳定而规律的

另外一种理解方式：假如我们对一件事情研究其背后规律很久的话，可以收集到很多的自变量/影响因素去研究与因变量之间的关系，但是由于各种原因我们做不到，我们只能用一个t(时间)来替代所有的影响因素来研究自变量是如何变化的

时间序列分析面临的问题

时序应该在现实生活中应用的很广，但是为什么不常用这个模型呢？

基础统计数据原因（数据收集）

报表系统——质量问题
统计口径——不统一
范围变化、区域划分——变化

理论和技术培训原因

之前没有好的工具来实现时间序列模型

时间序列的方法分类

Time domain（最为常见的方法）：将时间序列看成是过去一些点的函数，或者认为序列具有随时间系统变化的趋势，它可以用不多的参数来加以描述，或者说可以通过差分、周期等还原成随机序列。
Frequency domain：认为时间序列是由数个正弦波成份叠加而成，当序列的确来自一些周期函数集合时，该方法特别有用。比如心电图

时间序列的构成

并不是每个序列都包含所有4种成分。比如以年为时间单位的序列就不会有季节变化；
一些较短的序列也看不出循环变化。所以在分析的时候得具体情况具体分析。

长期趋势

指一种长期的变化趋势。它采取一种全局的视角，不考虑序列局部的波动

下图，整体呈下降趋势

季节变化(Season)

反映一种周期性的变化一般在一年中完成
虽然称作“季节”，但是周期并不一定是季度，也可以是月、周等其它能在一年内完成的周期。因为，大多数的周期都以季节的形式出现，所以称作季节变化

比较典型的季节变化例子：圣诞节效应；冷饮的销售情况

循环变化(Cyclic)

循环跨度超年

指一种较长时间的周期变化。一般来说循环时间为2－15年。循环变化一般会出现波峰和波谷，呈现一种循环往复的现象。
比如：经济危机

不规则变化(error)

指时间序列中无法预计的部分，也可以理解为误差
序列的随机波动
突发事件引起的
它是无法预测的
在分析中往往又将其称为白噪声

它是时间序列中除去趋势、季节变化和自相关性之后的剩余随机扰动。由于时间序列存在不确定性，随机噪声总是夹杂在时间序列中，致使时间序列表现出某种震荡式的无规律运动。
比如：911事件

时间序列分析对长度的要求

不同的序列分析方法对时间序列分析对长度不一样，建模过程一般都会做差分，差分会损失信息，差分得越多，相应要求的时间序列越长

如果是稳定序列的话，历史数据越多，对预测的帮助越大
如果存在周期，一般需要4个周期以上；数理上认为应当在20个周期以上

假如只有两三个周期，那周期性的分析就没有太大作用了

对于时间序列问题有哪些基本分析思路

看到数据其实不一定要上最复杂的方法

平滑与季节分解（遇到比较简单的序列）

用移动平均的方式消除波动，反映出主要的趋势

回归模型

如果在序列分析中我们考虑到自变量的话，根据历史数据建立相应的回归模型用于预测。甚至来说可以直接把时间当做自变量用于预测，当然我们知道回归时候要求残差是独立的，假如检验出来是非独立的话，我们可以去建一个自回归模型

ARIMA

如果时间序列变化太复杂，我们可以采用ARIMA建模，现在最强大的时序建模方法。真正的时间序列模型建模分析方法

平滑与季节分解

是利用时间序列资料进行短期预测的一种方法。它的基本思想是：除去一些不规则变化后，时间序列将剩下一些基本的变化模式，而这种变化模式将延续到将来。
描述时间序列数据的变化规律和行为，不去试图解释和理解这种变化的原因。例如：您可能发现在过去的一年里，三月和九月都会出现销售的高峰，您可能希望继续保持这样，尽管您不知道为什么。
平滑的主要目的就是除去时间序列的不规则变化，把时间序列的基本变化模式突现出来，作为短期预测的基础。因此也有人把平滑称作“修匀”。
平滑的方法很多。广义上说，可以认为回归也是一种平滑。因为拟合回归曲线可以把杂乱的观测数据修匀得到连续而光滑的曲线。
移动平均和移动中位数等这些不同的平滑技术又被称为平滑器。平滑处理后，可以得到一些新的序列。不同的平滑器得到的新序列是不同的。选择合适的平滑器，寻求最佳的预测效果是平滑处理的关键。

案例：NRC数据的建模预测

美国1947年1月到1969年12月住宅建筑的数据，分析目的是希望能过通过历史数据来预测1970年全年的情况。

数据集

nrc是我们准备用于分析的变量

nrc2又新增了12个月的数据，可以用来评价我们的预测效果

时间序列操作的基本步骤

预处理过程

缺失值的填补

一般这两种方法我们比较常用

时间变量的定义（spss对数据集进行了特殊标记，让spss知道其为序列数据，并非新增三个变量那么简单，必须是刚才进行下面的操作）

时间序列的平稳化

观测原始序列是什么分布，时间刻度这一块随便选一个时间自变量

发现其有长期趋势及季节变化（大概一年）

一次差分（假如序列匀速上升的话，一次差分序列后应该是平的）

继续查看其变化（一次差分作为变量）

确实序列变平了，但是随着时间增加季节变换还是存在的

季节差分（把周期性也干掉），一阶：相邻的两个季节做相减

看季节差分分布分布状况

看到下面的序列，无长期趋势、无季节变换，可认为是一个比较平稳的序列了

但是刚才上面在做一次差分后的序列，可以看出其序列随着时间增长离散程度会慢慢变大，后续分析可以考虑这一点，可以做变量变换。

其实刚才上面的步骤不用那么麻烦，在序列图中即可观察

当前周期：12在哪里设置呢？（在我们刚才定义日期选取的）

关于数据平稳化问题：（非常详细的理论基础）

大家可以参考

https://zhuanlan.zhihu.com/p/60023855

https://zhuanlan.zhihu.com/p/60648709

时间序列趋势的图形化观察

Sequence Chart：序列图

实际上就是一种特殊的线图

Autocorrelation Chart：做单个序列，任意滞后（包括负的滞后，也就是超前）的自相关和偏相关图

对序列图的初步观察结果作进一步确认（检验其是不是白噪声序列）
重点关心主要的相关趋势，然后再对模型进一步修正

刚才我们认为做了一次差分和季节差分真的为平稳序列了吗？

滞后n阶：隔了n个数据的自相关性

Sig.<0.05，证明存在自相关的，不都是白噪声

为了方便查看，给出了图，1到5阶都是存在统计学意义的

自相关系数是有传递性的问题在里面的，spss就会计算偏自相关系数，屏蔽传递的效应后，看剩余的关联是否还存在

自相关拖尾，偏自相关也拖尾，这两个是为了知道我们进行建模的

自相关图：自回归系数的变化
偏相关图：偏回归系数的变化

假如他是以下模型，应满足下面的特征

实际用起来，spss会提供一个自动分析的方法

模型拟合
几乎均可包含在ARIMA模型族中
寻找适当的参数是一个反复尝试的过程

生成 ARIMA 模型的基本步骤：

对序列绘图，进行 ADF 检验，观察序列是否平稳；对于非平稳时间序列要先进行 d 阶差分，转化为平稳时间序列；
经过第一步处理，已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数（ACF）和偏自相关系数（PACF），通过对自相关图和偏自相关图的分析，得到最佳的阶数p、q；
由以上得到的d、q、p ，得到 ARIMA 模型。然后开始对得到的模型进行模型检验。