基于SPSS的时间序列分析(转载自某大神)

2024-05-13

1. 基于SPSS的时间序列分析(转载自某大神)

应用背景: 
  
 通过分析序列进行合理预测,做到提前掌握未来的发展趋势,为业务决策提供依据,这也是决策科学化的前提。
  
  时间序列分析: 
  
 时间序列就是按时间顺序排列的一组数据序列。
  
 时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。
  
  分析工具: 
  
 SPSS
  
  实践案例:通过历史数据预测未来数据,所涉及的都是最简单的实践,抛砖引玉,重在方法,不论多复杂的数据,方法是一样的。 
  
 如已知前几年每月的销售量,预测未来的销售量。
  
 一、时间序列分析简介
  
 时间序列分析有 三个基本特点 :
  
 假设事物发展趋势会延伸到未来
  
 预测所依据的数据具有不规则性
  
 不考虑事物发展之间的因果关系
                                          
 并不是所有的时间序列都一定包含四种因素,如以年为单位的诗句就可能不包含季节变动因素。
  
 四种因素通常有 两种组合方式: 
  
 四种因素相互独立,即时间序列是四种因素直接叠加而成的,可用加法模型表示:  Y=T+S+C+I 
  
 四种因素相互影响。即时间序列是四种因素相互综合的结果,可用乘法模型表示: Y=T*S*C*I 
  
 其中,原始时间序列值和长期趋势可用绝对数表示;季节变动、循环变动、不规则变动可用相对数(变动百分比)表示。
  
 二、季节分解法
  
 当我们对一个时间序列进行预测时,应该考虑将上述四种因素从时间序列中分解出来。
  
  为什么要分解这四种因素? 
  
 分解之后,能够克服其他因素的影响,仅仅考量一种因素对时间序列的影响。
  
 分解之后,也可以分析他们之间的相互作用,以及他们对时间序列的综合影响。
  
 当去掉这些因素后,就可以更好的进行时间序列之间的比较,从而更加客观的反映事物变化发展规律。
  
 分解之后,序列可以用来建立回归模型,从而提高预测精度。
  
 所有的时间序列都要分解这四种因素吗?
  
 通常情况下,我们考虑进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余三种因素构成的序列来满足后续分析需求。
  
  为什么只进行季节因素的分解? 
  
 时间序列中的长期趋势反映了事物发展规律,是重点研究的对象;
  
 循环变动由于周期长,可以看做是长期趋势的反映;
  
 不规则变动由于不容易测量,通常也不单独分析。
  
 季节变动有时会让预测模型误判其为不规则变动,从而降低模型的预测精度
  
 综上所述:当一个时间序列具有季节变动特征时,在预测值钱会先将季节因素进行分解。
  
  步骤: 
  
 定义日期标示变量:即先将序列的时间定义好,才能分析其时间特征。
  
 了解序列发展趋势:即序列图,确定乘性还是加性
  
 进行季节因素分解
  
 建模
  
 分析结果解读
  
 预测
  
  1、定义日期标示变量 
  
 时间序列的特点就是数据根据时间点的顺序进行排列,因此分析之前,SPSS需要知道序列的时间定义,然后才能进行分析时间特征。
                                                                                  
 根据源数据的格式进行选择,并输入第一个个案的具体数值。
                                          
 此时会在源文件中生成三个新的变量。
  
  2、了解序列发展趋势 
  
 完成日期标示变量的定义之后,需要先对时间序列的变化趋势有所了解,便于选择合适的模型。即通过序列图,确定模型是乘性还是加性。
                                                                                  
 变量为”销售数据“,时间轴标签为”DATE–“,也就是我们自定义的时间。
                                          
 数据销量序列图
  
  如何根据序列图来判断模型的乘性或加性? 
  
 如果随着时间的推移,序列的季节波动变得越来越大,则建议使用乘法模型。
  
 如果序列的季节波动能够基本维持恒定,则建议使用加法模型。
  
 本例很明显:随着时间变化,销售数据的季节波动越来越大,那么使用乘法模型会更精确。
  
  3、进行季节因素分解 
                                                                                  
 变量为”销售数据“,且根据序列图我们知道时间序列模型为乘性。
  
 提示您会新生成四个变量
                                                                                  
  ERR(误差序列): 从时间序列中移除季节因素、长期趋势、和循环变动之后留下的序列,也就是原始序列中的不规则变动构成的序列。
  
  SAS(季节因素校正后序列): 是移除原始序列中的季节因素后的校正序列。
  
  SAF(季节因子): 是从序列中分解出的季节因素。其中的变量值根据季节周期的变动进行重复,如本例中季节周期为12个月,所以这些季节因子没12个月重复一次。
  
  STC(长期趋势和循环变动趋势): 这是原始序列中长期趋势和循环变动构成的序列。
                                          
 如图,周期为12个月,季节因子12个月循环一次。
  
 完成季节因素分解后的序列和原始序列之间有什么差异?
  
 通过回执序列图的方法把原始序列和除去季节因子的三个序列(误差序列、季节因素校正后序列、长期无视和循环变动序列)进行比较。
                                                                                  
 要做四个序列图,会有四个变量:
  
  原始序列 :使用变量”销售数据“;
  
  误差序列 :使用变量”ERR“;
  
  季节因素校场后序列 :使用变量”SAS“
  
  长期趋势和循环变动序列 :使用变量”STC“
                                          
 蓝色线:原始序列
  
 紫色线:长期趋势和循环变动序列
  
 浅棕色:季节因素校正后序列
  
 绿色线:误差序列(不规则变动)
  
 因为误差序列数值非常小,所以长期趋势和循环变动序列(长期趋势+循环变动)与季节因素校正后序列(长期趋势+循环变动+不规则变动,即误差)能够基本重合。
  
 在单独做”季节因子SAF“的序列图:
                                          
 因为是做”季节因子“的序列图,所以只有一个变量”季节因子SAF“
                                          
 我们看出:季节因素的周期是12个月,先下降,然后上升到第一个顶点,再有略微的下降后,出现明显的上升趋势,到第七个月时达到峰值,然后一路下跌,直到最后一个月份有所回升,之后进入第二个循环周期。
  
 通过对原始序列的季节分解,我们更好的掌握了原始序列所包含的时间特征,从而选用适当的模型进行预测。
  
 三、专家建模法
  
 时间序列的预测步骤有四步:
  
 绘制时间序列图观察趋势
  
 分析序列平稳性并进行平稳化
  
 时间序列建模分析
  
 模型评估与预测
  
 平稳性主要是指时间序列的所有统计性质都不会随着时间的推移而发生变化。
  
 对于一个平稳的时间序列,具备以下特征:
  
 均数和方差不随时间变化
  
 自相关系数只与时间间隔有关,与所处的时间无关
  
 自相关系数是研究序列中不同时期的相关系数,也就是对时间序列计算其当前和不同滞后期的一系列相关系数。
  
 平稳化的方法——差分。
  
 差分就是指序列中相邻的两期数据之差。
  
 一次差分=Yt-Yt-1
  
 二次差分=(Yt-Yt-1)-(Yt-1-Yt-2)
  
 具体的平稳化操作过程会有专家建模法自动处理,我们只需要哼根据模型结果独处序列经过了几阶差分即可。
  
 时间序列分析操作:
                                                                                  
 要分析所有变量,所以选择”销售数据“。
  
 【专家建模器】–【条件】,勾选”专家建模器考虑季节性模型“。
                                          
 勾选”预测值“,目的是生成预测值,并保存模型。
  
  时间序列分析结果解读 
                                          
 该表显示了经过分析得到的最优时间序列模型及其参数,最优时间U型猎魔性为ARIMA(0,1,1)(0,1,1)
  
 求和自回归移动平均模型ARIMA(p,d,q)(P,D,Q)
  
 p:出去季节性变化之后的序列所滞后的p期,通常为0或1,大于1的情况很少;
  
 d:除去季节性变化之后的序列进行了d阶差分,通常取值为0,1或2;
  
 q:除去季节性变化之后的序列进行了q次移动平均,通常取值0或1,很少会超过2;
  
 P,D,Q分别表示包含季节性变化的序列所做的事情。
  
  因此本例可解读为:  对除去季节性变化的序列和包含季节性变化的序列分别进行了一阶差分和一次移动平均,综合两个模型而建立出来的时间序列模型。 
                                          
  该表主要通过R方或平稳R方来评估模型拟合度,以及在多个模型时,通过比较统计量找到最优模型。 
  
 由于原始变量具有季节性变动因素,所以平稳的R方更具有参考意义,等于32.1%,拟合效果一般。
                                          
  该表提供了更多的统计量可以用来评估时间序列模型的拟合效果。 
  
 虽然平稳R方仅仅是32.1%,但是”杨-博克斯Q(18)“统计量的显著性P=0.706,大于0.05(此处P>0.05是期望得到的结果),所以接受原假设,认为这个序列的残差符合随机分布,同时没有离群值出现,也都反映出数据的拟合效果还可以接受。
  
  时间序列应用预测: 
                                                                                  
 未来一年是到2016年12月,手动输入即可。
                                          
 这是未来一年的销售趋势。
  
 如果想从全局来观察预测趋势,可以在把这一年的趋势和以前的数据连接起来
                                                                                  
 此时的变量应该是”原始的销售数量“和”2016年的预测销售数量“。
  
 结果如下:
                                          
 也可以在表中查看具体的数值:

基于SPSS的时间序列分析(转载自某大神)

2. SPSS时间序列 应用时间序列模型

SPSS时间序列:应用时间序列模型
一、应用时间序列模型(分析-预测-应用模型)
“应用时间序列模型”过程从外部文件加载现有的时间序列模型,并将它们应用于活动数据集。使用此过程,可以在不重新建立模型的情况下获得其新数据或修订数据可用的序列的预测值。模型是使用时间序列建模器过程生成的。
1、示例。假定您是一家大型零售店的库存经理,您负责管理5,000种产品。您曾使用专家建模器创建了一些模型,用来预测每种产品在未来三个月的销售情况。您的数据仓库每个月都会使用实际销售数据进行刷新,您希望使用这些数据来生成每月更新预测值。通过?应用时间序列模型?过程,您可以使用原有模型,然后只需重新估计模型参数以说明新数据即可实现此预测。
2、统计量。拟合优度测量:平稳的R方、R方(R2)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对误差百分比(MAPE)、最大绝对误差(MaxAE)、最大绝对误差百分比(MaxAPE)、标准化BIC准则。残差:自相关函数、偏自相关函数、Ljung-Box Q。图。跨所有模型的摘要图:平稳的R方、R方(R2)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对误差百分比(MAPE)、最大绝对误差(MaxAE)、最大绝对误差百分比(MaxAPE)、标准化BIC准则的直方图;残差自相关和偏自相关的箱图。单个模型的结果:预测值、拟合值、观察值、置信区间的上限和下限、残差自相关和偏自相关。
二、统计量(分析-预测-应用模型-统计量)
1、比较模型的统计量。这组选项控制如何显示包含所有模型的统计量的表。每个选项分别生成单独的表。可以选择以下选项中的一个或多个:
1.1、拟合优度。固定的R方、R方、均方根误差、平均绝对误差百分比、平均绝对误差、最大绝对误差百分比、最大绝对误差以及标准化的BIC准则的摘要统计量和百分位数表。
1.2、残差自相关函数(ACF)。所有估计模型中残差的自相关摘要统计和百分位表。此表只在重新估计模型参数时可用(?模型?选项卡上的根据数据重新估计)。
1.3、残差部分自相关函数(PACF)。所有估计模型中残差的部分自相关摘要统计和百分位表。此表只在重新估计模型参数时可用(?模型?选项卡上的根据数据重新估计)。
2、个别模型的统计量。这组选项控制如何显示包含每个模型的详细信息的表。每个选项分别生成单独的表。可以选择以下选项中的一个或多个:
2.1、参数估计。显示每个模型的参数估计值的表。为指数平滑法和ARIMA模型显示不同的表。如果存在离群值,则它们的参数估计值也将在单独的表中显示。
2.2、残差自相关函数(ACF)。按每个估计模型的延迟显示残差自相关表。该表包含自相关的置信区间。此表只在重新估计模型参数时可用(?模型?选项卡上的根据数据重新估计)。
1.3、残差部分自相关函数(PACF)。按每个估计模型的延迟显示残差部分自相关表。该表包含部分自相关的置信区间。此表只在重新估计模型参数时可用(?模型?选项卡上的根据数据重新估计)。
3、显示预测值。显示每个模型的模型预测值和置信区间的表。
三、图表(分析-预测-应用模型-图表)
序列。选择(选中)此选项可获取每个模型的预测值的图。只有在重新估计模型参数时(?模型?选项卡上的根据数据重新估计),观察值、拟合值、拟合值的置信区间以及自相关才可用。可以选择在图中包含以下一项或多项:
◎观察值。相依序列的观察值。
◎预测值。预测期的模型预测值。
◎拟合值。估计期的模型预测值。
◎预测值的置信区间。预测期的置信区间。
◎拟合值的置信区间。估计期的置信区间。
残差自相关函数(ACF)。显示每个估计模型的残差自相关图。
残差部分自相关函数(PACF)。显示每个估计模型的残差部分自相关图。
四、输出过滤(分析-预测-应用模型-输出过滤)
1、最佳拟合模型。选择(选中)此选项将在输出中包含最佳拟合模型。选择拟合优度测量并指定要包含的模型数。选择此选项不妨碍同时选择最差拟合模型。如果同时选择两者,则输出将由最差拟合模型和最佳拟合模型组成。
1.1、模型的固定数量。指定为n个最佳拟合模型显示结果。如果指定的数量超过模型的总数,则显示所有模型。
1.2、占模型总数的百分比。指定为其拟合优度值在所有模型的前n个百分比范围内的模型显示结果。
2、最差拟合模型。选择(选中)此选项将在输出中包含最差拟合模型。选择拟合优度测量并指定要包含的模型数。选择此选项不妨碍同时选择最佳拟合模型。如果同时选择两者,输出将由最佳拟合模型和最差拟合模型组成。
2.1、模型的固定数量。指定为n个最差拟合模型显示结果。如果指定的数量超过模型的总数,则显示所有模型。
2.2、占模型总数的百分比。指定为其拟合优度值在所有模型的后n个百分比范围内的模型显示结果。3、拟合优度。选择用于过滤模型的拟合优度测量。缺省值为固定的R方。

3. 数据分析之时间序列分析

顾名思义,时间序列就是按照时间顺利排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。该技术有以下三个基本特点:
  
 1.假设事物发展趋势会延伸到未来;
  
 2.预测所依据的数据具有不规则性;
  
 3.不考虑事物发展之间的因果关系。
  
 对时间序列进行分析的最终目的,是要通过分析序列进行合理预测,做到提前掌握其未来发展趋势,以此为业务决策提供依据。
                                          
  移动平均法和指数平滑法的局限 
  
 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料逐项推移,依次计算包含一定项数的序时平均值,以反映长期趋势。但这种方法不适合预测具有复杂趋势的时间序列。指数平滑法是移动平均法的改进方法,通过对历史数据的远近不同赋予不同的权重进行预测。但在实际应用中,指数平滑法的预测值通常会滞后于实际值,尤其是所预测的时间序列存在长期趋势时,这种滞后的情况更加明显。
  
 在实际进行时间序列预测时,遇到的数据会比较复杂,所以我们需要用到更专业的预测方法来对数据进行合理预测。通常情况下一个时间序列包含四种因素,它们会通过不同的组合方式影响时间序列的发展变化。
                                          
 时间序列四种因素有两种组合方式。
  
 1.四种因素相互独立,即时间序列是由四种因素直接叠加而形成的,可用加法模型表示:
  
 Y=T+S+C+I
  
 2.四种因素相互影响,即时间序列是综合四种因素而形成的,可用乘法模型表示:
  
 Y=T×S×C×I,通常遇到的时间序列都是乘法模型。其中,原始时间序列值和长期趋势可用绝对数表示,季节变动、循环变动和不规则变动则用相对数(通常是变动百分比)表示。
  
 当我们需要对一个时间序列进行预测时,需要将上述四种因素从时间序列中分解出来。原因是:
  
 1.把因素从时间序列中分解出来后,就能克服其他因素的影响,仅考量某一种因素对时间序列的影响;
  
 2.分解这四种因素后,也可以分析他们之间的相互作用,以及它们对时间序列的综合影响;
  
 3.当去掉某些因素后,就可以更好地进行时间序列之间的比较,从而更加客观地反映事物变化发展规律;
  
 4.分解这些因素后的序列可以用于建立回归模型,从而提高预测精度。
  
 通常情况,我们会考虑进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余的三种因素构成的序列来满足后续分析需求。
  
 如果时间序列图的趋势随着时间的推移,序列的季节波动变得越来越大,则建议使用乘法模型;如果序列的季节波动能够基本维持恒定,则建议使用加法模型。
  
 时间序列的预测步骤主要分为四步:
  
 (1)绘制时间序列图观察趋势;
  
 (2)分析序列平稳性并进行平稳化;
  
 (3)时间序列建模分析;
  
 (4)模型评估与预测;
  
 平稳性是指时间序列的所有统计性质都不会随着时间的推移而发生变化,对于一个平稳的时间序列来说,需要具有以下特征:
  
 (1)均数和方差不随时间变化;
  
 (2)自相关系数只与时间间隔有关,与所处的时间无关。
  
 相关系数是用来量化变量之间的相关程度。自相关系数研究的是一个序列中不同时期的相关系数,也就是时间序列计算其当前期和不同滞后期的一系列相关系数。
  
 目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的,但是实际上,我们遇到的大多数时间序列都不平稳,所以在分析时,需要首先识别序列的平稳性,并且把不平稳的序列转换为平稳序列。一个时间序列只有被平稳化处理过,才能被控制和预测。
  
 将时间序列平稳化的方式有很多,基础的方法是差分,因为这个方法有助于我们解读时间序列模型。差分,就是指序列中前后相邻的两期数据之差。
                                          
 ARIMA模型是时间序列分析中常用的一种模型,其全称为求和自回归移动平均模型。该模型形式为:ARIMA(p,d,q)(P,D,Q)。该模型有6个参数,前3个参数(p,d,q)针对季节性变化后的序列,后三个参数(P,D,Q)主要用来描述季节性变化,两个序列是相乘的关系,因此,该模型也称为复合季节模型。
                                          
 其中:p,是指移除季节性变化后的序列所滞后的p期,取值通常为0或1,大于1的情况较少;d,是指移除季节性变化后的序列进行了d阶差分,取值通常为0、1或2;q,是指移除季节性变化后的序列进行了q次移动平均,取值通常为0或1,很少会超过2。大写的P,D,Q的含义相同,只是应用在包含季节性变化的序列上。本例中,该模型可解读为,对移除季节因素的序列和包含季节因素的序列分别进行一阶差分和一次移动平均,综合两个模型而构建出的时间序列模型。
                                          
 模型拟合度主要通过R平方或平稳的R平方来评估模型拟合优度,以及在比较多个模型的情况下,通过比较统计量从而找到最优模型。本例中,由于原始序列具有季节变动因素,所以,平稳的R平方则更具参考意义。该值等于32.1%,所以,该时间序列模型的拟合效果一般。
                                          
 模型统计提供了更多的统计量用以评估时间序列的数据拟合效果。本例中,虽然平稳的R平方值为32.1%,但是“杨-博克斯Q(18)”统计量的显著性(P值)=0.706,大于0.05(此处的显著性(P值)>0.05是期望得到的结果),则接受原假设,认为这个序列的残差符合随机序列分布,同时也没有离群值的出现,这些也都反映出数据的拟合效果还是可以接受的。

数据分析之时间序列分析

4. SPSS时间序列 频谱分析

SPSS时间序列:频谱分析
一、频谱分析(分析-预测-频谱分析)
“频谱图”过程用于标识时间序列中的周期行为。它不需要分析一个时间点与下一个时间点之间的变异,只要按不同频率的周期性成分分析整体序列的变异。平滑序列在低频率具有更强的周期性成分;而随机变异(“白噪声”)将成分强度分布到所有频率。不能使用该过程分析包含缺失数据的序列。
1、示例。建造新住房的比率是一个国家/地区经济的重要晴雨表。有关住房的数据开始时通常会表现出一个较强的季节性成分。但在估计当前数字时,分析人员需要注意数据中是否呈现了较长的周期。
2、统计量。正弦和余弦变换、周期图值和每个频率或周期成分的谱密度估计。在选择双变量分析时:交叉周期图的实部和虚部、余谱密度、正交谱、增益、平方一致和每个频率或周期成分的相位谱。
3、图。对于单变量和双变量分析:周期图和频谱密度。对于双变量分析:平方一致性、正交谱、交叉振幅、余谱密度、相位谱和增益。
4、数据。变量应为数值型。
5、假设。变量不应包含任何内嵌的缺失数据。要分析的时间序列应该是平稳的,任何
非零均值应该从序列中删除。
平稳.要用ARIMA模型进行拟合的时间序列所必须满足的条件。纯的MA序列是平稳
的,但AR和ARMA序列可能不是。平稳序列的均值和方差不随时间改变。
二、频谱图(分析-预测-频谱分析)
1、选择其中一个“频谱窗口”选项来选择如何平滑周期图,以便获得谱密度估计值。可用的平滑选项有“Tukey-Hamming”、“Tukey”、“Parzen”、“Bartlett”、“Daniell(单元)”和“无”。
1.1、Tukey-Hamming.权重为Wk = .54Dp(2 pi fk) + .23Dp(2 pi fk + pi/p) + .23Dp (2pi fk - pi/p),k = 0, ..., p,其中p是一半跨度的整数部分,Dp是阶数p的Dirichlet内核。
1.2、Tukey.权重为Wk = 0.5Dp(2 pi fk) + 0.25Dp(2 pi fk + pi/p) + 0.25Dp(2 pi fk -pi/p),k = 0, ..., p,其中p是一半跨度的整数部分,Dp是阶数p的Dirichlet内核。
1.3、Parzen.权重为Wk = 1/p(2 + cos(2 pi fk))(F[p/2] (2 pi fk))**2,k=0, ... p,其中p是一半跨度的整数部分,而F[p/2]是阶数p/2的Fejer内核。
1.4、Bartlett.谱窗口的形状,窗口上半部分的权重按如下公式计算:Wk =Fp(2*pi*fk),k = 0, ...p,其中p是半跨度的整数部分,Fp是阶数p的Fejer内核。下半部分与上半部分对称。
1.5、Daniell(单元).所有权重均等于1的频谱窗口形状。
1.6、无.无平滑。如果选择了此选项,则频谱密度估计与周期图相同。
2、跨度.一个连续值范围,在该范围上将执行平滑。通常使用奇数。较大的跨度对谱密度图进行的平滑比较小的跨度程度大。
3、变量中心化.调整序列以使在计算谱之前其均值为0,并且移去可能与序列均值关联的较大项。
4、图。周期图和谱密度对单变量分析和双变量分析均可用。其他所有选项仅对双变量分析可用。
4.1、周期图.针对频率或周期绘制的未平滑谱振幅图(绘制在对数刻度中)。低频率变动是平滑序列的特征。均匀地分布在所有频率上的变动则表示“白噪音”。
4.2、平方一致性.两个序列的增益的乘积。
4.3、正交谱.交叉周期图的虚部,是两个时间序列的异相频率成分的相关性的测量。成分的异相为pi/2弧度。
4.4、交叉振幅.余谱密度平方和正交谱平方之和的平方根。
4.5、谱密度.已进行平滑而移去了不规则变动的周期图。
4.6、余谱密度.交叉周期图的实部,是两个时间序列的同相频率分量的相关性的测量。
4.7、相位谱.一个序列的每个频率成分提前或延迟另一个序列的程度的测量。4.8、增益.用一个序列的谱密度除以跨振幅的商。这两个序列都有自己的获得值。

5. 时间序列数据分析方法

时间序列数据聚类方法主要包括两种思路:
  
  
 一种是通过时间序列进行压缩降维,转换成静态数据,如通过特征提取、模型参数等方式,再使用静态数据方法进行聚类;另一种是通过改进传统的面向静态数据的点聚类方法,使之适用于序列数据类型。
  
 (1)基于初始数据的聚类
  
 一般指不对初始数据进行压缩,直接进行聚类。可以有效捕捉时间序列的细节,不丢失局部特征,但是数据量大的情况下计算效率降低。
  
 (2)基于特征数据的聚类
  
 通过时域分析、频域分析等方法,提取时间序列的多尺度特征,从而把高维的原始数据序列转换到用特征向量表示的低维特征空间。
  
 (3)基于模型的聚类
  
 基本思路是在基于一定的假设条件,用模型拟合原始序列,再用模型是否能生成另外一个序列作为两个时间序列是否属于同一类的评价指标,或者用模型的参数作为该序列的特征再进行聚类。特点是聚类结果不稳定,对模型依赖性很强,难以可视化。

时间序列数据分析方法

6. 16种常用的数据分析方法-时间序列分析

 
                                           
     
   时间序列(time series)是系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其它各种因素影响的总结果。
     
   研究时间序列主要目的可以进行预测,根据已有的时间序列数据预测未来的变化。时间序列预测关键:确定已有的时间序列的变化模式,并假定这种模式会延续到未来。
     
     
     
     
     
   
                                           
     
    时间序列的基本特点 
     
   假设事物发展趋势会延伸到未来
   预测所依据的数据具有不规则性
   不考虑事物发展之间的因果关系
   时间序列数据用于描述现象随时间发展变化的特征。
     
     
     
     
     
   
                                           
     
    时间序列考虑因素 
     
   时间序列分析就其发展历史阶段和所使用的统计分析方法看分为传统的时间序列分析和现代时间序列分析,根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。
     
   时间序列分析时的主要考虑的因素是:
     
    l长期趋势(Long-term trend)  
     
   时间序列可能相当稳定或随时间呈现某种趋势。
   时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function)。
     
    l季节性变动(Seasonal variation) 
     
   按时间变动,呈现重复性行为的序列。
   季节性变动通常和日期或气候有关。
   季节性变动通常和年周期有关。
     
    l周期性变动(Cyclical variation) 
     
   相对于季节性变动,时间序列可能经历“周期性变动”。
   周期性变动通常是因为经济变动。
     
    l随机影响(Random effects) 
     
   除此之外,还有偶然性因素对时间序列产生影响,致使时间序列呈现出某种随机波动。时间序列除去趋势、周期性和季节性后的偶然性波动,称为随机性(random),也称不规则波动(irregular variations)。
     
     
     
     
     
   
                                           
     
    时间序列的主要成分 
     
   时间序列的成分可分为4种:
     
   l趋势(T)、
   l季节性或季节变动(S)、
   l周期性或循环波动(C)、
   l随机性或不规则波动(I)。
     
   传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式予以表达,而后分别进行分析。
     
     
     
     
     
   
                                           
     
    时间序列建模基本步骤 
     
   1)用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
     
   2)根据动态数据作相关图,进行相关分析,求自相关函数。
     
   相关图能显示出变化的趋势和周期,并能发现跳点和拐点。
     
   跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。
     
   拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。
     
   3)辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。
     
   对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。
     
   对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。
     
   当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
     
     
     
     
     
   
                                           
     
    spss时间序列分析过程 
       
    第一步:定义日期标示量: 
     
   打开数据文件,单击"数据",选择"定义日期和时间",弹出"定义日期"对话框,
     
   数据中的起始时间就是数据文件里面的单元格第一个时间,我的第一个是1997年8月,每行表示的是月度销售量,因此,需要从"定义日期"对话框的左侧"个案是"框中选择"年,月",在左侧输入‘1997’,月框中输入‘8’,表示第一个个案的起始月是1997年8月,
     
   最后点击确认,这样spss数据文件里面就会生成3个新的变量
   
   如下图:
     
   
                                           
     
    第二步:了解时间序列的变化趋势 
     
   了解时间序列的变化趋势做一个序列表就可以了,单击"分析",里面选择"时间序列预测,选择"序列图"对话框,然后把'平均值'移到"变量"框里面,‘DATE_’移到"时间轴标签"框中,单击"确定"。结果如图
     
       
                                           
     
   根据序列图的分析知道,序列的波动随着季节的波动越来越大,所以我们选择乘法模型;
     
    第三步:分析 
     
   单击“分析”,选择时间序列预测,然后选择“季节性分解”,弹出“季节性分解”对话框,确认无误之后点击确定,如图:
     
   
                                           
     
   多了四个变量:
     
   lERR表示误差分析;
   lSAS表示季节因素校正后序列;
   lSAF表示季节因子;
   lSTC表示长期趋势和循环变动序列。
     
   我们可以把新出现的四个变量、平均值和DATE_做序列图。先把ERR、SAS、STC和平均值和DATE_做个序列图,效果如下:
     
   
                                           
     
   再单独做个SAT和DATE_的时间序列图
     
   
                                           
    
    第四步:预测 
     
   1、 单击“分析”,选择“时间序列预测”,然后选择“创建传统模型”,之后就会弹出“时间序列建模”对话框。
     
   2、 将“平均值”移至“因变量”框中,然后确定中间的“方法”,在下拉列表中选择“专家建模器”项,单击右侧的“条件”按钮,弹出“时间序列建模器:专家建模器条件”对话框。
     
   3、 在“时间序列建模器:专家建模器条件”对话框的“模型”选项卡中,在“模型类型”框中选择“所有模型”项,并勾选“专家建模器考虑季节性模型”复选框,设置完,点“继续”按钮
     
   4、 在“时间序列建模器”对话框中,切换至“保存”选项卡中,勾选“预测值”复选框,单击“导出模型条件”框中“XML文件”后面的“浏览”按钮,然后设置导出的模型文件和保存路径,然后单击“确定”按钮就可以了。
     
   做完上面的步骤之后,在原始数据上面就又会多一列预测值出现。如图:
     
   
                                           
    
   之前保存了预测的模型,我们现在就利用那个模型进行预测数据。
     
   1、 单击“分析”,选择“时间序列预测”,然后选择“应用传统模型”,弹出“应用模型序列”对话框。具体的操作如下图:
     
   
                                           
    
   最后一步切换至“保存”界面,勾选“预测值”之后单击确定就可以了。
     
   
                                           
         
   
                                           
     
   从预测值直接看看不出来,可以把预测的数据和原始数据放到一起看下,也是直接做序列图就可以。
     
   
                                           
   
   这样就完成了一次时间序列的模型,具体的预测数据可以看原始数据上面的出现的新的一列数据。
     
   - End -
     

7. 时间序列分析与SAS应用的介绍

SAS软件是国际上流行的统计分析的标准软件,本教材只介绍与时间序列有关的程序编写和结果分析。本教材主要介绍时间序列的概念、奇异点的诊断、自相关分析、偏自相关分析、时序模型的识别、时序模型参数的估计、预测以及多元时间序列分析。《时间序列分析与SAS应用》既可作为数学与信息专业、统计专业、经济管理专业以及工程方面的本科生教材,也可以作为科技工作者的参考书。

时间序列分析与SAS应用的介绍

8. 时间序列数据分析步骤

时间序列数据分析步骤如下:
1、用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。

2、根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。
3、拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。

4、辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。
5、对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。
6、对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。