数据缺失下时间序列相似性度量方法转让专利

申请号 : CN201410095671.0

文献号 : CN103886195B

文献日 : 2015-08-26

相似专利: 请登录后查看

本发明公开了一种能够适应缺失数据的时间序列相似性度量方法。该方法从原始的两个时间序列两两提取数据对，并根据数据缺失情况分为5种，分别计算一阶相似度区间；对一阶相似度区间，两两提取区间计算二阶相似度，并得到二阶相似度向量；最后对二阶相似度向量做平均，得到最终的两个时间序列的相似度。本发明能适应多种场景，方法简单，对数据完整性没有任何要求。

1.数据缺失下时间序列相似性度量方法，其特征在于：假设针对两个时间序列Xi＝(xi1,xi2...)和Xj＝(xj1,xj2...)，时间序列长度都是N，缺失数据表示为NaN，时间序列每个值都有上限下限为0，相似度计算方法如下：

1)两两提取两个时间序列的数据对，设分别对两个时间序列提取第m和第n个数据，得到xjm,xjn和xim,xin，共有对；且每一个数据的约束为

2)针对这对数据中的每一对{xim,xin}和{xjm,xjn}，分为如下五种情况考虑计算相似度区间，该区间称之为一阶相似度：(1)如果数据都不缺失，则按照下面的公式：

最终的数据对相似度区间为：

smn∈[smn′({xim,xin}，{xjm,xjn}),smn′({xim,xin}，{xjm,xjn})]；

(2)如果数据都缺失，也即{xim,xin}＝{NaN,NaN}以及{xjm,xjn}＝{NaN,NaN}，则：smn∈[1,1]；

(3)如果数据只有一个缺失，不失一般性，假设xjn＝NaN，则按照余弦相似度计算思想，两个二元向量的相似度等于二维平面上两个向量的夹角余弦，当xjn空缺，由于xjn有上下限，从而，两个向量的夹角有一个最大值和最小值，从而相似度是一个也区间：smn∈[min(1,cos(Θ1),cos(Θ2)),max(1,cos(Θ1),cos(Θ2))]；

求得

(4)如果两个数据对都有数据缺失，且形式为{xim,xin}＝{xim,NaN}以及{xjm,xjn}＝{xjm,NaN}，则相似度是一个区间：(5)如果两个数据对都有一个缺失，且形式为{xim,xin}＝{xim,NaN}以及{xjm,xjn}＝{NaN,xjn}；或者两个数据对共有三个缺失，形式为{xim,xin}＝{xim,NaN}以及{xjm,xjn}＝{NaN,NaN}，有一个相似度区间：smn∈[0,1]；

3)将每一个smn区间统一表达为表示区间起始值，表示区间结束值，对个相似度区间，再依次两两计算相似度，称之为二阶相似度；假设某一对相似度区间分别为和则它们的相似度smnkj为：可知，smnkj的个数为

4)对二阶相似度向量求平均，最终两个时间序列相似度s(Xi,Xj)为：至此，两个缺失数据的时间序列相似度求出来了。

数据缺失下时间序列相似性度量方法

技术领域

[0001] 本发明涉及一种计算机信息处理中的时间序列相似度计算方法，具体来说是涉及计算有一个或者多个缺失数据且数据的物理约束为[0,上限]情况下的两个时间序列之间的相似性的方法。

背景技术

[0002] 时间序列大量存在于人类社会和自然界中，例如金融时间序列、交通时间序列、温度时间序列等，时间序列相似性能够寻找同类领域诸多相似的时间序列，从而为物理现象和社会现象的分析提供极有利的数据。目前的时间序列相似性方法主要针对没有缺失数据的情况，如果数据缺失，则利用平均值代替、趋势外推法、指数平滑法等来弥补，但是这些弥补需要先验的知识，从而难以保证数据补齐之后的相似性准确度，而且在某些情况下，数据的缺失不能仅仅解释为信息的缺少，有时恰恰能反映更多的数据特征。从而有必要在缺失数据情况下建立时间序列相似性度量方法。

发明内容

[0003] 为了克服现有时间序列度量无法应用于缺失数据情况下，本发明提出一种能在任意缺失情况下计算时间序列相似性的方法。该方法对数据完整程度没有任何要求。

[0004] 本发明解决其技术问题所采用的方法如下述，针对两个时间序列：

[0005] 1）两两提取两个时间序列的数据对。

[0006] 2）将每一对数据缺失情况分为五种，并根据数据缺失情况计算其一阶相似度区间。

[0007] 3）对计算出的若干相似度区间再两两计算相似度得到二阶相似度向量。

[0008] 4）对二阶相似度向量求平均，则得到最终两个时间序列的相似度。

[0009] 本发明的有益效果：由于自然界中的时间序列大多数都有一定的约束（例如速度大于0小于路段限速），能适应多种场景，方法简单，对数据完整性没有任何要求。

附图说明

[0010] 图1是两个含有缺失值的二维向量的相似度计算示意图。

具体实施方式

[0011] 下面对本发明做进一步的详细描述。

[0012] 假设针对两个时间序列Xi＝(xi1,xi2...)和Xj＝(xj1,xj2...)，时间序列长度都是N，时间序列每个值都有上限x，下限为0，相似度计算方法如下：

[0013] 1）两两提取两个时间序列的数据对，设分别对两个时间序列提取第m和第n个数据，得到xjm,xjn和xim,xin，共有对。且每一个数据的约束为

[0014] 2）针对这对数据中的每一对{xim,xin}和{xjm,xjn}，分为如下5种情况考虑计算相似度区间，该区间称之为一阶相似度：

[0015] （1）如果数据都不缺失，则按照下面的公式：

[0016]

[0017] 最终的数据对相似度区间为：

[0018] smn∈[smn′({xim,xin}，{xjm,xjn}),smn′({xim,xin}，{xjm,xjn})][0019] （2）如果数据都缺失，也即{xim,xin}={NaN,NaN}以及{xjm,xjn}={NaN,NaN}，则：

[0020] smn∈[1,1]

[0021] （3）如果数据只有一个缺失，不失一般性，假设xjn=NaN，则按照余弦相似度计算思想，两个二元向量的相似度等于二维平面上两个向量的夹角余弦，如图1所示，当xjn空缺，由于xjn有上下限，从而，两个向量的夹角有一个最大值和最小值，从而相似度是一个也区间：

[0022] smn∈[min(1,cos(Θ1),cos(Θ2)),max(1,cos(Θ1),cos(Θ2))][0023] 可以求得

[0024] （4）如果两个数据对都有数据缺失，且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={xjm,NaN}，则类似，相似度是一个区间：

[0025]

[0026] （5）如果两个数据对都有一个缺失，且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,xjn}；或者两个数据对共有三个缺失，形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,NaN},类似，有一个相似度区间：

[0027] smn∈[0,1]

[0028] 3）对个相似度区间（将每一个smn区间统一表达为表示区间起始值，表示区间结束值），再依次两两计算相似度（由于相似度期间都已知，从而相似度都是一个标量），称之为二阶相似度。假设某一对相似度区间分别为和则它们的相似度smnkj计算方法为：

[0029]

[0030] 可知，smnkj的个数为

[0031] 4）对二阶相似度向量求平均，最终两个时间序列相似度s(Xi,Xj)为：

[0032]

[0033] 至此，两个缺失数据的时间序列相似度求出来了。

数据缺失下时间序列相似性度量方法转让专利

申请号 : CN201410095671.0

文献号 : CN103886195B

文献日 : 2015-08-26

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 祁宏生 , 王殿海 , 许骏 , 叶盈 , 韦薇 , 郑正非 , 蔡正义

申请人 : 浙江大学

摘要 :

权利要求 :

说明书 :