数据缺失下时间序列相似性度量方法转让专利

申请号 : CN201410095671.0

文献号 : CN103886195B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 祁宏生王殿海许骏叶盈韦薇郑正非蔡正义

申请人 : 浙江大学

摘要 :

本发明公开了一种能够适应缺失数据的时间序列相似性度量方法。该方法从原始的两个时间序列两两提取数据对,并根据数据缺失情况分为5种,分别计算一阶相似度区间;对一阶相似度区间,两两提取区间计算二阶相似度,并得到二阶相似度向量;最后对二阶相似度向量做平均,得到最终的两个时间序列的相似度。本发明能适应多种场景,方法简单,对数据完整性没有任何要求。

权利要求 :

1.数据缺失下时间序列相似性度量方法,其特征在于:假设针对两个时间序列Xi=(xi1,xi2...)和Xj=(xj1,xj2...),时间序列长度都是N,缺失数据表示为NaN,时间序列每个值都有上限 下限为0,相似度计算方法如下:

1)两两提取两个时间序列的数据对,设分别对两个时间序列提取第m和第n个数据,得到xjm,xjn和xim,xin,共有 对;且每一个数据的约束为

2)针对这 对数据中的每一对{xim,xin}和{xjm,xjn},分为如下五种情况考虑计算相似度区间,该区间称之为一阶相似度:(1)如果数据都不缺失,则按照下面的公式:

最终的数据对相似度区间为:

smn∈[smn′({xim,xin},{xjm,xjn}),smn′({xim,xin},{xjm,xjn})];

(2)如果数据都缺失,也即{xim,xin}={NaN,NaN}以及{xjm,xjn}={NaN,NaN},则:smn∈[1,1];

(3)如果数据只有一个缺失,不失一般性,假设xjn=NaN,则按照余弦相似度计算思想,两个二元向量的相似度等于二维平面上两个向量的夹角余弦,当xjn空缺,由于xjn有上下限,从而,两个向量的夹角有一个最大值和最小值,从而相似度是一个也区间:smn∈[min(1,cos(Θ1),cos(Θ2)),max(1,cos(Θ1),cos(Θ2))];

求得

(4)如果两个数据对都有数据缺失,且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={xjm,NaN},则相似度是一个区间:(5)如果两个数据对都有一个缺失,且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,xjn};或者两个数据对共有三个缺失,形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,NaN},有一个相似度区间:smn∈[0,1];

3)将每一个smn区间统一表达为 表示区间起始值, 表示区间结束值,对 个相似度区间,再依次两两计算相似度,称之为二阶相似度;假设某一对相似度区间分别为 和 则它们的相似度smnkj为:可知,smnkj的个数为

4)对二阶相似度向量求平均,最终两个时间序列相似度s(Xi,Xj)为:至此,两个缺失数据的时间序列相似度求出来了。

说明书 :

数据缺失下时间序列相似性度量方法

技术领域

[0001] 本发明涉及一种计算机信息处理中的时间序列相似度计算方法,具体来说是涉及计算有一个或者多个缺失数据且数据的物理约束为[0,上限]情况下的两个时间序列之间的相似性的方法。

背景技术

[0002] 时间序列大量存在于人类社会和自然界中,例如金融时间序列、交通时间序列、温度时间序列等,时间序列相似性能够寻找同类领域诸多相似的时间序列,从而为物理现象和社会现象的分析提供极有利的数据。目前的时间序列相似性方法主要针对没有缺失数据的情况,如果数据缺失,则利用平均值代替、趋势外推法、指数平滑法等来弥补,但是这些弥补需要先验的知识,从而难以保证数据补齐之后的相似性准确度,而且在某些情况下,数据的缺失不能仅仅解释为信息的缺少,有时恰恰能反映更多的数据特征。从而有必要在缺失数据情况下建立时间序列相似性度量方法。

发明内容

[0003] 为了克服现有时间序列度量无法应用于缺失数据情况下,本发明提出一种能在任意缺失情况下计算时间序列相似性的方法。该方法对数据完整程度没有任何要求。
[0004] 本发明解决其技术问题所采用的方法如下述,针对两个时间序列:
[0005] 1)两两提取两个时间序列的数据对。
[0006] 2)将每一对数据缺失情况分为五种,并根据数据缺失情况计算其一阶相似度区间。
[0007] 3)对计算出的若干相似度区间再两两计算相似度得到二阶相似度向量。
[0008] 4)对二阶相似度向量求平均,则得到最终两个时间序列的相似度。
[0009] 本发明的有益效果:由于自然界中的时间序列大多数都有一定的约束(例如速度大于0小于路段限速),能适应多种场景,方法简单,对数据完整性没有任何要求。

附图说明

[0010] 图1是两个含有缺失值的二维向量的相似度计算示意图。

具体实施方式

[0011] 下面对本发明做进一步的详细描述。
[0012] 假设针对两个时间序列Xi=(xi1,xi2...)和Xj=(xj1,xj2...),时间序列长度都是N,时间序列每个值都有上限x,下限为0,相似度计算方法如下:
[0013] 1)两两提取两个时间序列的数据对,设分别对两个时间序列提取第m和第n个数据,得到xjm,xjn和xim,xin,共有 对。且每一个数据的约束为
[0014] 2)针对这 对数据中的每一对{xim,xin}和{xjm,xjn},分为如下5种情况考虑计算相似度区间,该区间称之为一阶相似度:
[0015] (1)如果数据都不缺失,则按照下面的公式:
[0016]
[0017] 最终的数据对相似度区间为:
[0018] smn∈[smn′({xim,xin},{xjm,xjn}),smn′({xim,xin},{xjm,xjn})][0019] (2)如果数据都缺失,也即{xim,xin}={NaN,NaN}以及{xjm,xjn}={NaN,NaN},则:
[0020] smn∈[1,1]
[0021] (3)如果数据只有一个缺失,不失一般性,假设xjn=NaN,则按照余弦相似度计算思想,两个二元向量的相似度等于二维平面上两个向量的夹角余弦,如图1所示,当xjn空缺,由于xjn有上下限,从而,两个向量的夹角有一个最大值和最小值,从而相似度是一个也区间:
[0022] smn∈[min(1,cos(Θ1),cos(Θ2)),max(1,cos(Θ1),cos(Θ2))][0023] 可以求得
[0024] (4)如果两个数据对都有数据缺失,且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={xjm,NaN},则类似,相似度是一个区间:
[0025]
[0026] (5)如果两个数据对都有一个缺失,且形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,xjn};或者两个数据对共有三个缺失,形式为{xim,xin}={xim,NaN}以及{xjm,xjn}={NaN,NaN},类似,有一个相似度区间:
[0027] smn∈[0,1]
[0028] 3)对 个相似度区间(将每一个smn区间统一表达为 表示区间起始值, 表示区间结束值),再依次两两计算相似度(由于相似度期间都已知,从而相似度都是一个标量),称之为二阶相似度。假设某一对相似度区间分别为 和则它们的相似度smnkj计算方法为:
[0029]
[0030] 可知,smnkj的个数为
[0031] 4)对二阶相似度向量求平均,最终两个时间序列相似度s(Xi,Xj)为:
[0032]
[0033] 至此,两个缺失数据的时间序列相似度求出来了。