一种基于时序多变量数据的模式提取与演化可视分析方法转让专利
申请号 : CN202110594978.5
文献号 : CN113326472B
文献日 : 2022-07-15
发明人 : 张慧杰 , 吕程 , 任珂 , 付佳 , 蔺依铭
申请人 : 东北师范大学
摘要 :
权利要求 :
1.一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,包含下列步骤:S1:将待处理的数据样本点进行处理,建立时序多变量数据集合,通过异常检测算法筛选出常规点和异常点,所述S1,时序多变量实例X是一个向量序列,D×T
X=[x1,x2,...,xT]∈R
其中,D是时序多变量实例中的变量个数,T是时间片长度,时序多变量数据 是由多个时序多变量实例组成的集合, 其中Xi是一个时序多变量实例,N是数据集中实例的个数,其中, 表示为一个具有实例轴、属性轴和时间片轴的3D数组,执行步骤2;
S2:对常规点通过常规模式提取,对异常点通过异常模式下选择,执行步骤3;
S3:通过可视分析系统PEVis建立多个相互联动视图,通过前端交互进行展示;
所述S1中,所述异常检测算法包括有使用了三种异常检测算法,分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法;
所述S3中,PEVis支持对时序多变量数据进行潜在模式提取与解释,通过设计目标建立全局概览投影视图和异常指标选择视图、潜在模式演化视图、特征时变视图和特征分布视图。
2.根据权利要求1所述的一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述S2中,对常规点进行聚类,聚类能根据变量间相似性将常规的样本点划分成不同的簇,将每个簇定义为一种常规模式;针对异常点,对全局时间片进行切片,在不同的时间片上,为异常点分类,选择最接近的一种常规模式作为当前时间片上的潜在模式。
3.根据权利要求1所述的一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述S3中,系统PEVis还包括有聚焦、刷选、放缩移动、参数设置和信息展示的交互功能。
4.根据权利要求1~3中任一项所述的基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述方法用于空气质量指数监测数据集、居民消费价格指数数据集、金融数据集的挖掘和演化用途。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时实现如权利要求
1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
6.一种基于时序多变量数据的模式提取与演化可视分析装置,其特征在于,包括:一个或多个处理器;
计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如权利要求1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
7.一种基于时序多变量数据的模式提取与演化可视分析系统,其特征在于,系统包括数据处理单元、视图合成单元和交互单元,通过数据处理单元构建时序多变量数据集合并分类常规点和异常点,通过视图合成单元分别对常规点和异常点处理进行视图的整合,
通过交互单元展示各个视图并向用户提供交互功能,
系统预存在处理器中,计算机内包含有一个或多个处理器;
计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如权利要求1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
说明书 :
一种基于时序多变量数据的模式提取与演化可视分析方法
技术领域
背景技术
特征,譬如包含多种指标的环境监测数据,包含多种信息的个人档案等等,通常包含多个特
征变量,并随时间不断变化,被称为时序多变量数据,分析时序多变量数据中蕴含的潜在模
式能够从很大程度上反映现实世界中事物的变化规律。
据变量之间存在复杂的关联关系及时序变化的特点,导致重要特征难以跟踪和分析,用户
难以对其进行理解及比较,信息认知面临较大的挑战。
维、经验模态分解、数据标准化处理、前馈神经网络训练、对测试集测试步骤组成。该发明采
用了主成分分析方法降维和经验模态分解方法,通过降维减少预测变量的个数,得到的数
据包含了原始数据的大部分信息,保证降维后得到的数据中每个变量不包含重复的原始数
据信息,在前馈神经网络训练时,用本征模函数代替原始时序数据进行训练,输入降维后的
数据集,减少了变量个数,获得了准确的结果,训练时间大幅度减少,可用于对时序数据预
测。
将不同时间片上的数据单独降维,但会导致不同时间片的数据点属于不同空间,结果难以
比较。因此,目前尚缺乏一种能够处理时变特征的降维方法,为分析时序多变量数据中的模
式和异常奠定基础。
发明内容
知策略以及针对时序多变量数据的交互式可视分析系统。
中实例的个数,其中, 表示为一个具有实例轴、属性轴和时间片轴的3D数组,
立森林算法。
不同的时间片上,为异常点分类,选择最接近的一种常规模式作为当前时间片上的潜在模
式。
和特征分布视图。
多变量数据的模式提取与演化可视分析方法。
述计算机程序被所述一个或多个处理器执行时实现如上的基于时序多变量数据的模式提
取与演化可视分析方法。
分类常规点和异常点,通过视图合成单元分别对常规点和异常点处理进行视图的整合,通
过交互单元展示各个视图并向用户提供交互功能,
器执行时实现如上所述的基于时序多变量数据的模式提取与演化可视分析方法。
附图说明
具体实施方式
中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。
示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。
种数据的时变模式。根据异常在时序上的波动,分为稳定式异常和跳跃式异常;根据异常在
邻域上的变化,分为孤立式异常和协同式异常。结合数据在时序和邻域上的异常特点,我们
提取出四种异常模式;稳定式孤立异常:将在所有时间片上,始终偏离于其他大部分数据的
样本点,称为稳定式孤立异常。稳定式协同异常:将在所有时间片上,少部分一起协同变化
的样本点,称为稳定式协同异常。跳跃式孤立异常:将在不同时间片上,跳跃归属于不同常
规模式的样本点,称为跳跃式孤立异常。跳跃式协同异常:将在不同时间片上,少部分一起
协同变化、跳跃归属于不同常规模式的样本点,称为跳跃式协同异常。
R ,其中,D是时序多变量实例中的变量个数(维度、属性个数),T是时间片长度。
用时间片拼接的方法,将 由3D数组转变为2D数组。如图1,我们对一个N×D×T的数据,保
留N(实例)轴,通过将T(时间片)轴上的数据依次拼接到D(属性)轴上,得到一个行数为N,而
列数为D×T的2D数组,请参照图2,图中具体字符仅为计算过程中的符号,这里不赘述。
检测算法,以及基于集成学习的孤立森林算法。除此之外,在整个分析系统的探索方面,我
们同样会涵盖其他类型异常检测方式,如基于统计的方法和基于分类的思想等。
多经典的聚类算法,如基于距离的K‑means算法、基于密度的DBSCAN算法、基于层次的层次
聚类算法等。我们选择K‑means算法来对数据样本点进行聚类,使用单个样本点来对簇进行
建模,采用欧式距离来衡量样本与各个簇的相似度,样本点只属于与其距离最近的簇。
感知策略,实现不同时间片降维空间的有效融合,保持数据中模式与异常的时间一致性。同
时,引入因子分析方法,提取能够区分模式的关键特征,设计一维与二维相结合的可视化隐
喻方案,直观展示数据分布和特征贡献。帮助用户感知常规模式和异常事件的演化规律。
力,根据原始数据中的相关性识别数据中的簇和异常点,以及进一步对数据进行建模,挖掘
其模式。常用的降维方法有PCA、MDS和t‑SNE等等。
间片降维空间的有效融合,保持数据中模式与异常的时间一致性,方便后续可视分析探索,
程度。载荷范围为[‑1,1]。接近于‑1或1的载荷表明特征对因子的影响非常强,对该因子所
表示的常规模式影响权重较高,属于该模式的主要特征。接近于0的载荷表明特征对因子的
影响很弱,即对模式影响较弱,不属于该模式的主要特征。综上所述,在模式提取方面,融合
多种异常检测算法对数据集进行分析,筛选出常规点和异常点。然后对所有常规点进行聚
类划分类别提取常规模式,最后在不同时间片上对异常点进行潜在模式选择。在时序多变
量数据演化规律感知上,基于正交普氏分析融合不同降维空间,并结合因子分析方法,设计
新颖的模式演化视图。为模式演化探索提供技术支持。
进可视分析流程中,进而提出一个具有多个相互联动视图的可视分析系统,帮助用户对时
序多变量数据进行全面且深入的分析。系统包括两个主要的任务:一部分是数据处理部分,
包括数据的清洗、异常值提取、异常模式与常规模式的构建。另一部分是:可视分析部分,即
系统的前端交互,包括五个带有丰富关联的视图,通过联动视图,系统支持用户对时序多变
量数据的可视分析过程,对演化模式提供可解释性分析。
器执行时实现能够本发明的模式提取与演化可视分析方法。其中,由于各个步骤的程序逻
辑不同,可采用专用处理器或通用芯片来执行相应的步骤,以提高整个程序的处理效率,并
合理地控制成本。因此,本领域技术人员可根据具体应用情况,对本发明用于时序多变量数
据的模式提取与演化可视分析中的处理器和计算机程序的数量进行适应性地设计与调整。
高计算效率和准确度。然而,实验结果往往只包含了数据间的整体关系而忽略了变量间的
关系,导致结果难以理解。例如,对于降维技术低维嵌入空间中两个位置相距甚远的点,我
们可以清楚的知道他们所代表的原始高维数据不同,但是哪个维度导致的这一差异却无从
得知。因此,我们期望设计一个支持交互的可视分析系统,允许用户从数据本身出发,结合
可视分析的技术,辅以机器学习的方法,动态地探测数据中不同的潜在模式,辅助用户从多
个角度识别并解释数据间的关系。
化为2D数据后再进行异常检测,因此每个数据点有两种不同类型的变量:时间片和特征属
性。在进行异常检测计算数据点与点之间的差异性时,两种变量混合在一起,因此很难确定
哪些时间片或者特征属性与异常模式的出现高度相关。因此我们需要从时间片和特征属性
不同的角度来解释数据点的异常原因。此外,由于异常值和正常数据之间的边界通常是模
糊的,因此用户需要从不同的角度检查异常值是如何表现的,探究异常值是否以及如何在
某些属性上偏离正常数据。
需要根据领域知识对检测到的结果进行选择与过滤,而不是将所有结果都盲目地视作异常
值。然而,手动逐个过滤异常值是一项极为耗时的工作。由于使用同一算法检测到的异常值
可能共享相似的异常模式,因此,一种更合理的方法是首先观察不同算法对异常值的定义
标准,然后排除不适用的结果,用户可以缩小到较少的数据项子集,以进行进一步的探索和
分析。因此,在筛选不同领域上的异常值时,必须比较检测用到的不同算法。
DBSCAN等)识别聚类,但仍缺乏有效的理解聚类特征的方法。聚类的主要特征是原始特征值
的分布,当数据维度很大时,查看特征值的分布并不是一项简单的任务,因此,我们需要提
供一种特征选择方法,可以帮助用户更好的识别不同集群簇的主要特征,对聚类结果进行
可解释性分析。
常指标选择视图(图4‑b)、潜在模式演化视图(图4‑d)、特征时变视图(图4‑e)和特征分布视
图(图4‑f),图4‑c为PEVis系统的软件界面的视图,通过该视图选择查看的类型。
兴趣的时间片和模式中点击样本点时,特征时变视图和特征分布视图自动绘制该样本点的
相关信息,悬停样本点时,该点在其他时间片坐标也自动放大突出显示。
集合后,潜在模式演化视图自动绘制选定点的时变信息。
鼠标拖拽移动功能,方便用户细粒度查看样本点。
余信息,以探索不同算法对异常判定的区别。用户也可实时调节样本点和时间片信息,特征
时变视图和特征分布视图根据用户选择自动更新。
卡。系统的数据分析部分使用Python语言撰写,前端可视化界面使用D3.js数据可视化图形
库、Echarts交互式图表和浏览器可视化库。在实验评估过程中,我们使用分辨率为1920×
1080的三星显示器,并使用Chrome浏览器作为前端展示应用。
时间的变动,价格发生的变动,反映居民购买消费品及服务价格水平变动情况的相对数(指
数的基期数值定为一百)。它是进行经济分析和决策、价格总水平监测和调控及国民经济核
算的重要指标。
务、交通通信、教育文化娱乐、医疗保健、其他用品及服务8个大类。我们选取的统计周期为
2019年12月——2020年11月共计12个月的数据。因此,我们得到的3D数据规格为31×8×
12,进一步可转化为31×96格式的2D数据,送进我们的系统。
指数时变趋势可分为三类,但这三类在每个月份上排列较为紧密,这表明在过去的一年中,
我国虽遭受疫情带来的不确定性冲击,但在市场经济宏观调控下,各省市地区消费情况均
衡发展,并未产生严格分化情况。(二)、从各个集群簇来看,最底部的簇主要包含山东省、湖
北省和四川省等省份地区,环比上年同月份,该类省份在我们选取的时间片上环比上年同
月波动最大的特征是食品烟酒类,该类消费在2020年1‑11月始终具备较高的权重;而以甘
肃省、宁夏回族自治区和内蒙古自治区等地区为代表的中间集群簇的主要特征由12月、1月
的衣着类转换为后期的医疗保健类,其中7、8月份短暂转换为教育文化娱乐类;以吉林省、
辽宁省、黑龙江省为代表的东三省及福建省、浙江省为代表的我国东南沿海省份为代表的
最顶部集群簇,在时变趋势上各项支出较为均衡,但也大致反映出食品烟酒类和医疗保健
类权重较高的趋势。
但均远超上年同月在该类别上的支出。其他类别消费支出未见明显区别。
月份属于顶部的簇,其他月份属于中间的簇,属于跳跃式孤立异常。虽然北京市跳跃归属于
几种不同的类别,但整体各项消费指数与其他地区趋势一致,只是北京作为我国的经济政
治文化中心,在各项支出上更具突出代表作用。我们可以发现,北京市变化强烈的几项消费
类别指数依次为:医疗保健类(medical)、其他用品及服务(else)、食品烟酒(food)、教育文
化娱乐(edu)和交通通信(traffic),而生活用品及服务(life)、衣着(clothes)和居住
(lives)与全国整体趋势并无太大差异,且始终保持在上年同月的100基数附近,这表明疫
情对北京市人民在日常生活用品和居住条件上的消费并未带来较大冲击。针对于前几种变
化强烈的消费类别,我们可以看出医疗保健类、食品烟酒类和教育文化娱乐类在疫情初期
消费较高,随着7、8月份以来疫情得到有效控制,“囤口罩”和“囤粮食”的热度褪去,该两类
支出在逐渐减少并恢复至往年水平,教育文化娱乐类也随着学校校门的重新打开由网课的
形式逐渐恢复正常。而疫情好转,旅游业寒冬也即将过去,虽然截止到2020年11月,北京市
交通通信类支出比去年同月仍低3.7个百分点(北京市当月指数96.3),但整体消费指数朝
上发展,预计会很快达到疫情前的水平。总体来看,北京市的整体居民消费价格指数发展趋
势与全国总体发展趋势结论一致。
疫情持续期间CPI随时间的变化,评估疫情对于国民生活方式带来的影响,为国家及各级政
府宏观经济调控提供决策依据,使用全国居民消费价格指数数据集进行案例分析评估了我
们时序多变量数据潜在模式提取与解释可视分析系统的有效性。