一种基于智能采集终端到云的网络数据流的处理方法转让专利

申请号 : CN201710974863.2

文献号 : CN107832348B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 林珂徐啸峰胡蔚马乐徐元晓

申请人 : 中通服咨询设计研究院有限公司

摘要 :

本发明公开了一种基于智能采集终端到云的网络数据流的处理方法,本发明涉及到在多种类型的智能终端采集后的数据,在网络传输过程中并形成多元数据特征的数据流,基于对各类碎片化数据初始形式复合化使用,多元的数据在基于通信网络快速形成比较统一的数据流,在云平台实现智能的识别和定义,从而对海量数据的挖掘和深入分析提供高可靠、低时延的高效传送。

权利要求 :

1.一种基于智能采集终端到云的网络数据流的处理方法,其特征在于,包括如下步骤:步骤1,采集数据,将采集的数据在不经过任何数据处理的情况下通过光纤传输线路形成单个链路的复合的多元网络数据流;

步骤2,通过在数据中心搭载云计算管理平台获取到多元网络数据流,多元网络数据流释放到云计算管理平台的原始数据资源池中,以原有的数据形式存在;

步骤3,提取在原始数据资源池中的数据流的数据标签关于来源地、时序和设备信息的特征,并形成数据流的特征映射;

步骤4,定义基准线,对特征映射进行叠加,得到关联特征映射集和非关联特征映射集;

步骤5,计算关联特征映射集到基准线的距离D,D做为变量因子来判定不同关联特征映射集的相似度,对于有相等距离D的关联特征映射集,执行步骤6,对于没有相等距离D的关联特征映射集并入下一标准单位时间的其他的关联特征映射集返回步骤4处理;将非关联特征映射集并入下一单位时间的数据特征映射,返回执行步骤4;

步骤6,将有相等距离D的关联特征映射集以距离D为链接节点形成关联特征映射集串联;

步骤7,不同关联特征映射集完成关联特征映射集串联后,根据时序形成不同的特征的线性数据,对每个特征的线性数据依照数据自带标签中的长度和顺序完成时序的先后排列,得到排序后的特征线性数据;

步骤8,根据特征线性数据的首个数据的长度记录对比最后一个数据的长度记录,如果信息一致则判定特征线性数据完整;执行步骤9;如不一致则执行步骤10;

步骤9,根据完整特征数据字符、数字编码信息来确定特征线性数据特征、格式及其他属性并输入到云计算管理平台的数据库中;

步骤10,对未达到完整的特征线性数据进行清洗处理。

2.根据权利要求1所述的方法,其特征在于,步骤1中,通过对多个行业的业务渠道智能终端采集数据,业务渠道包括气象水雨情、水利的河道监测、电力和燃气抄表,智能终端包括水雨情测量仪、河道水文监测器、直读数据和燃气泄漏探测器。

3.根据权利要求2所述的方法,其特征在于,步骤4中包括如下步骤:

步骤4-1,多元网络数据流的特征是以10n的数量级存在,0<n<100,n属于正整数,多元特征f(n)=α·10n+t,α∈[1,9],0≤t≤10n-1,t是正整数;

步骤4-2,对于任意一个在初始数据资源池中网络数据流的特征映射f(n)i,i取大于0的任意正整数,i表示对于单一数据流特征映射的编号,即当n取同一值时,存在两个以上同一数量级且不同多元特征的映射;

步骤4-3,定义基准线,在基于基准线坐标位置和上移或下移一个标准差范围内的数据流特征映射进行叠加,对于两个特征映射中相同的特征形成关联,保留单个不同的特征;

步骤4-4,如超过一个基准线位置上移或下移一个标准差范围内的数据流特征映射,则执行在下一个单位时间的数据流特征映射的分布,并补充入新的数据流特征映射后执行步骤4-3的特征映射叠加;

步骤4-5,提取完成一次叠加后的特征映射集中的关联特征,分离形成关联特征映射集和非关联特征映射集。

4.根据权利要求3所述的方法,其特征在于,步骤4-3中所述定义基准线包括:在一个单位时间内形成的数据流的特征映射分布在三维的空间,以坐标轴从原点发出的虚射线作为一数据特征映射基准线,基准线上的点的坐标位置为(x,y,z),基准线参数方程为:(x-x0)/A=(y-y0)/B=(z-z0)/C=T,

其中点(x0,y0,z0)是基准线T上的其中一个点,向量(A,B,C)为基准线的方向向量。

5.根据权利要求4所述的方法,其特征在于,步骤5中,通过如下方法计算关联特征映射集到基准线的距离D:对于关联特征映射集所对应的点为(m,n,o),点(m,n,o)到基准线垂直距离的点(xc,yc,zc)是唯一的,则关联特征映射集到基准线的距离

6.根据权利要求5所述的方法,其特征在于,步骤5中,对于没有相等距离D的关联特征映射集并入下一标准单位时间的其他的关联特征映射集返回执行步骤4-4。

7.根据权利要求6所述的方法,其特征在于,步骤5所述将非关联特征映射集并入下一单位时间的数据特征映射,包括:将非关联特征映射集与在同一个标准单元时间的特征映射即步骤5中的非基准线范围特征映射作为补充映射,并入下一单位时间的数据特征映射,返回执行步骤4-3。

说明书 :

一种基于智能采集终端到云的网络数据流的处理方法

技术领域

[0001] 本发明属于计算机数据处理领域,尤其涉及一种基于智能采集终端到云的网络数据流的处理方法。

背景技术

[0002] 随着信息化高速发展,大数据应用的越来越广泛,数据级数呈几何状递增、对数据传输的稳定性、安全性、高效性的要求也越来越高,多个基本特征数据在网络形成多元特征的数据流后需要在智能云平台实现有效的数据分析,需要考虑保证原数据库完整性的前提下降低在云平台执行数据挖掘等后续执行程序,从而提高数据挖掘效率。

发明内容

[0003] 发明目的:本发明所要解决的技术问题是针对现存在的海量多元网络数据流处理技术上不足,提供一种基于智能数据采集终端到云的网络数据流的一种处理方法。
[0004] 为了解决上述技术问题,本发明基于智能数据采集终端到云的网络数据流的一种处理方法,包括:
[0005] 步骤1,采集数据,将采集的数据在不经过任何数据处理的情况下通过光纤传输线路形成单个链路的复合的多元网络数据流;
[0006] 步骤2,通过在数据中心(数据中心是多元网络数据流统一汇聚的物理环境,可以接收到由获取原始数据的终端通过光纤或者其他通信方式传输的数据,数据中心可以对数据进行存储、分析、用来实现各类互联网应用所需数据的支撑,一般由政府机构或有较大数据资源需求的机构自行来建设。)搭载云计算管理平台获取到多元网络数据流,多元网络数据流释放到云计算管理平台的原始数据资源池中,以原有的数据形式存在;
[0007] 步骤3,提取在原始数据资源池中的数据流的数据标签关于来源地、时序和设备信息的特征,并形成数据流的特征映射;
[0008] 步骤4,定义基准线,对特征映射进行叠加,得到关联特征映射集和非关联特征映射集。
[0009] 步骤5,计算关联特征映射集到基准线的距离D,D做为变量因子来判定不同关联特征映射集的相似度,对于有相等距离D的关联特征映射集,执行步骤6,对于没有相等距离D的关联特征映射集并入下一标准单位时间的其他的关联特征映射集返回步骤4处理;将非关联特征映射集并入下一单位时间的数据特征映射,返回执行步骤4;
[0010] 步骤6,将有相等距离D的关联特征映射集以距离D为链接节点形成关联特征映射集串联;
[0011] 步骤7,不同关联特征映射集完成关联特征映射集串联后,根据时序形成不同的特征的线性数据,对每个特征的线性数据依照数据自带标签中的长度和顺序完成时序的先后排列,得到排序后的特征线性数据;
[0012] 步骤8,根据特征线性数据的首个数据的长度记录对比最后一个数据的长度记录,如果信息一致(即首末数据长度记录相同)则判定该类数据完整;执行步骤9;如不一致则执行步骤10;
[0013] 步骤9,根据完整特征数据字符、数字编码信息(是基于水利、电力、环境等行业数据字符和编码规则的国家定义的标准)来确定该类数据特征、格式及其他属性比如位置、等级、数量、标识、资源要素信息等并输入到云计算管理平台的数据库中;
[0014] 步骤9的具体方式说明:比如使用计算机语言代码段try{byte[]SL T200=name.getBytes(“SL-T200-X”);toHex(SLT200);}catch(UnsupportedEncodingE xception e){e.printStackTrace();}可以实现对于水利数据特征,格式等的信息识别;
[0015] 步骤10,对未达到完整的特征线性数据进行清洗处理。
[0016] 步骤1中,通过对多个行业的业务渠道智能终端采集数据,业务渠道包括气象水雨情、水利的河道监测、电力和燃气抄表,智能终端包括水雨情测量仪、河道水文监测器、直读数据和燃气泄漏探测器。
[0017] 步骤4包括如下步骤:
[0018] 步骤4-1,多元网络数据流的特征是以10n的数量级存在,0<n<100,n属于正整数,多元特征f(n)=α·10n+t,α∈[1,9],0≤t≤10n-1,t是正整数;
[0019] 步骤4-2,对于任意一个在初始数据资源池中网络数据流的特征映射f(n)i,i取大于0的任意正整数,i表示对于单一数据流特征映射的编号,即当n取同一值时,存在两个以上同一数量级且不同多元特征的映射;
[0020] 步骤4-3,定义基准线,在基于基准线坐标位置和上移或下移一个标准差范围内的数据流特征映射进行叠加,对于两个特征映射中相同特征形成关联,保留单个不同的特征;假设特征映射f(1)1中的特征{a1,b1,c1,d1,f1,……},f(3)6中的特征{a1,b2,c4,e3,g3,……},叠加后的特征映射集{a1,b1b2,c1c4,d1,f1,e3,g3,……};a1,b1b2,c1c4,d1,f1,e3,g3是数据自有标签中的编码字母。
[0021] 步骤4-4,如超过一个基准线位置上移或下移一个标准差范围内的数据流特征映射,则执行在下一个单位时间的数据流特征映射的分布,并补充入新的数据流特征映射后执行步骤4-3的特征映射叠加;
[0022] 步骤4-5,提取完成一次叠加后的特征映射集中的关联特征,分离形成关联特征映射集和非关联特征映射集。
[0023] 步骤4-3中所述定义基准线包括:
[0024] 在一个单位时间内形成的数据流的特征映射分布在三维的空间,以坐标轴从原点发出的虚射线作为一数据特征映射基准线,基准线上的点的坐标位置为(x,y,z),基准线参数方程为:
[0025] (x-x0)/A=(y-y0)/B=(z-z0)/C=T,
[0026] 其中点(x0,y0,z0)是基准线T上的其中一个点,向量(A,B,C)为基准线的方向向量。
[0027] 步骤5中,通过如下方法计算关联特征映射集到基准线的距离D:对于关联特征映射集所对应的点为(m,n,o),点(m,n,o)到基准线垂直距离的点(xc,yc,zc)是唯一的,则关联特征映射集到基准线的距离
[0028] 步骤5中,对于没有相等距离D的关联特征映射集并入下一标准单位时间的其他的关联特征映射集返回执行步骤4-4。
[0029] 步骤5所述将非关联特征映射集并入下一单位时间的数据特征映射,包括:将非关联特征映射集与在同一个标准单元时间的特征映射即步骤5中的非基准线范围特征映射作为补充映射,并入下一单位时间的数据特征映射,返回执行步骤4-3。
[0030] 步骤10包括:数据清洗处理包括:通过对非完整特征线性数据进行检查拼写错误、去掉重复数据记录、数据不完全记录、不一致性记录,最后生成数据报告附于该特征线性数据,并存储于在数据中心中清洗处理数据的数据仓库。
[0031] 有益效果:本发明采用网络直连的方式将数据从智能终端传送到数据中心平台直接的处理,效果主要体现在:1.减少了传统数据层层传输的数据信息的遗失,提高大数据全面捕获的完整性;2.多元网络数据流的处理能够实现跨地域性的数据整合,对于建设特大型智慧城市有实际的应用指导作用;3.提供了一种对于跨平台,跨行业的综合大数据的智能处理方法,大数据的实时性和延续性得到的实际意义上的保障。

附图说明

[0032] 下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
[0033] 图1为数据特征映射示意图。
[0034] 图2为关联特征映射集到基准线的距离示意图。
[0035] 图3是本发明流程图。

具体实施方式

[0036] 下面结合附图及实施例对本发明做进一步说明。
[0037] 如图3所示,本发明提供了一种基于智能采集终端到云的网络数据流的处理方法,包括如下步骤:
[0038] 步骤1,通过对多个行业的业务渠道(比如气象水雨情、水利的河道监测、电力和燃气抄表等)智能终端(水雨情测量仪、河道水文监测器、直读数据和燃气泄漏探测器等)采集数据,将采集的数据在不经过任何处理的情况下通过光纤统一形成复合的多元网络数据流;
[0039] 步骤2,通过在数据中心(数据中心是多元网络数据流统一汇聚的物理环境,可以接收到由获取原始数据的终端通过光纤或者其他通信方式传输的数据,数据中心可以对数据进行存储、分析、用来实现各类互联网应用所需数据的支撑,一般由政府机构或有较大数据资源需求的机构自行来建设。)搭载云计算管理平台获取到多元网络数据流,多元网络数据流释放到云计算管理平台的原始数据资源池中,以原有的数据形式存在;
[0040] 步骤3,提取在原始数据资源池中的数据流的数据标签关于来源地、时序和设备信息的特征,并形成数据流的特征映射;
[0041] 步骤4,定义基准线,对特征映射进行叠加,得到关联特征映射集和非关联特征映射集。
[0042] 步骤5,对于步骤4中关联特征映射集所对应的点为(m,n,o)到基准线垂直距离的点为(xc,yc,Zc),则关联特征映射集到基准线的距离D=√[|m-xc|2+|n-yc|2+|o-zc|2];见图2(图中D1,D2,D3即分别表示不同的关联特征集对应的点a、b、c到基准线距离),对到基准线的有相同距离的关联特征映射集来确定不同关联特征映射集有较高的相似度,D做为变量因子来判定不同关联特征映射集的相似度,这是不同关联特征映射集都关联了相同属性的D;对单一无相同D的关联特征映射集并入下一单位时间的步骤4处理;将非关联特征映射集并入下一单位时间的数据特征映射,返回执行步骤4;
[0043] 步骤6,将步骤5中的关联特征映射集以距离D为链接节点形成关联特征映射集串联;
[0044] 步骤7,不同关联特征映射集完成关联特征映射集串联后,根据时序形成不同的特征的线性数据,对每个特征的线性数据依照数据自带标签中的长度和顺序完成时序的先后排列,得到排序后的特征线性数据;
[0045] 步骤8,根据特征线性数据的首个数据的长度记录对比最后一个数据的长度记录,如果信息一致(即首末数据长度记录相同)则判定该类数据完整;执行步骤9;如不一致则执行步骤10;
[0046] 步骤9,根据完整特征数据字符、数字编码信息(是基于水利、电力、环境等行业数据字符和编码规则的国家定义的标准)来确定该类数据特征、格式及其他属性比如位置、等级、数量、标识、资源要素信息等并输入到云计算管理平台的数据库中;
[0047] 步骤9的具体方式说明:比如使用计算机语言代码段try{byte[]SL T200=name.getBytes(“SL-T200-X”);toHex(SLT200);}catch(UnsupportedEncodingE xception e){e.printStackTrace();}可以实现对于水利数据特征,格式等的信息识别;
[0048] 步骤10,对未达到完整的特征线性数据进行清洗处理。
[0049] 步骤4中包括如下步骤:
[0050] 步骤4.1,多元网络数据流的特征是以10n的数量级存在(0<n<100,n属于正整数),多元特征f(n)=α·10n+t(α∈[1,9],0≤t≤10n-1,t是正整数);
[0051] 步骤4.2,对于任意一个在初始数据资源池中网络数据流的特征映射f(n)i(i取大于0的任意正整数,i表示对于单一数据流特征映射的编号,即当n取同一值时,存在多个同一数量级且不同多元特征的映射;
[0052] 步骤4.3,在一个单位时间内形成的数据特征映射如图1所示分布在三维的空间,以坐标轴从原点发出的虚射线作为一数据特征映射基准线,(基准线上的点的坐标位置为(x,y,z),基准线参数方程为:
[0053] (x-x0)/A=(y-y0)/B=(z-z0)/C=T,
[0054] 其中点(x0,y0,z0)是基准线上的其中一个点,向量(A,B,C)为基准线的方向向量),在基于基准线坐标位置和上移或下移一个标准差范围内的数据流特征映射用进行叠加;对于两个特征映射中相同或相近的特征形成关联,保留单个不同的特征;假设特征映射f(1)1中的特征{a1,b1,c1,d1,f1,……},f(3)6中的特征{a1,b2,c4,e3,g3,……},叠加后的特征映射集{a1,b1b2,c1c4,d1,f1,e3,g3,……};
[0055] 步骤4.4如超过一个基准线位置上移或下移一个标准差范围内的数据流特征映射,则执行在下一个单位时间的数据流特征映射的分布,并补充入新的数据流特征映射后执行步骤4.3的特征映射叠加;
[0056] 步骤4.5,提取完成一次叠加后的特征映射集中的关联特征;分离形成关联特征映射集和非关联特征映射集。
[0057] 步骤5中,对于没有相等距离D的关联特征映射集并入下一标准单位时间的其他的关联特征映射集返回执行步骤4.4。
[0058] 步骤5所述将非关联特征映射集并入下一单位时间的数据特征映射,包括:将非关联特征映射集与在同一个标准单元时间的特征映射即步骤5中的非基准线范围特征映射作为补充映射,并入下一单位时间的数据特征映射,返回执行步骤4.3。
[0059] 本发明提供了一种基于智能采集终端到云的网络数据流的处理方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。