一种大数据存储系统不断更新数据信息的方法转让专利

申请号 : CN202210776234.X

文献号 : CN114861834B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 魏俊杰蓝岸何翼熊黄庄辉黄松杰郑裕豪黄金田梁焯源黄莹涛覃俊华

申请人 : 深圳新闻网传媒股份有限公司

摘要 :

本发明公开一种大数据存储系统不断更新数据信息的方法,涉及测量与控制技术领域,解决的技术问题是大数据存储系统进行数据存储过程中,数据信息更新监控和更新评估。采用的技术方案是本发明通过兼容式数据接口以至少24bps/s的速率接收数据信息,并通过信息识别模块识别数据信息;通过数据隔离模块实现更新数据信息的隔离,并通过改进型贝叶斯算法模型计算更新数据信息;通过更新预警函数实现数据信息预警,本发明能够在大数据存储系统存储数据过程中,实时、动态地评估更新数据信息,提高了大数据存储系统存储数据更新监控能力和动态数据监控。

权利要求 :

1.一种大数据存储系统不断更新数据信息的方法,其特征在于:包括以下步骤:步骤一、通过兼容式数据接口以至少24bps/s的速率接收数据信息,并通过信息识别模块识别数据信息;

在本步骤中,兼容式数据接口为兼容TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议以及串行通信协议的接口,其中所述信息识别模块包括通信接口、通信协议解码模块、通信协议匹配模块和数据输出端子,其中所述通信接口的输出端与通信协议解码模块的输入端连接,所述通信协议解码模块的输出端与通信协议匹配模块的输入端连接,通信协议匹配模块的输出端与数据输出端子的输入端连接;

步骤二、通过数据隔离模块实现更新数据信息的隔离,并通过改进型贝叶斯算法模型计算更新数据信息;

在本步骤中,数据隔离模块包括主控模块和与所述主控模块连接的存储器、并行计算模块、校验模块、屏蔽模块和通信网络接口;

在本步骤中,改进型贝叶斯算法模型包括数据输入模块、网络节点模块、分类模块、搜索模块和数据输出模块,其中所述数据输入模块的输出端与网络节点模块的输入端连接,网络节点模块的输出端与分类模块的输入端连接,所述分类模块的输出端与搜索模块的输入端连接,搜索模块的输出端与数据输出模块的输入端连接;数据输入模块的输入端接收计算更新数据信息,数据输入模块的输入端与信息识别模块连接,数据输出端子的输出端与通信接口连接;步骤三、通过更新预警函数实现数据信息预警;

在本步骤中,所述更新预警函数为改进型正交化函数实现更新数据信息的预警;

其中改进型贝叶斯算法模型的工作方法为:

步骤(1)、通过分类模块构建分类器模型,模型函数为:(1)

式(1)中,P表示贝叶斯网络模型;Ck表示大数据类型;k表示大数据类型中的种类,i表示大数据序号, 表示所有输入数据信息的大数据集合,N表示大数据集合中的样本分类,P(xi|Ck)表示为大数据类别最大概率值;

步骤(2)、通过构建分类器模型计算更新数据信息中故障数据;通过以下公式计算:                             (2)式(2)中,k=1,2,···,N,Nck表示所有大数据训练样本中未更新的样本数;

采用海鸥算法优化贝叶斯网络模型迭代训练过程,假设将未更新的大数据样本进行全局搜索,样本与样本之间避免路径冲突,搜索模块函数为:                (3)

式(3)中, 表示正在进行搜索更新数据信息的样本位置, 中的 表示输入数据信息的大数据集合,A表示样本在给定搜索空间中的移动空间范围,Hx表示海样本当前的位置,t表示当前迭代次数;

步骤(3)、搜索模块搜索数据信息的方法函数为:

(4)

式(4)中,M表示搜索海鸥数据信息的位置,Hbx表示数据更新过程中相对于最佳相邻搜索的样本的位置,Hbx中的b表示最佳相邻搜索样本位置中的标识,𝐵 表示数据更新过程中影响数据信息更新的常参数;

大数据更新位置函数Wx表示为:

(5)

式(5)中, 与 的上箭头表示数据更新过程中移动方向矢量,大数据在迭代训练过程中相对于更新前的最佳位置;

步骤(4)、数据更新过程中的故障数据信息诊断;

大数据x1,x2,···,xn的每个属性在条件上相互独立,假设更新过程中故障数据信息为C,则故障诊断函数输出为:(6)

式(6)中, 表示更新过程中故障数据信息 在大数据集合 中出现的概率,P(xi|Ck)表示大数据类别最大概率值,其中:(7)

式(7)中,  表示在迭代计算过程中,每次计算大数据更新时输出故障数据概率集合, 表示训练样本P(Ck)中同时满足大数据输入但未更新属性xi的样本数,如果不存在,则说明大数据存储系统中所有大数据均已更新,如果存在 ,则说明大数据存储系统中所有大数据均未更新,则训练样本数据更新故障函数进化为:(8)

在步骤三中,更新预警函数通过具有定位功能的正交化函数实现更新数据信息预警;

更新预警函数工作方法为:

通过MTG定位函数实现大数据更新输入定位,更新数据信息过程中故障数据定位函数为: (9)

式(9)中, 表示更新数据信息过程中数据通信位置, 表示数据更新运行周期,表示数据更新运行中数据通信协议, 表示数据更新中故障因素影响系数, 表示在第 个通信协议中数据更新运行周期;

构建正交化函数,将更新数据信息过程中的故障信息通过矩阵形式表示,则正交化函数表示为:(10)

式(10)中, 表示正交化函数, 表示所有通信协议中数据更新指标相互交叠函数,表示更新数据信息过程中故障数据迭代计算后的平均值,通过迭代计算后,对更新数据信息诊断结果进行故障诊断;

将正交化函数输出数据信息至预警输出函数,预警输出函数为:(11)

式(11)中, 表示预警输出函数,表示大数据类型中的种类,为通信协议排序,表示大数据集合中的样本分类, 表示数据更新过程中在第 个通信协议中迭代计算后的平均值, 表示正交化函数运行过程中的稳定性。

2.根据权利要求1所述的一种大数据存储系统不断更新数据信息的方法,其特征在于:信息识别模块实现数据识别的方法为:

 通过通信接口接收更新数据信息,启动通信协议解码模块,通信协议解码模块解码信息为TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议或者串行通信协议,通过通信协议匹配模块通过匹配协议帧长度、协议帧帧头、协议帧帧尾和数据缓存速度实现数据信息匹配,以锁定通信方式,进而通过数据输出端子实现数据信息输出。

3.根据权利要求1所述的一种大数据存储系统不断更新数据信息的方法,其特征在于:主控模块为基于EP4CE115F29C7N的主控芯片。

4.根据权利要求1所述的一种大数据存储系统不断更新数据信息的方法,其特征在于:数据隔离模块进行数据隔离的方法为:

在EP4CE115F29C7N主控芯片控制下,校验模块对输入到存储器的数据信息通过循环冗余校验码实现数据校验,通过生成多项式将信息码多项式左移k位,按位数进行加减运算,得到的余数为校验码,并行计算模块通过python代码实现数据信息计算,计算出的异常数据信息通过屏蔽模块屏蔽,计算出的正常数据信息通过通信网络接口输出。

说明书 :

一种大数据存储系统不断更新数据信息的方法

技术领域

[0001] 本发明涉及测量与控制技术领域,且更确切地涉及一种大数据存储系统不断更新数据信息的方法。

背景技术

[0002] “大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。大数据存储是将这些数据集持久化到计算机中。随着大数据应用的爆发性增长,大数据存储系统越来越多地存储诸多数据信息,现有技术中大数
据存储系统能够不断将数据信息输入,无法实现数据信息的更新计算,也无法实现数据更
新过程中的异常预警和通信更新评估,这使得无法动态地实现大数据存储系统数据信息监
控。

发明内容

[0003] 针对上述技术的不足,本发明公开一种大数据存储系统不断更新数据信息的方法,能够在大数据存储系统存储数据过程中,实时、动态地评估更新数据信息,提高了大数据存储系统存储数据更新监控能力和动态数据监控。
[0004] 为了实现上述技术效果,本发明采用以下技术方案:
[0005] 一种大数据存储系统不断更新数据信息的方法,包括:
[0006] 步骤一、通过兼容式数据接口以至少24bps/s的速率接收数据信息,并通过信息识别模块识别数据信息;
[0007] 在本步骤中,兼容式数据接口为兼容TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议以及串行通信协议的接口,
[0008] 其中所述信息识别模块包括通信接口、通信协议解码模块、通信协议匹配模块和数据输出端子,其中所述通信接口的输出端与通信协议解码模块的输入端连接,所述通信
协议解码模块的输出端与通信协议匹配模块的输入端连接,通信协议匹配模块的输出端与
数据输出端子的输入端连接;
[0009] 步骤二、通过数据隔离模块实现更新数据信息的隔离,并通过改进型贝叶斯算法模型计算更新数据信息;
[0010] 在本步骤中,数据隔离模块包括主控模块和与所述主控模块连接的存储器、并行计算模块、校验模块、屏蔽模块和通信网络接口;
[0011] 在本步骤中,改进型贝叶斯算法模型包括数据输入模块、网络节点模块、分类模块、搜索模块和数据输出模块,其中所述数据输入模块的输出端与网络节点模块的输入端
连接,网络节点模块的输出端与分类模块的输入端连接,所述分类模块的输出端与搜索模
块的输入端连接,搜索模块的输出端与数据输出模块的输入端连接;数据输入模块的输入
端接收计算更新数据信息,数据输入模块的输入端与信息识别模块连接,数据输出端子的
输出端与通信接口连接;
[0012] 步骤三、通过更新预警函数实现数据信息预警;
[0013] 在本步骤中,所述更新预警函数为改进型正交化函数实现更新数据信息的预警。
[0014] 在步骤一中,信息识别模块实现数据识别的方法为:
[0015]  通过通信接口接收更新数据信息,启动通信协议解码模块,通信协议解码模块解码信息为TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议或者串行通信协议,通过通信协议匹配模块通过匹配协议帧长度、协议帧帧头、协议帧帧尾和数据缓存速度实现数据信息匹配,以锁定通信方式,进而通过数据输出端子实现数据信息输出。
[0016] 在步骤二中,主控模块为基于EP4CE115F29C7N的主控芯片,
[0017] 在步骤二中,数据隔离模块进行数据隔离的方法为:
[0018] 在EP4CE115F29C7N主控芯片控制下,校验模块对输入到存储器的数据信息通过循环冗余校验码实现数据校验,通过生成多项式将信息码多项式左移k位,按位数进行加减运算,得到的余数为校验码,并行计算模块通过python代码实现数据信息计算,计算出的异常数据信息通过屏蔽模块屏蔽,计算出的正常数据信息通过通信网络接口输出。
[0019] 在步骤二中,改进型贝叶斯算法模型的工作方法为:
[0020] 步骤(1)、通过分类模块构建分类器模型,模型函数为:
[0021] (1)
[0022] 公式(1)中,P表示贝叶斯网络模型;Ck表示大数据类型;k表示大数据类型中的种类,i表示大数据序号, 表示所有输入数据信息的大数据集合,N表示大数据集合中的样本分类,P(xi|Ck)表示为大数据类别最大概率值。
[0023] 步骤(2)、通过构建分类器模型计算更新数据信息中故障数据;通过以下公式计算:
[0024]                              (2)
[0025] 公式(2)中,k=1,2,···,N,Nck表示所有大数据训练样本中未更新的样本数;
[0026] 采用海鸥算法优化贝叶斯网络模型迭代训练过程,假设将未更新的大数据样本进行全局搜索,样本与样本之间避免路径冲突,搜索模块函数为:
[0027]                 (3)
[0028] 公式(3)中, 表示正在进行搜索更新数据信息的样本位置, 中的 表示输入数据信息的大数据集合,A表示样本在给定搜索空间中的移动空间范围,Hx表示海样本当前的位置,t表示当前迭代次数;
[0029] 步骤(3)、搜索模块搜索数据信息的方法函数为:
[0030] (4)
[0031] 公式(4)中,M表示搜索海鸥数据信息的位置,Hbx表示数据更新过程中相对于最佳相邻搜索的样本的位置,Hbx中的b表示最佳相邻搜索样本位置中的标识,𝐵 表示数据更新过程中影响数据信息更新的常参数;
[0032] 大数据更新位置函数Wx表示为:
[0033] (5)
[0034] 公式(5)中, 与 的上箭头表示数据更新过程中移动方向矢量,大数据在迭代训练过程中相对于更新前的最佳位置;
[0035] 步骤(4)、数据更新过程中的故障数据信息诊断;
[0036] 大数据x1,x2,···,xn的每个属性在条件上相互独立,假设更新过程中故障数据信息为C,则故障诊断函数输出为:
[0037] (6)
[0038] 公式(6)中, 表示更新过程中故障数据信息 在大数据集合 中出现的概率,P(xi|Ck) 表示为大数据类别最大概率值,其中:
[0039] (7)
[0040] 公式(7)中,  表示在迭代计算过程中,每次计算大数据更新时输出故障数据概率集合, 表示训练样本P(Ck)中同时满足大数据输入但未更新属性xi的样本数,如
果不存在 ,则说明大数据存储系统中所有大数据均已更新,如果存在 ,则说明大数
据存储系统中所有大数据均未更新,则训练样本数据更新故障函数进化为:
[0041] (8)
[0042] 在步骤三中,更新预警函数通过具有定位功能的正交化函数实现更新数据信息预警。
[0043] 在上述实施例中,更新预警函数工作方法为:
[0044] 通过MTG定位函数实现大数据更新输入定位,更新数据信息过程中故障数据定位函数为:
[0045]           (9)
[0046] 公式(9)中, 表示更新数据信息过程中数据通信位置, 表示数据更新运行周期, 表示数据更新运行中数据通信协议, 表示数据更新中故障因素影响系数, 表
示在第i个通信协议中数据更新运行周期;
[0047] 构建正交化函数,将更新数据信息过程中的故障信息通过矩阵形式表示,则正交化函数表示为:
[0048]  (10)
[0049] 公式(10)中, 表示正交化函数, 表示所有通信协议中数据更新指标相互交叠函数, 表示更新数据信息过程中故障数据迭代计算后的平均值,通过迭代计算后,对更新数据信息诊断结果进行故障诊断;
[0050] 将正交化函数输出数据信息至预警输出函数,预警输出函数为:
[0051]  (11)
[0052] 公式(11)中, 表示预警输出函数,表示大数据类型中的种类,i为通信协议排序,N表示大数据集合中的样本分类, 表示数据更新过程中在第i个通信协议中迭代计算
后的平均值,  表示正交化函数运行过程中的稳定性。
[0053] 本发明有益的积极效果在于:
[0054] 区别于常规技术,本发明通过兼容式数据接口以至少24bps/s的速率接收数据信息,并通过信息识别模块识别数据信息;通过数据隔离模块实现更新数据信息的隔离,并通过改进型贝叶斯算法模型计算更新数据信息;通过更新预警函数实现数据信息预警,本发
明能够在大数据存储系统存储数据过程中,实时、动态地评估更新数据信息,提高了大数据存储系统存储数据更新监控能力和动态数据监控。

附图说明

[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
[0056] 图1 为本发明方法流程示意图;
[0057] 图2为本发明中信息识别模块架构示意图;
[0058] 图3为本发明中改进型贝叶斯算法模型架构示意图;
[0059] 图4为本发明中数据隔离模块架构示意图;
[0060] 图5为本发明中改进型贝叶斯算法模型一种实施例示意图。

具体实施方式

[0061] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
[0062] 如图1所示,一种大数据存储系统不断更新数据信息的方法,包括:
[0063] 步骤一、通过兼容式数据接口以至少24bps/s的速率接收数据信息,并通过信息识别模块识别数据信息;
[0064] 在本步骤中,兼容式数据接口为兼容TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议以及串行通信协议的接口,
[0065] 其中所述信息识别模块包括通信接口、通信协议解码模块、通信协议匹配模块和数据输出端子,其中所述通信接口的输出端与通信协议解码模块的输入端连接,所述通信
协议解码模块的输出端与通信协议匹配模块的输入端连接,通信协议匹配模块的输出端与
数据输出端子的输入端连接;
[0066] 步骤二、通过数据隔离模块实现更新数据信息的隔离,并通过改进型贝叶斯算法模型计算更新数据信息;
[0067] 在本步骤中,数据隔离模块包括主控模块和与所述主控模块连接的存储器、并行计算模块、校验模块、屏蔽模块和通信网络接口;
[0068] 在本步骤中,改进型贝叶斯算法模型包括数据输入模块、网络节点模块、分类模块、搜索模块和数据输出模块,其中所述数据输入模块的输出端与网络节点模块的输入端
连接,网络节点模块的输出端与分类模块的输入端连接,所述分类模块的输出端与搜索模
块的输入端连接,搜索模块的输出端与数据输出模块的输入端连接;数据输入模块的输入
端接收计算更新数据信息,数据输入模块的输入端与信息识别模块连接,数据输出端子的
输出端与通信接口连接;
[0069] 步骤三、通过更新预警函数实现数据信息预警;
[0070] 在本步骤中,所述更新预警函数为改进型正交化函数实现更新数据信息的预警。
[0071] 在步骤一中,信息识别模块实现数据识别的方法为:
[0072]  通过通信接口接收更新数据信息,启动通信协议解码模块,通信协议解码模块解码信息为TCP/IP通信协议、RS485通信协议、RS232 通信协议、Modbus通信协议、HTTP通信协议、XMPP通信协议、WIA‑PA通信协议、PLC通信协议或者串行通信协议,通过通信协议匹配模块通过匹配协议帧长度、协议帧帧头、协议帧帧尾和数据缓存速度实现数据信息匹配,以锁定通信方式,进而通过数据输出端子实现数据信息输出。
[0073] 在具体实施例中,数据通信过程中,不管采用哪种通信方式,比如常见的Wi‑Fi、RFID、NFC、ZigBee、Bluetooth、LoRa、NB‑IoT、GSM、GPRS、3/4/5G网络、Ethernet、RS232、RS485、USB等,在通信过程中,都有对应的通信协议和编码,就需要与这些通信协议相对应的解密器实现不同通信协议的解码,解码的过程便是通信协议选择的过程。在更一步具体实施例中,每种通信方式都有对应的通信代码。因此通信协议解码模块在可编程控制器的
控制下可以实现不同通信协议的解码。
[0074] 在具体实施例中,通信协议不同,数据信息传递速度也不同,比如SATA100接口硬盘的数据传输速度为100MB/S,SATA150接口硬盘的数据传输速度为100MB/S,Ultra320 
SCSI接口硬盘的数据传输速度为320MB/S。
[0075] 在具体实施例中,在协议帧长度匹配成功后,对于所传输数据需要通过帧尾内容再次进行匹配验证;通讯协议帧尾在通讯协议数据中的起始位置;取出该通讯协议的下一
个帧尾数据,判断帧尾数据与缓冲区中该帧尾所在位置的数据是否相同;如果帧尾数据与
缓冲区中该帧尾所在位置数据相同,则将匹配的数据信息缓存。如果帧尾数据与缓冲区中
该帧尾所在位置数据不相同,将该条通讯协议从协议队列中删除。
[0076] 在具体实施例中,如果完成已经完成该通讯协议所有帧尾数据的比对,以RS485数据接收为例,在数据接收过程中,通过帧头全内容匹配去除通讯过程的错误帧干扰的问题;
通过帧长度匹配保证通讯协议数据的完整性的问题;通过帧尾匹配提高通讯协议数据的正
确性的问题,通讯协议匹配模板是根据ICD中所定义的通讯协议信息在软件中建立的模型,根据RS485总线常用ICD格式,以XML文件手动撰写方式建立通讯协议匹配模,利用RS485通
讯板卡进行数据接收;在接收RS485 数据之前,需要按照各个部件或子系统的通讯参数对
通讯板卡每个传输通道进行初始化,初始化的具体参数包括:波特率、数据位、停止位和校验位;由于复杂信息系统内部所含部 件较多,需要采用多传输通道模式进行信息传输,因此需要为每个传输通道建立数据缓冲区;接收到的RS485数据经过各通道数据缓存后,首先根据通讯协议匹配模板中的传输通道字段进行匹配,通讯协议匹配模板中某条协议的传输
通道字段与本次接收的数据传输通道相同则认为传输通道匹配成功。
[0077] 在步骤二中,主控模块为基于EP4CE115F29C7N的主控芯片,
[0078] 在步骤二中,数据隔离模块进行数据隔离的方法为:
[0079] 在EP4CE115F29C7N主控芯片控制下,校验模块对输入到存储器的数据信息通过循环冗余校验码实现数据校验,通过生成多项式将信息码多项式左移k位,按位数进行加减运算,得到的余数为校验码,并行计算模块通过python代码实现数据信息计算,计算出的异常数据信息通过屏蔽模块屏蔽,计算出的正常数据信息通过通信网络接口输出。
[0080] 在具体实施例中,使用了正向和反向隔离装置,在满足系统快速实时的通信需求的同时,需要能够支持多种网络通信协议,保证大数据信息能够准确发送和接收,并且系统内网与外部网络实现单向通信,并支持大数据存储系统中数据传输报文指令的监控隔离。
本研究以PFGA作为隔离装置的开发设计平台,能够具有更快地运算速度,使用
EP4CE115F29C7N作为隔离装置的主控芯片,具有多个嵌入式存储器,并搭载了2个通信网络接口,主控频率可高达200MHz,不同的逻辑块之间并行执行和并行运算,在处理网络通信时具有更好的并行处理能力。
[0081] 在具体实施例中,校验模块中使用循环冗余校验码检测技术,检测能力更强,将发送的用户数据位序列作为多项式的系数,生成的多项式不同为发送错误时余数不同。发送端发送的大数据信息通过生成多项式将信息码多项式左移k位,进行按位加减运算,得到的余数为校验码。发送模块的输出接口作为校验模块的接收接口,生成校验码后输出到数据
发送模块。隔离模块在单向隔离通道中具有重要作用,对通信数据进行判断,查询接收到的IP地址是否处于可信的安全通信范围。根据接收到的通信报文对报文类型和危险等级进行
判断,如果系统通信网络受到攻击,则报文类型为高危指令,大数据存储系统将用户通信数据替换为错误代码Err_code[7.0]的输出,经过校验模块后发送出去,计算机运维工作者能及时收到讯息进行网络安全维护工作。
[0082] 在具体实施例中,PRAM(Parallel Random Access Machine,随机存取并行机器)模型,也称为共享存储的SIMD模型,是一种抽象的并行计算模型,它是从串行的RAM模型直接发展起来的。在这种模型中,假定存在一个容量无限大的共享存储器,有有限个或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻各处理器都可以通过共享存储单元相互交互数据。根据处理器对共享存储单元同时读、同时写的限
制,PRAM模型是同步的,这就意味着所有的指令都按照锁步的方式操作,用户虽然感觉不到同步的存在,但同步的存在的确很耗费时间,而且不能反映现实中很多系统的异步性;
[0083] 在具体实施例中,屏蔽模块通过时阈、频域或者通讯波段实现数据信息隔离。数据屏蔽不同于限制数据访问。访问限制使数据不可见。数据屏蔽将易受攻击或敏感数据替换为看起来真实的信息。当数据被屏蔽后,将对其进行更改,以使基本格式保持不便。
[0084] 在步骤二中,改进型贝叶斯算法模型的工作方法为:
[0085] 在具体实施例中,本发明采用海鸥算法优化朴素贝叶斯(Seagull Optimization Naive Bayes)算法,SONB算法能够对大数据和预警信息综合分析并能够快速不断更新,从而实现大数据存储系统实时用户服务功能。假设SONB算法分类器的属性变量之间的条件是
独立的,每个属性节点只与类节点C相关。由于SONB算法网络层次的减少,建立贝叶斯网络模型的复杂度呈指数级降低。
[0086] 步骤(1)、通过分类模块构建分类器模型,模型函数为:
[0087] (1)
[0088] 公式(1)中,P表示贝叶斯网络模型;Ck表示大数据类型;k表示大数据类型中的种类,i表示大数据序号, 表示所有输入数据信息的大数据集合,N表示大数据集合中的样本分类,P(xi|Ck)表示为大数据类别最大概率值。
[0089] 步骤(2)、通过构建分类器模型计算更新数据信息中故障数据;通过以下公式计算:   (2)
[0090] 公式(2)中,k=1,2,···,N,Nck表示所有大数据训练样本中未更新的样本数;当属性数量非常大时,在计算最大后验概率P(X|Ck)时,会增加计算成本,为了减少这种情况的影响,采用海鸥算法优化贝叶斯网络模型迭代训练过程,假设将未更新的大数据样本进
行全局搜索,样本与样本之间避免路径冲突,搜索模块函数为:
[0091]  (3)
[0092] 公式(3)中, 表示正在进行搜索更新数据信息的样本位置, 中的 表示输入数据信息的大数据集合,A表示样本在给定搜索空间中的移动空间范围,Hx表示海样本当前的位置,t表示当前迭代次数;
[0093] 步骤(3)、避免相邻大数据样本之间的冲突后,搜索模块将向最佳相邻样本中心的方向移动,搜索模块搜索数据信息的方法函数为:
[0094] (4)
[0095] 公式(4)中,M表示搜索海鸥数据信息的位置,Hbx表示数据更新过程中相对于最佳相邻搜索的样本的位置,Hbx中的b表示最佳相邻搜索样本位置中的标识,𝐵 表示数据更新过程中影响数据信息更新的常参数;通过不断更新所有大数据样本趋于奔向其相应的最佳相邻样本中心,不断更新样本位置,大数据更新位置函数Wx表示为:
[0096] (5)
[0097] 公式(5)中, 与 的上箭头表示数据更新过程中移动方向矢量,大数据在迭代训练过程中相对于更新前的最佳位置;
[0098] 步骤(4)、数据更新过程中的故障数据信息诊断;
[0099] 大数据x1,x2,···,xn的每个属性在条件上相互独立,假设更新过程中故障数据信息为C,则故障诊断函数输出为:
[0100] (6)
[0101] 公式(6)中, 表示更新过程中故障数据信息 在大数据集合 中出现的概率,P(xi|Ck) 表示为大数据类别最大概率值,其中:
[0102] (7)
[0103] 公式(7)中,  表示在迭代计算过程中,每次计算大数据更新时输出故障数据概率集合, 表示训练样本P(Ck)中同时满足大数据输入但未更新属性xi的样本数,如果
不存在 ,则说明大数据存储系统中所有大数据均已更新,如果存在 ,则说明大数
据存储系统中所有大数据均未更新,则训练样本数据更新故障函数进化为:
[0104] (8)
[0105] 根据上述计算原理,对于SONB算法网络各大数据类别的概率P(X|Ck)×P(Ck),概率值Ck的为输出对应的大数据更新样本类别,通过算法迭代训练进行不断更新过程。
[0106] 在步骤三中,更新预警函数通过具有定位功能的正交化函数实现更新数据信息预警。
[0107] 在上述实施例中,更新预警函数工作方法为:
[0108] 通过MTG定位函数实现大数据更新输入定位,更新数据信息过程中故障数据定位函数为:
[0109]           (9)
[0110] 公式(9)中, 表示更新数据信息过程中数据通信位置, 表示数据更新运行周期, 表示数据更新运行中数据通信协议, 表示数据更新中故障因素影响系数,
表示在第i个通信协议中数据更新运行周期;
[0111] 构建正交化函数,将更新数据信息过程中的故障信息通过矩阵形式表示,则正交化函数表示为:
[0112]  (10)
[0113] 公式(10)中, 表示正交化函数, 表示所有通信协议中数据更新指标相互交叠函数, 表示更新数据信息过程中故障数据迭代计算后的平均值,通过迭代计算后,对更新数据信息诊断结果进行故障诊断;
[0114] 将正交化函数输出数据信息至预警输出函数,预警输出函数为:
[0115]  (11)
[0116] 公式(11)中, 表示预警输出函数, 表示大数据类型中的种类,i为通信协议排序,N表示大数据集合中的样本分类, 表示数据更新过程中在第i个通信协议中迭代计
算后的平均值,  表示正交化函数运行过程中的稳定性。
[0117] 在具体实施例中,MTG(全称:Multiple‑Trigger Generator),意思是多触发脉冲发生器。选定的是±0.02作为误差范围,可以计算20 40米的通信误差。~
[0118] 在具体实施例中,施密特正交化(Schmidt orthogonalization)是求欧氏空间正交基的一种方法。从欧氏空间任意线性无关的向量组α1,α2,……,αm出发,求得正交向量组β1,β2,……,βm,使由α1,α2,……,αm与向量组β1,β2,……,βm等价,再将正交向量组中每个向量经过单位化,就得到一个标准正交向量组,这种方法称为施密特正交化。通过该方法能够实现大数据更新预警。当诊断出数据信息后,通过预警输出函数实现预警输出。
[0119] 在具体实施例中,施密特正交化的矩阵写法(MATLAB)仿真函数可以为:
[0120]
[0121] 在具体实施例中,更新预警函数的理论依据和更新数据信息过程中数据通信位置、数据更新运行周期、数据通信协、故障因素影响系数、通信协议中数据更新运行周期和正交化函数的稳定性等多种数据信息有关,通信协议中数据更新指标相互交叠函数过程
中,不同数据信息更新数据信息过程中故障数据迭代计算后的平均值也能反映预警参数,
因此,将上述不同数据信息融合在大数据计算模型中,能够动态即时计算出大数据存储系
统不断更新数据信息时的状况,通过预警输出函数将更新数据信息过程中的故障数据信息
通过大数据预警的方式输出。
[0122] 在具体实施例中,预警输出函数与通信状态、通信协议以及大数据算法模型过程中的稳定性都有关系,当预警输出函数输出一定的故障数据信息时,可以通过声音预警、信号预警、数据预警或者显示预警的方式向用户提示预警性,进而提高了和预警能力。
[0123] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,
可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因
此,本发明的范围仅由所附权利要求书限定。