用于卷烟实时数采的数据缺失值填充方法转让专利

申请号 : CN202110904327.1

文献号 : CN113515896B

文献日 : 2022-08-09

本发明公开了一种用于卷烟实时数采的数据缺失值填充方法，本发明的设计构思在于，通过大数据统计分析，以机器学习的方式，对实时数采数据的缺失值进行自动填充，结合自学习模型，将数采数据对应的预测值填入至缺失位置，并检测填充的缺失值是否在预测值的置信区间范围内。在此过程中，动态根据实际数据情况进行更新和迭代。本发明解决了卷烟工业现场干扰噪声信号影响的问题，实现了实时数采数据缺失值的自动填充，在确保控制精度的同时，并能保证信息系统分析结果的正确性、准确性。

1.一种用于卷烟实时数采的数据缺失值填充方法，其特征在于，包括：在进行实时数据采集过程中，当检测到数据缺失时，根据已采集的数据以及预先构建的预测模型，预测出缺失的待填入数据；

根据预设的置信区间，校验所述待填入数据是否有效；

若有效，则将待填入数据补进实时数采数据的缺失位置；

其中，所述预测模型的构建方式包括：

按照数据采样频率、数据结构、数据字段划分为若干个分组，并根据品牌、批次、工序段对所述分组进行分类及汇总；

检索并获取历史生产数据；

根据已确定的若干分组对所述历史生产数据进行整理，并向对应分组中导入所述历史生产数据得到样本集，所述历史生产数据包含原始的数采数据；

将所述样本集中的数据与真实生产情况进行关联，得到数据分布特征及映射特征；

根据所述样本集中的数据、所述数据分布特征以及所述映射特征训练所述预测模型，使所述预测模型输出预测期望值。

2.根据权利要求1所述的用于卷烟实时数采的数据缺失值填充方法，其特征在于，所述预测模型被配置为：具有基于现场实际数据以及算法仿真数据所形成的虚实映射自学习机制。

3.根据权利要求1所述的用于卷烟实时数采的数据缺失值填充方法，其特征在于，所述方法还包括：在数采过程中，根据实际数据情况动态更新并迭代所述预测模型的参数。

4.根据权利要求3所述的用于卷烟实时数采的数据缺失值填充方法，其特征在于，所述根据实际数据情况动态更新并迭代所述预测模型的参数包括：根据卷烟原料等级、环境温湿度数据，并结合当前生产对应的牌号、批次号以及涉及的设备参数，持续训练并优化所述预测模型的参数。

5.根据权利要求1所述的用于卷烟实时数采的数据缺失值填充方法，其特征在于，在所述预测模型的训练阶段，将预先设定的置信区间作为输入，使所述预测模型输出符合置信区间的预测期望值。

用于卷烟实时数采的数据缺失值填充方法

技术领域

[0001] 本发明涉及烟草工业领域，尤其涉及一种用于卷烟实时数采的数据缺失值填充方法。

背景技术

[0002] 现阶段的烟草生产一线，已从传统意义上的机械化、自动化向智能化、智慧化发展，尤其是物联网的进一步推广，现阶段已不仅仅是传统意义上的RS232、RS485、Profinet、Profibus、Profibus‑DP、PLC子网、Wincc中控网络等。在此基础上，新增了物联网、NBIoT网络、工业以太网等网络，随着设备数量、传感器数量的海量剧增，传统意义上对应的数采协议收到卷烟工业现场干扰噪声信号的影响将逐渐加大，造成实时数采数据缺失、数采数据错位等风险，严重影响现有设备的控制效能及信息系统的分析结果。

[0003] 目前采用的解决方法是加大传感器校验量并设置多级校验机制，而设备本身检测有大概5％的误差，随着增设设备的数量增加必然会导致误差叠加累计，一旦过程中某传感器出现差错，将导致数据错误的“蝴蝶效应”，使得检测校验的效能近乎失效。

发明内容

[0004] 鉴于上述，本发明旨在提供一种用于卷烟实时数采的数据缺失值填充方法，解决新增了物联网、NBIoT网络、工业以太网等复杂网络的同时，消除卷烟工业现场干扰噪声信号影响的问题，实现了实时数采数据的缺失值的自动填充。

[0005] 本发明采用的技术方案如下：

[0006] 一种用于卷烟实时数采的数据缺失值填充方法，其中包括：

[0007] 在进行实时数据采集过程中，当检测到数据缺失时，根据已采集的数据以及预先构建的预测模型，预测出缺失的待填入数据；

[0008] 根据预设的置信区间，校验所述待填入数据是否有效；

[0009] 若有效，则将待填入数据补进实时数采数据的缺失位置。

[0010] 在其中至少一种可能的实现方式中，所述预测模型被配置为：具有基于现场实际数据以及算法仿真数据所形成的虚实映射自学习机制。

[0011] 在其中至少一种可能的实现方式中，所述方法还包括：在数采过程中，根据实际数据情况动态更新并迭代所述预测模型的参数。

[0012] 在其中至少一种可能的实现方式中，所述根据实际数据情况动态更新并迭代所述预测模型的参数包括：根据卷烟原料等级、环境温湿度数据，并结合当前生产对应的牌号、批次号以及涉及的设备参数，持续训练并优化所述预测模型的参数。

[0013] 在其中至少一种可能的实现方式中，所述预测模型的构建方式包括：

[0014] 按照数据采样频率、数据结构、数据字段划分为若干个分组，并根据品牌、批次、工序段对所述分组进行分类及汇总；

[0015] 检索并获取历史生产数据；

[0016] 根据已确定的若干分组对所述历史生产数据进行整理，并向对应分组中导入所述历史生产数据得到样本集，所述历史生产数据包含原始的数采数据；

[0017] 将所述样本集中的数据与真实生产情况进行关联，得到数据分布特征及映射特征；

[0018] 根据所述样本集中的数据、所述数据分布特征以及所述映射特征训练所述预测模型，使所述预测模型输出预测期望值。

[0019] 在其中至少一种可能的实现方式中，在所述预测模型的训练阶段，将预先设定的置信区间作为输入，使所述预测模型输出符合置信区间的预测期望值。

[0020] 本发明的设计构思在于，通过大数据统计分析，以机器学习的方式，对实时数采数据的缺失值进行自动填充，结合自学习模型，将数采数据对应的预测值填入至缺失位置，并检测填充的缺失值是否在预测值的置信区间范围内。在此过程中，动态根据实际数据情况进行更新和迭代。本发明解决了卷烟工业现场干扰噪声信号影响的问题，实现了实时数采数据缺失值的自动填充，在确保控制精度的同时，并能保证信息系统分析结果的正确性、准确性。

附图说明

[0021] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

[0022] 图1为本发明实施例提供的用于卷烟实时数采的数据缺失值填充方法的流程图。

具体实施方式

[0023] 下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0024] 本发明提出了一种用于卷烟实时数采的数据缺失值填充方法的实施例，具体来说，如图1所示，可以包括：

[0025] 步骤S1、在进行实时数据采集过程中，当检测到数据缺失时，根据已采集的数据以及预先构建的预测模型，预测出缺失的待填入数据；

[0026] 步骤S2、根据预设的置信区间，校验所述待填入数据是否有效；

[0027] 若有效，则执行步骤S3、将待填入数据补进实时数采数据的缺失位置。

[0028] 进一步地，所述预测模型被配置为：具有基于现场实际数据以及算法仿真数据所形成的虚实映射自学习机制。

[0029] 进一步地，所述方法还包括：在数采过程中，根据实际数据情况动态更新并迭代所述预测模型的参数。

[0030] 进一步地，所述根据实际数据情况动态更新并迭代所述预测模型的参数包括：根据卷烟原料等级、环境温湿度数据，并结合当前生产对应的牌号、批次号以及涉及的设备参数，持续训练并优化所述预测模型的参数。

[0031] 进一步地，所述预测模型的构建方式包括：

[0032] 按照数据采样频率、数据结构、数据字段划分为若干个分组，并根据品牌、批次、工序段对所述分组进行分类及汇总；

[0033] 检索并获取历史生产数据；

[0034] 根据已确定的若干分组对所述历史生产数据进行整理，并向对应分组中导入所述历史生产数据得到样本集，所述历史生产数据包含原始的数采数据；

[0035] 将所述样本集中的数据与真实生产情况进行关联，得到数据分布特征及映射特征；

[0036] 根据所述样本集中的数据、所述数据分布特征以及所述映射特征训练所述预测模型，使所述预测模型输出预测期望值。

[0037] 进一步地，在所述预测模型的训练阶段，将预先设定的置信区间作为输入，使所述预测模型输出符合置信区间的预测期望值。

[0038] 综上所述，本发明的设计构思在于，通过大数据统计分析，以机器学习的方式，对实时数采数据的缺失值进行自动填充，结合自学习模型，将数采数据对应的预测值填入至缺失位置，并检测填充的缺失值是否在预测值的置信区间范围内。在此过程中，动态根据实际数据情况进行更新和迭代。本发明解决了卷烟工业现场干扰噪声信号影响的问题，实现了实时数采数据缺失值的自动填充，在确保控制精度的同时，并能保证信息系统分析结果的正确性、准确性。

[0039] 本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

[0040] 以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

用于卷烟实时数采的数据缺失值填充方法转让专利

申请号 : CN202110904327.1

文献号 : CN113515896B

文献日 : 2022-08-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李达 , 许仁杰 , 袁湘云 , 刘智宇 , 马洁 , 葛文

申请人 : 红云红河烟草(集团)有限责任公司

摘要 :

权利要求 :

说明书 :