一种工业系统无模型自适应控制方法及系统转让专利

申请号 : CN202110877921.6

文献号 : CN113325721B

文献日 : 2021-11-05

本发明涉及一种工业系统无模型自适应控制方法及系统。该方法包括：获取工业过程中各种设备的历史监测数据；利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令；根据所述历史监测数据构建预测仿真模型；基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型；获取当前监测数据；将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。本发明能够大大降低试错成本，得到更有效的智能控制策略。

1.一种工业系统无模型自适应控制方法，其特征在于，包括：获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包括工业生产中的管道压力；所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；所述目标输出类数据包括生产过程中控制的对象；

利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令；

根据所述历史监测数据构建预测仿真模型；

所述根据所述历史监测数据构建预测仿真模型，具体包括：构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测；其中，对于每一个单变量的预测，采用LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率为0.8，特征筛选比例feature_fraction为0.9，采用l2正则项减少过拟合；

将所述历史监测数据划分成7:3；其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数；

根据控制器给出的可控变量以及环境噪音量以及所述历史监测数据中的系统状态量以及目标当前状态输出量，整合多个所述预测模型构建预测仿真模型；

基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型；

获取当前监测数据；

将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

2.根据权利要求1所述的工业系统无模型自适应控制方法，其特征在于，所述利用所述可控制类数据生成控制指令集合，具体包括：定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据，为任一条所述监测数据中

可控制类数据的可控变量，为任一条所述监测数据中状态类数据的系统状态量，为任一条所述监测数据中环境噪声类数据的环境噪音量，为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间段的历史监测数据，为历史监测数据集合的大小，control为可控制类数据，state为状态类数据，env为环境噪声类数据，goal为目标输出类数据；

从所述历史监测数据S中对可控变量进行采集，生成条控制指令；

采用聚类的方式缩小条控制指令的规模，利用贝叶斯信息准则确定最佳的聚类中心数k，并将每个类簇中所有的聚类中心的平均值作为所述基于强化学习的控制模型的一个动作指令，生成控制指令集合。

3.根据权利要求2所述的工业系统无模型自适应控制方法，其特征在于，所述基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型，具体包括：构建基于强化学习的控制模型，并获取所述当前监测数据、设定控制目标值以及所述历史监测数据中下一时刻的环境噪音量；

将所述当前监测数据以及设定控制目标值输入至所述基于强化学习的控制模型，输出个控制指令的收益值，并以所述收益值作为概率权重进行采样，采样所述控制指令集合中的一条控制指令；

根据所述当前监测数据以及所述控制指令，利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量；

根据所述设定控制目标值和下一时刻的目标输出量，计算决策奖赏r；

基于所述决策奖赏r、所述当前监测数据、所述控制指令以及下一时刻的系统状态量以及目标预测状态输出量，利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练，以使得所述基于强化学习的控制模型在所述当前监测数据下，输出使未来累计奖赏最大的控制指令；

将下一时刻的监测数据s’(control,state,env,goal)替换所述当前监测数据s(control,state,env,goal)，训练所述基于强化学习的控制模型，直至所述基于强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控制模型。

4.根据权利要求3所述的工业系统无模型自适应控制方法，其特征在于，所述时序差分损失函数为：

其中，为累计折扣值；s为当前时刻的系统状态量以及目标当前状态输出量，s '为下一时刻的系统状态量以及目标预测状态输出量，为采样的控制指令，为在s'状态下可供选择的控制输入值，为所述基于强化学习的控制模型的学习速率；Q为强化学习网络，表示系统状态为s，执行控制命令为的情况下，控制策略未来获得的最优长期收益；

表示系统状态为s'，执行控制命令为的情况下，控制策略未来获得的长期收益；系统状态s经过控制演变为s'，获得的单步控制收益为r，对网络输出值进行优化，得到时序差分损失函数的优化结果。

5.一种工业系统无模型自适应控制系统，其特征在于，包括：历史监测数据获取模块，用于获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包括工业生产中的管道压力；所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；所述目标输出类数据包括生产过程中控制的对象；

控制指令集合生成模块，用于利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令；

预测仿真模型构建模块，用于根据所述历史监测数据构建预测仿真模型；

所述预测仿真模型构建模块，具体包括：多个预测模型构建单元，用于构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测；其中，对于每一个单变量的预测，采用LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率为

0.8，特征筛选比例feature_fraction为0.9，采用l2正则项减少过拟合；

划分单元，用于将所述历史监测数据划分成7:3；其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数；

预测仿真模型构建单元，用于根据控制器给出的可控变量以及环境噪音量以及所述历史监测数据中的系统状态量以及目标当前状态输出量，整合多个所述预测模型构建预测仿真模型；

训练后的基于强化学习的控制模型确定模块，用于基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型；

当前监测数据获取模块，用于获取当前监测数据；

自适应控制模块，用于将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

6.根据权利要求5所述的工业系统无模型自适应控制系统，其特征在于，所述控制指令集合生成模块，具体包括：

参数定义单元，用于定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据，为任一条所述监测数据中可控制类数据的可控变量，为任一条所述监测数据中状态类数据的系统状态量，为任一条所述监测数据中环境噪声类数据的环境噪音量，为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间段的历史监测数据，为历史监测数据集合的大小，control为可控制类数据，state为状态类数据，env为环境噪声类数据，goal为目标输出类数据；

控制指令生成单元，用于从所述历史监测数据S中对可控变量进行采集，生成条控制指令；

控制指令集合生成单元，用于采用聚类的方式缩小条控制指令的规模，利用贝叶斯信息准则确定最佳的聚类中心数k，并将每个类簇中所有的聚类中心的平均值作为所述基于强化学习的控制模型的一个动作指令，生成控制指令集合。

7.根据权利要求6所述的工业系统无模型自适应控制系统，其特征在于，所述训练后的基于强化学习的控制模型确定模块，具体包括：基于强化学习的控制模型构建单元，用于构建基于强化学习的控制模型，并获取所述当前监测数据、设定控制目标值以及所述历史监测数据中下一时刻的环境噪音量；

控制指令采样单元，用于将所述当前监测数据以及设定控制目标值输入至所述基于强化学习的控制模型，输出个控制指令的收益值，并以所述收益值作为概率权重进行采样，采样所述控制指令集合中的一条控制指令；

预测单元，用于根据所述当前监测数据以及所述控制指令，利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量；

决策奖赏计算单元，用于根据所述设定控制目标值和下一时刻的目标输出量，计算决策奖赏r；

训练单元，用于基于所述决策奖赏r、所述当前监测数据、所述控制指令以及下一时刻的系统状态量以及目标预测状态输出量，利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练，以使得所述基于强化学习的控制模型在所述当前监测数据下，输出使未来累计奖赏最大的控制指令；

训练后的基于强化学习的控制模型确定单元，用于将下一时刻的监测数据替换所述当前监测数据

，训练所述基于强化学习的控制模型，直至所述基于强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控制模型。

8.根据权利要求7所述的工业系统无模型自适应控制系统，其特征在于，所述时序差分损失函数为：

一种工业系统无模型自适应控制方法及系统

技术领域

[0001] 本发明涉及工业智能控制、强化学习控制领域，特别是涉及一种工业系统无模型自适应控制方法及系统。

背景技术

[0002] 近几年来，现代科学技术的快速发展推动着工业领域的发展，工业领域的信息化、自动化、智能化发展日渐成熟。而随着工业生产规模的日益扩大，在复杂工业场景下实现无
人智能化控制，如何进一步降低人力成本和操作人员的技能培训成本，如何脱离人为经验
干预，实现更加精准、可靠的智能控制策略，已成为亟需解决的关键问题。传统的智能化控
制技术只适用于简单的工业环境，在实际的工业生产中，复杂的工业环境中存在大量用于
监测数据的传感器，传统的智能化控制技术无法很好地利用监测数据的潜在特性，而基于
机器学习的控制方法能够学习到监测数据的变化规律，具有一定的学习能力与泛化能力，
可以从监测数据中挖掘出生产环境的客观规律，归纳出人类专家无法发现的经验与知识。

[0003] 在基于机器学习的控制中，一种典型的方法是采用以强化学习(Reinforcement Learning，RL)算法作为基础的控制律学习方法。强化学习可以从数据中学习复杂工业环境
中的监测值迁移规律，不需要领域专家进行控制规则的设计，适用于复杂工业场景。并且在
强化学习基础上进行增量学习，使控制模型具有自适应能力，在实际应用过程中，更加贴近
工业实际生产情况。强化学习在电网紧急控制策略研究[刘威，张东霞，王新迎，侯金秀，刘
丽平.基于深度强化学习的电网紧急控制策略研究[J].中国电机工程学报，2018，38(01):
109‑119+347.]、飞行器高度控制[苏立军，朱红娟，齐晓慧，董海瑞.基于强化学习的四旋翼
高度控制器设计[J].测控技术，2016，35(10):51‑53+58.]、风力发电变桨距控制等各种工
业领域有着广泛的应用。现有的实际工业生产控制中，需要在工业环境中进行控制策略的
训练和测试以获得性能更好的自适应模型，试错成本以及研发成本过高。

发明内容

[0004] 本发明的目的是提供一种工业系统无模型自适应控制方法及系统，以解决试错成本以及研发成本过高的问题。

[0005] 为实现上述目的，本发明提供了如下方案：

[0006] 一种工业系统无模型自适应控制方法，包括：

[0007] 获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述可控制类数据包括流量阀开
度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包括工业生产中的管道压力；
所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；所述目标输出类数据包括
生产过程中控制的对象；

[0008] 利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令；

[0009] 根据所述历史监测数据构建预测仿真模型；

[0010] 基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型；

[0011] 获取当前监测数据；

[0012] 将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

[0013] 可选的，所述利用所述可控制类数据生成控制指令集合，具体包括：

[0014] 定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据，为任一条所述监测数据中
可控制类数据的可控变量，为任一条所述监测数据中状态类数据的系统状态
量，为任一条所述监测数据中环境噪声类数据的环境噪音量，
为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间段的历史监测
数据，为历史监测数据集合的大小，control为可控制类数据，state为状态类数据，
env为环境噪声类数据，goal为目标输出类数据；

[0015] 从所述历史监测数据S中对可控变量进行采集，生成条控制指令；

[0016] 采用聚类的方式缩小条控制指令的规模，利用贝叶斯信息准则确定最佳的聚类中心数k，并将每个类簇中所有的聚类中心的平均值作为所述基于强
化学习的控制模型的一个动作指令，生成控制指令集合。

[0017] 可选的，所述根据所述历史监测数据构建预测仿真模型，具体包括：

[0018] 构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测；其中，对于每一个单变量的预测，采用
LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率为0.8，特征筛选比
例feature_fraction为0.9，采用l2正则项减少过拟合；

[0019] 将所述历史监测数据划分成7:3；其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数；

[0020] 根据控制器给出的可控变量以及环境噪音量以及所述历史监测数据中的系统状态量以及目标当前状态输出量，整合多个所述预
测模型构建预测仿真模型。

[0021] 可选的，所述基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型，具体包括：

[0022] 构建基于强化学习的控制模型，并获取所述当前监测数据、设定控制目标值以及所述历史
监测数据中下一时刻的环境噪音量；

[0023] 将所述当前监测数据以及设定控制目标值输入至所述基于强化学习的控制模型，输出个控制指令的收益
值，并以所述收益值作为概率权重进行采样，采样所述控制指令集合中的一条控制指令
；

[0024] 根据所述当前监测数据以及所述控制指令，利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量
；

[0025] 根据所述设定控制目标值和下一时刻的目标输出量，计算决策奖赏r；

[0026] 基于所述决策奖赏r、所述当前监测数据、所述控制指令以及下一时刻的系统状态量以及目标预测状态输出量
，利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控
制模型进行训练，以使得所述基于强化学习的控制模型在所述当前监测数据
下，输出使未来累计奖赏最大的控制指令
；

[0027] 将下一时刻的监测数据替换所述当前监测数据，训练所述基于强化学习的控制模型，直至所述
基于强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控制模型。

[0028] 可选的，所述时序差分损失函数为：

[0029]

[0030] 其中，为累计折扣值；s为当前时刻的系统状态量以及目标当前状态输出量，s '为下一时刻的系统状态量以及目标预测状态输出量
，为采样的控制指令，为在s'状态下可供选择的控
制输入值，为所述基于强化学习的控制模型的学习速率；Q为强化学习网络，表示
系统状态为s，执行控制命令为的情况下，控制策略未来获得的最优长期收益；
表示系统状态为s'，执行控制命令为的情况下，控制策略未来获得的长期收益；系统状态
s经过控制演变为s'，获得的单步控制收益为r，对网络输出值进行优化，得到时序
差分损失函数的优化结果。

[0031] 一种工业系统无模型自适应控制系统，包括：

[0032] 历史监测数据获取模块，用于获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述可
控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包括
工业生产中的管道压力；所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；所
述目标输出类数据包括生产过程中控制的对象；

[0033] 控制指令集合生成模块，用于利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令；

[0034] 预测仿真模型构建模块，用于根据所述历史监测数据构建预测仿真模型；

[0035] 训练后的基于强化学习的控制模型确定模块，用于基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模
型；

[0036] 当前监测数据获取模块，用于获取当前监测数据；

[0037] 自适应控制模块，用于将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

[0038] 可选的，所述控制指令集合生成模块，具体包括：

[0039] 参数定义单元，用于定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据，为任一条所述监测
数据中可控制类数据的可控变量，为任一条所述监测数据中状态类数据的系
统状态量，为任一条所述监测数据中环境噪声类数据的环境噪音量，
为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间
段的历史监测数据，为历史监测数据集合的大小，control为可控制类数据，state为
状态类数据，env为环境噪声类数据，goal为目标输出类数据；

[0040] 控制指令生成单元，用于从所述历史监测数据S中对可控变量进行采集，生成条控制指令；

[0041] 控制指令集合生成单元，用于采用聚类的方式缩小条控制指令的规模，利用贝叶斯信息准则确定最佳的聚类中心数k，并将每个类簇中所有的聚类中心
的平均值作为所述基于强化学习的控制模型的一个动作指令，生成控制
指令集合。

[0042] 可选的，所述预测仿真模型构建模块，具体包括：

[0043] 多个预测模型构建单元，用于构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测；其中，对于每一个
单变量的预测，采用LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率
为0.8，特征筛选比例feature_fraction为0.9，采用l2正则项减少过拟合；

[0044] 划分单元，用于将所述历史监测数据划分成7:3；其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数；

[0045] 预测仿真模型构建单元，用于根据控制器给出的可控变量以及环境噪音量以及所述历史监测数据中的系统状态量以及目标当前状态输出量
，整合多个所述预测模型构建预测仿真模型。

[0046] 可选的，所述训练后的基于强化学习的控制模型确定模块，具体包括：

[0047] 基于强化学习的控制模型构建单元，用于构建基于强化学习的控制模型，并获取所述当前监测数据、设定控制目标值
以及所述历史监测数据中下一时刻的环境噪音量；

[0048] 控制指令采样单元，用于将所述当前监测数据以及设定控制目标值输入至所述
基于强化学习的控制模型，输出个控制指令的收益值，并以所述收益值作为概率权
重进行采样，采样所述控制指令集合中的一条控制指令；

[0049] 预测单元，用于根据所述当前监测数据以及所述控制指令，利用预测仿真模型预测下一时刻的系统状态量以及目标预
测状态输出量；

[0050] 决策奖赏计算单元，用于根据所述设定控制目标值和下一时刻的目标输出量，计算决策奖赏r；

[0051] 训练单元，用于基于所述决策奖赏 r 、所述当前监测数据、所述控制指令以及下一时刻的系统
状态量以及目标预测状态输出量，利用基于Q‑Learning的时序差分损
失函数对所述基于强化学习的控制模型进行训练，以使得所述基于强化学习的控制模型在
所述当前监测数据下，输出使未来累计奖赏最大的控
制指令；

[0052] 训练后的基于强化学习的控制模型确定单元，用于将下一时刻的监测数据替换所述当前监测数据
，训练所述基于强化学习的控制模型，直至所述基于
强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控制模型。

[0053] 可选的，所述时序差分损失函数为：

[0054]

[0055] 其中，为累计折扣值；s为当前时刻的系统状态量以及目标当前状态输出量，s '为下一时刻的系统状态量以及目标预测状态输出量
，为采样的控制指令，为在s'状态下可供选择的控
制输入值，为所述基于强化学习的控制模型的学习速率；Q为强化学习网络，表示
系统状态为s，执行控制命令为的情况下，控制策略未来获得的最优长期收益；
表示系统状态为s'，执行控制命令为的情况下，控制策略未来获得的长期收益；系统状态
s经过控制演变为s'，获得的单步控制收益为r，对网络输出值进行优化，得到时序
差分损失函数的优化结果。

[0056] 根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种工业系统无模型自适应控制方法及系统，直接利用工业系统的传感监测数据建立一个用于
环境状态推演的预测仿真模型，同时在数据预处理过程中获得控制指令的集合，最后利用
强化学习的方法基于这个预测仿真模型学习控制策略，训练基于强化学习的控制模型，生
成训练后的基于强化学习的控制模型，输出所述工业系统的最优设定目标，从而不需要在
工业环境中进行控制策略的训练和测试，大大的降低了试错成本。并且即使产生训练数据
的实际工业设备并未表现较好的控制性能，利用本发明提出的工业系统无模型自适应控制
方法或系统学习控制经验，能够得到比现有控制系统或算法更加有效的智能控制策略。

附图说明

[0057] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施
例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获
得其他的附图。

[0058] 图1为本发明所提供的工业系统无模型自适应控制方法流程图；

[0059] 图2为本发明所提供的工业系统无模型自适应控制方法的技术框架图；

[0060] 图3为本发明所提供的预测仿真模型结构示意图；

[0061] 图4为本发明所提供的强化学习网络结构示意图；

[0062] 图5为本发明所提供的工业系统无模型自适应控制系统结构图。

具体实施方式

[0063] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本发明保护的范围。

[0064] 本发明的目的是提供一种工业系统无模型自适应控制方法及系统，能够大大降低试错成本，得到更有效的智能控制策略。

[0065] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0066] 图1为本发明所提供的工业系统无模型自适应控制方法流程图，如图1所示，一种工业系统无模型自适应控制方法，包括：

[0067] 步骤101：获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述可控制类数据包括流量
阀开度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包括工业生产中的管道压
力；所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；所述目标输出类数据包
括生产过程中控制的对象。

[0068] 首先对工业过程中采集到的各种来自传感器、电机设备、阀门开关等设备的监测数据进行分类和定义，具体分成如下四类：

[0069] 1）可控制类：在工业现场允许直接调控的生产参数，比如在工业生产中可以调控的流量阀开度、开度阀开度、变频器转速、泵机转速等，此类变量归为可控制类，后文简称
control。

[0070] 2）状态类：不可直接控制，但是与可控制类变量存在着复杂的耦合因果关系，可以通过调节可控制类参数间接控制，比如工业生产中的管道压力，压力值可以通过传感器进
行监测，但无法直接控制管道的压力值，只有通过控制管道一段的泵速进而调整管道的流
量，进而控制管道的压力值。此类变量后文简称state。

[0071] 3）环境噪声类：不由生产系统内部决定，仅来源于外界的变化参量，包括上一个工序的产品信息或者如温度、适度等外部环境影响因素，后文简称env。

[0072] 4）目标输出类：生产过程中要控制的对象，往往是生产过程中影响质量和成本的关键对象，后文简称goal。

[0073] 在实际应用中，如图2所示，首先需要在生产过程中的关键节点安装传感器，以对系统状态量s’(state,goal)和环境噪音量s(env)进行测量，生产过程中的可控量一般可以
从现场控制系统中直接获取。完成数据收集后需要将不同的时间序列按照时间对齐，具体
地，可以采用线性插值或者高斯过程方法。假定对齐后的序列长度为。

[0074] 步骤102：利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令。

[0075] 所述步骤102具体包括：定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据，为任一条所述
监测数据中可控制类数据的可控变量，为任一条所述监测数据中状态类数据
的系统状态量，为任一条所述监测数据中环境噪声类数据的环境噪音量，
为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间
段的历史监测数据，为历史监测数据集合的大小，control为可控制类数据，state为
状态类数据，env为环境噪声类数据，goal为目标输出类数据；从所述历史监测数据S中对可
控变量进行采集，生成条控制指令；采用聚类的方式缩小条
控制指令的规模，利用贝叶斯信息准则确定最佳的聚类中心数k，并将每个类簇中所有的聚
类中心的平均值作为所述基于强化学习的控制模型的一个动作指令，生
成控制指令集合。

[0076] 在实际应用中，完成数据收集与数据对齐后，对原始监测数据中的可控制类参量进行提取，本案例中共包括一个流量阀开度、2个变频器转速、1个泵机转速，此类可控单元
数据均可以同其他传感器监测数据一并导出，第条控制指令表示为如式1所
示：

[0077] (1)

[0078] 其中，s(control)i代表监测数据中第i条记录中的可控部分。通过步骤101得到条控制指令，由于该指令集合过大，强化学习模型难以做出决策，而且其中会存在大量
相似或者相同的指令，因此本发明采用聚类的方式来缩小它的规模。

[0079] 具体地，采用K‑means聚类算法，将相似的控制指令聚合为一个簇，只将簇的中心作为可供强化学习模型选择的控制指令，由于不同输入项之间量纲不同，需要在聚类之前
采用归一化方法来使actions集合中指令距离的计算更有意义：

[0080] (2)

[0081] 其中，mean表示计算所有数据条目的均值，std表示计算所有数据条目的标准差。聚类中心数k的取值大小则是参照贝叶斯信息准则（Bayes Information Criterion，BIC）
值来衡量的，BIC值越大聚类效果越好。BIC的定义如式3所示：

[0082] (3)

[0083] 其中，L为所有数据点对其所属类别的似然值的和。通过比较不同聚类数目k的BIC值来得到最佳的聚类数目，即式4：

[0084] (4)

[0085] Components表示聚类中心数，kmeans表示执行K‑means聚类算法的过程。最后使用每个类内指令的均值来代表一个指令，从而得到给定数据集下的k个控制指令。

[0086] (5)

[0087] 步骤103：根据所述历史监测数据构建预测仿真模型。

[0088] 所述步骤103具体包括：构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测；其中，对于每一个单变量
的预测，采用LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率为0.8，
特征筛选比例feature_fraction为0.9，采用l2正则项减少过拟合；将所述历史监测数据划
分成7:3；其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数；根据控
制器给出的可控变量以及环境噪音量以及所述历史监测数据中的
系统状态量以及目标当前状态输出量，整合多个所述预测模型构建预测
仿真模型。

[0089] 在实际应用中，如图3所示，需要构建多个预测模型以对中的各个量进行独立预测，最后将所有的独立模型整合在一起，作为完整的系统仿真预测模型。

[0090] 对于每一个单变量的预测，采用LightGBM算法构建预测模型，最大叶子数目num_leaves为10，学习速率取为0.8，特征筛选比例feature_fraction为0.9，采用l2正则项减少
过拟合。

[0091] 将历史监测数据划分成7:3，其中30%数据作为验证集用于确定最优的模型超参数。

[0092] 对于每一个中的被预测因变量，将所有模型集成在一起，即可构建工业过程的仿真模型，即根据控制器给出的控制量或环境噪音量
以及系统当前状态量，预测出新的
。

[0093] 步骤104：基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模型。

[0094] 所述步骤104具体包括：构建基于强化学习的控制模型，并获取所述当前监测数据、设定控制目标值以及所述历史
监测数据中下一时刻的环境噪音量；将所述当前监测数据
以及设定控制目标值输入至所述
基于强化学习的控制模型，输出个控制指令的收益值，并以所述收益值作为概率权
重进行采样，采样所述控制指令集合中的一条控制指令；根据所述当前监
测数据以及所述控制指令，利用预测
仿真模型预测下一时刻的系统状态量以及目标预测状态输出量；根据所
述设定控制目标值和下一时刻的目标输出量，计算决策奖赏
r；基于所述决策奖赏r、所述当前监测数据、所述控制
指令以及下一时刻的系统状态量以及目标预测状态输出量
，利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控
制模型进行训练，以使得所述基于强化学习的控制模型在所述当前监测数据
下，输出使未来累计奖赏最大的控制指令
；将下一时刻的监测数据替换所述
当前监测数据，训练所述基于强化学习的控制模型，
直至所述基于强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控
制模型。

[0095] 所述时序差分损失函数为：

[0096]

[0097] 其中，该时序差分损失函数为基于Q学习的迭代优化函数，为累计折扣值，设置为0.95；s为当前时刻的系统状态量以及目标当前状态输出量，s'为下一
时刻的系统状态量以及目标预测状态输出量，为采样的控制指令
，为在s'状态下可供选择的控制输入值，为所述基于强化学习的控制
模型的学习速率；Q为强化学习网络，表示系统状态为s，执行控制命令为的情况
下，控制策略未来获得的最优长期收益；表示系统状态为s'，执行控制命令为的
情况下，控制策略未来获得的长期收益；系统状态s经过控制演变为s'，假设执行控制命令
为的情况下，控制策略未来能够获得的长期收益。利用迭代的贝尔曼方程，利用收集到的
系统状态演变数据，即系统状态s经过控制演变为s'，获得的单步控制收益为r，由此可以
对网络输出值进行优化，得到。

[0098] 在实际应用中，利用多个LightGBM模型构建的预测仿真模型，即可训练基于强化学习的控制模型，具体步骤如下：

[0099] 构建基于深度神经网络的强化学习模型，如图4所示，模型输入当前系统状态量以及设定控制目标值human(goal)，输出每个动作的
预估的奖赏，其中是控制指令集合Actions中的第i个控制指令，i∈n，n为控制指
令序号，设定控制目标值human(goal)指的是人设定的goal的目标值。

[0100] 网络由全连接层、RELU非线性激活层、噪音线性层、softmax归一化层组成。在网络中分别引入了状态值分支V和动作优势值估计分支A，通过实验验证该网络设计能够提升动
作值估计的准确度。

[0101] 强化学习模型的奖赏根据目标参量的预测值与人为设定值之间的差异进行分段定义，差异值为e：

[0102]

[0103] 则奖赏的计算方法如表1所示。

[0104] 表1 奖赏定义表

[0105] 奖赏10
6
2
0

[0106] 其中，差异值的分段标准与本实施案例所应用的工业场景有关，该参数在不同工业场景不具有通用性。

[0107] 强化学习网络的训练：强化学习以片段为单位，同时为了加快模型训练速度，需要采用并行化技术使模型同时处理和学习多个片段，用batch_size=32表示并行化的数量，具
体训练过程如下：

[0108] 从实际生产数据中随机取出 ba tc h _s i ze 个当前监测数据用于表征当前生产情况的状态参数，作为每个训练
片段的起始状态。设定人为给定的控制目标值human(goal)，本发明以工业浓密机底流浓度
控制为例，设置为67。

[0109] 对于每一时刻状态，强化学习网络输入状态参数和控制目标值human(goal)，输出batch_size个大小
为聚类中心数k的向量，向量中的每个值代表选某一个控制输入带来的未来长期折扣收益。
此时使用softmax函数将收益值转化为动作选择的概率分布，并从中采样一条控制指令s’
(control)，并采用预测仿真模型预测下一时刻系统状态。

[0110] 将、s’(control)作为获得的预测仿真模型的输入，预测下一时刻的系统状态量和目标量s’(state,goal)。

[0111] 根据人为设定的目标值human(goal)和预测得到的s’(goal)计算决策奖赏r，并基于目标当前状态输出量s(state,goal)、目标预测状态输出量s’(state,goal)、奖赏、控
制输入s’(control)，利用基于Q‑Learning的时序差分损失函数对控制模型参数进行训练，
以使得强化学习模型能够在给定下，输出使奖赏r尽
可能大的s’(control)。时序差分损失函数表示为：

[0112] (6)

[0113] 其中，为累计折扣值，设置为0.95；s为当前时刻的系统状态量以及目标当前状态输出量，s'为下一时刻的系统状态量以及目标预测状态输出量
，为采样的控制指令，为在s'状态下可供选择的控
制输入值，为所述基于强化学习的控制模型的学习速率；Q为强化学习网络，表示
系统状态为s，执行控制命令为的情况下，控制策略未来获得的最优长期收益；
表示系统状态为s'，执行控制命令为的情况下，控制策略未来获得的长期收益；系统状态
s经过控制演变为s'，假设执行控制命令为的情况下，控制策略未来能够获得的长期收
益。利用迭代的贝尔曼方程，利用收集到的系统状态演变数据，即系统状态s经过控制演变
为s'，获得的单步控制收益为r，由此可以对网络输出值进行优化，得到。

[0114] 利用s’(control,state,env,goal)替换s(control,state,env,goal)，重复训练基于强化学习的控制模型，在控制模型训练过程中，模型连续50轮迭代获得的平均奖赏均
没有升高，说明模型参数达到收敛状态。

[0115] 步骤105：获取当前监测数据。

[0116] 步骤106：将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

[0117] 将训练好的强化学习模型部署在工业现场的DCS工程师站或高性能计算服务器上，将模型推理程序部署为支持RestFul协议访问的Web服务。

[0118] 利用工控系统数据采集协议，如OPC UA协议，依照控制模型训练时对应的数据采集间隔，定时访问传感器监测值、可控单元状态值、外部环境量等工业系统状态量s
(control,state,env,goal)。

[0119] 将s(control,state,env,goal)和人为设定值输入控制模型中，在求解结果中选择k个候选动作中未来潜在收益估计值最大的命令，并利用工控协议写入控制系统完成控
制。

[0120] 图5为本发明所提供的工业系统无模型自适应控制系统结构图，如图5所示，一种工业系统无模型自适应控制系统，包括：

[0121] 历史监测数据获取模块501，用于获取工业过程中各种设备的历史监测数据；所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据；所述
可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速；所述状态类数据包
括工业生产中的管道压力；所述环境噪声类数据包括上一工序的产品信息、温度以及湿度；
所述目标输出类数据包括生产过程中控制的对象。

[0122] 控制指令集合生成模块502，用于利用所述可控制类数据生成控制指令集合；所述控制指令集合包括多条下一时刻生成的控制指令。

[0123] 所述控制指令集合生成模块502，具体包括：参数定义单元，用于定义一条监测数据，所述监测数据为历史监测数据S或当前监测数据
，为任一条所述监测数据中
可控制类数据的可控变量，为任一条所述监测数据中状态类数据的系统状态
量，为任一条所述监测数据中环境噪声类数据的环境噪音量，
为任一条所述监测数据中目标输出类数据的目标输出量，S为一个连续时间段的历史监测
数据，为历史监测数据集合的大小，control为可控制类数据，state为状态类数据，
env为环境噪声类数据，goal为目标输出类数据；控制指令生成单元，用于从所述历史监测
数据S中对可控变量进行采集，生成条控制指令；控制指令集合生
成单元，用于采用聚类的方式缩小条控制指令的规模，利用贝叶斯信息准则确定最佳
的聚类中心数k，并将每个类簇中所有的聚类中心的平均值作为所述基于
强化学习的控制模型的一个动作指令，生成控制指令集合。

[0124] 预测仿真模型构建模块503，用于根据所述历史监测数据构建预测仿真模型。

[0125] 所述预测仿真模型构建模块503，具体包括：多个预测模型构建单元，用于构建多个预测模型，以对下一时刻的系统状态量以及目标预测状态输出量中
的各个变量进行独立预测；其中，对于每一个单变量的预测，采用LightGBM算法构建预测模
型，最大叶子数目num_leaves为10，学习速率为0.8，特征筛选比例feature_fraction为
0.9，采用l2正则项减少过拟合；划分单元，用于将所述历史监测数据划分成7:3；其中30%的
历史监测数据作为验证集用于确定最优的预测模型的超参数；预测仿真模型构建单元，用
于根据控制器给出的可控变量以及环境噪音量以及所述历史监测
数据中的系统状态量以及目标当前状态输出量，整合多个所述预测模型
构建预测仿真模型。

[0126] 训练后的基于强化学习的控制模型确定模块504，用于基于所述控制指令集合，根据所述预测仿真模型训练基于强化学习的控制模型，生成训练后的基于强化学习的控制模
型。

[0127] 所述训练后的基于强化学习的控制模型确定模块504，具体包括：基于强化学习的控制模型构建单元，用于构建基于强化学习的控制模型，并获取所述当前监测数据
、设定控制目标值以及所述历史
监测数据中下一时刻的环境噪音量；控制指令采样单元，用于将所述当前监测数
据以及设定控制目标值输入至所
述基于强化学习的控制模型，输出个控制指令的收益值，并以所述收益值作为概率
权重进行采样，采样所述控制指令集合中的一条控制指令；预测单元，用于
根据所述当前监测数据以及所述控制指令
，利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量
；决策奖赏计算单元，用于根据所述设定控制目标值
和下一时刻的目标输出量，计算决策奖赏r训练单元，用于基于所述决策奖赏r、
所述当前监测数据、所述控制指令以
及下一时刻的系统状态量以及目标预测状态输出量，利用基于Q‑
Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练，以使得所述基于
强化学习的控制模型在所述当前监测数据下，输出使
未来累计奖赏最大的控制指令；训练后的基于强化学习的控制模型确定单
元，用于将下一时刻的监测数据替换所述当前监测
数据，训练所述基于强化学习的控制模型，直至所述
基于强化学习的控制模型的平均奖赏不再升高，确定训练后的基于强化学习的控制模型。

[0128] 所述时序差分损失函数为：

[0129]

[0130] 其中，为累计折扣值，设置为0.95；s为当前时刻的系统状态量以及目标当前状态输出量，s'为下一时刻的系统状态量以及目标预测状态输出量
，为采样的控制指令，为在s'状态下可供选择的控
制输入值，为所述基于强化学习的控制模型的学习速率；Q为强化学习网络，表示
系统状态为s，执行控制命令为的情况下，控制策略未来获得的最优长期收益；
表示系统状态为s'，执行控制命令为的情况下，控制策略未来获得的长期收益；系统状态
s经过控制演变为s'，获得的单步控制收益为r，假设执行控制命令为的情况下，控制策
略未来能够获得的长期收益。利用迭代的贝尔曼方程，利用收集到的系统状态演变数据，即
系统状态s经过控制演变为s'，获得的单步控制收益为r，由此可以对网络输出值
进行优化，得到。

[0131] 当前监测数据获取模块505，用于获取当前监测数据。

[0132] 自适应控制模块506，用于将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中，自适应控制工业系统的生产过程，输出所述工业系统的最优设定目标。

[0133] 本发明针对传统智能化控制技术只适用于简单工业环境的局限性，提供了一种基于机器学习与强化学习相结合的控制方法。该方法利用其较强的自学习能力与泛化能力，
可以从监测数据中挖掘出生产环境的客观规律，并转化为具有较好控制精度的智能控制策
略，能够脱离领域专家和控制专家的人为干预。

[0134] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统
而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说
明即可。

[0135] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据
本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不
应理解为对本发明的限制。

一种工业系统无模型自适应控制方法及系统转让专利

申请号 : CN202110877921.6

文献号 : CN113325721B

文献日 : 2021-11-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 罗远哲 , 刘瑞景 , 赵爱民 , 李玉琼 , 耿云晓 , 刘志明 , 易文军 , 任光远 , 靳晓栋

申请人 : 北京中超伟业信息安全技术股份有限公司 , 中超伟业(北京)商业数据技术服务有限公司

摘要 :

权利要求 :

说明书 :