一种工业系统无模型自适应控制方法及系统转让专利
申请号 : CN202110877921.6
文献号 : CN113325721B
文献日 : 2021-11-05
发明人 : 罗远哲 , 刘瑞景 , 赵爱民 , 李玉琼 , 耿云晓 , 刘志明 , 易文军 , 任光远 , 靳晓栋
申请人 : 北京中超伟业信息安全技术股份有限公司 , 中超伟业(北京)商业数据技术服务有限公司
摘要 :
权利要求 :
1.一种工业系统无模型自适应控制方法,其特征在于,包括:获取工业过程中各种设备的历史监测数据;所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据;所述可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包括工业生产中的管道压力;所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;所述目标输出类数据包括生产过程中控制的对象;
利用所述可控制类数据生成控制指令集合;所述控制指令集合包括多条下一时刻生成的控制指令;
根据所述历史监测数据构建预测仿真模型;
所述根据所述历史监测数据构建预测仿真模型,具体包括:构建多个预测模型,以对下一时刻的系统状态量以及目标预测状态输出量中的各个变量进行独立预测;其中,对于每一个单变量的预测,采用LightGBM算法构建预测模型,最大叶子数目num_leaves为10,学习速率为0.8,特征筛选比例feature_fraction为0.9,采用l2正则项减少过拟合;
将所述历史监测数据划分成7:3;其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数;
根据控制器给出的可控变量以及环境噪音量 以及所述历史监测数据中的系统状态量以及目标当前状态输出量 ,整合多个所述预测模型构建预测仿真模型;
基于所述控制指令集合,根据所述预测仿真模型训练基于强化学习的控制模型,生成训练后的基于强化学习的控制模型;
获取当前监测数据;
将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中,自适应控制工业系统的生产过程,输出所述工业系统的最优设定目标。
2.根据权利要求1所述的工业系统无模型自适应控制方法,其特征在于,所述利用所述可控制类数据生成控制指令集合,具体包括:定义一条监测数据,所述监测数据为历史监测数据S或当前监测数据, 为任一条所述监测数据中
可控制类数据的可控变量, 为任一条所述监测数据中状态类数据的系统状态量, 为任一条所述监测数据中环境噪声类数据的环境噪音量, 为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间段的历史监测数据, 为历史监测数据集合的大小,control为可控制类数据,state为状态类数据,env为环境噪声类数据,goal为目标输出类数据;
从所述历史监测数据S中对可控变量 进行采集,生成 条控制指令;
采用聚类的方式缩小 条控制指令的规模,利用贝叶斯信息准则确定最佳的聚类中心数k,并将每个类簇中所有的聚类中心 的平均值作为所述基于强化学习的控制模型的一个动作指令,生成控制指令集合。
3.根据权利要求2所述的工业系统无模型自适应控制方法,其特征在于,所述基于所述控制指令集合,根据所述预测仿真模型训练基于强化学习的控制模型,生成训练后的基于强化学习的控制模型,具体包括:构建基于强化学习的控制模型,并获取所述当前监测数据、设定控制目标值 以及所述历史监测数据中下一时刻的环境噪音量 ;
将所述当前监测数据 以及设定控制目标值输入至所述基于强化学习的控制模型,输出 个控制指令的收益值,并以所述收益值作为概率权重进行采样,采样所述控制指令集合中的一条控制指令;
根据所述当前监测数据 以及所述控制指令,利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量;
根据所述设定控制目标值 和下一时刻的目标输出量 ,计算决策奖赏r;
基于所述决策奖赏r、所述当前监测数据 、所述控制指令 以及下一时刻的系统状态量以及目标预测状态输出量,利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练,以使得所述基于强化学习的控制模型在所述当前监测数据下,输出使未来累计奖赏最大的控制指令;
将下一时刻的监测数据s’(control,state,env,goal)替换所述当前监测数据s(control,state,env,goal),训练所述基于强化学习的控制模型,直至所述基于强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控制模型。
4.根据权利要求3所述的工业系统无模型自适应控制方法,其特征在于,所述时序差分损失函数为:
其中,为累计折扣值;s为当前时刻的系统状态量以及目标当前状态输出量,s '为下一时刻的系统状态量以及目标预测状态输出量,为采样的控制指令 ,为在s'状态下可供选择的控制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态s经过控制 演变为s',获得的单步控制收益为r,对网络输出值 进行优化,得到时序差分损失函数的优化结果 。
5.一种工业系统无模型自适应控制系统,其特征在于,包括:历史监测数据获取模块,用于获取工业过程中各种设备的历史监测数据;所述历史监测数据包括可控制类数据、状态类数据、环境噪声类数据以及目标输出类数据;所述可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包括工业生产中的管道压力;所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;所述目标输出类数据包括生产过程中控制的对象;
控制指令集合生成模块,用于利用所述可控制类数据生成控制指令集合;所述控制指令集合包括多条下一时刻生成的控制指令;
预测仿真模型构建模块,用于根据所述历史监测数据构建预测仿真模型;
所述预测仿真模型构建模块,具体包括:多个预测模型构建单元,用于构建多个预测模型,以对下一时刻的系统状态量以及目标预测状态输出量 中的各个变量进行独立预测;其中,对于每一个单变量的预测,采用LightGBM算法构建预测模型,最大叶子数目num_leaves为10,学习速率为
0.8,特征筛选比例feature_fraction为0.9,采用l2正则项减少过拟合;
划分单元,用于将所述历史监测数据划分成7:3;其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数;
预测仿真模型构建单元,用于根据控制器给出的可控变量以及环境噪音量以及所述历史监测数据中的系统状态量以及目标当前状态输出量,整合多个所述预测模型构建预测仿真模型;
训练后的基于强化学习的控制模型确定模块,用于基于所述控制指令集合,根据所述预测仿真模型训练基于强化学习的控制模型,生成训练后的基于强化学习的控制模型;
当前监测数据获取模块,用于获取当前监测数据;
自适应控制模块,用于将所述当前监测数据输入至所述训练后的基于强化学习的控制模型中,自适应控制工业系统的生产过程,输出所述工业系统的最优设定目标。
6.根据权利要求5所述的工业系统无模型自适应控制系统,其特征在于,所述控制指令集合生成模块,具体包括:
参数定义单元,用于定义一条监测数据,所述监测数据为历史监测数据S或当前监测数据 , 为任一条所述监测数据中可控制类数据的可控变量, 为任一条所述监测数据中状态类数据的系统状态量, 为任一条所述监测数据中环境噪声类数据的环境噪音量,为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间段的历史监测数据, 为历史监测数据集合的大小,control为可控制类数据,state为状态类数据,env为环境噪声类数据,goal为目标输出类数据;
控制指令生成单元,用于从所述历史监测数据S中对可控变量 进行采集,生成 条控制指令;
控制指令集合生成单元,用于采用聚类的方式缩小 条控制指令的规模,利用贝叶斯信息准则确定最佳的聚类中心数k,并将每个类簇中所有的聚类中心 的平均值作为所述基于强化学习的控制模型的一个动作指令,生成控制指令集合。
7.根据权利要求6所述的工业系统无模型自适应控制系统,其特征在于,所述训练后的基于强化学习的控制模型确定模块,具体包括:基于强化学习的控制模型构建单元,用于构建基于强化学习的控制模型,并获取所述当前监测数据 、设定控制目标值以及所述历史监测数据中下一时刻的环境噪音量 ;
控制指令采样单元,用于将所述当前监测数据 以及设定控制目标值 输入至所述基于强化学习的控制模型,输出个控制指令的收益值,并以所述收益值作为概率权重进行采样,采样所述控制指令集合中的一条控制指令 ;
预测单元,用于根据所述当前监测数据 以及所述控制指令 ,利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量 ;
决策奖赏计算单元,用于根据所述设定控制目标值 和下一时刻的目标输出量 ,计算决策奖赏r;
训练单元,用于基于所述决策奖赏r、所述当前监测数据、所述控制指令 以及下一时刻的系统状态量以及目标预测状态输出量 ,利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练,以使得所述基于强化学习的控制模型在所述当前监测数据 下,输出使未来累计奖赏最大的控制指令 ;
训练后的基于强化学习的控制模型确定单元,用于将下一时刻的监测数据替换所述当前监测数据
,训练所述基于强化学习的控制模型,直至所述基于强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控制模型。
8.根据权利要求7所述的工业系统无模型自适应控制系统,其特征在于,所述时序差分损失函数为:
其中,为累计折扣值;s为当前时刻的系统状态量以及目标当前状态输出量,s '为下一时刻的系统状态量以及目标预测状态输出量,为采样的控制指令 ,为在s'状态下可供选择的控制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态s经过控制 演变为s',获得的单步控制收益为r,对网络输出值 进行优化,得到时序差分损失函数的优化结果 。
说明书 :
一种工业系统无模型自适应控制方法及系统
技术领域
背景技术
人智能化控制,如何进一步降低人力成本和操作人员的技能培训成本,如何脱离人为经验
干预,实现更加精准、可靠的智能控制策略,已成为亟需解决的关键问题。传统的智能化控
制技术只适用于简单的工业环境,在实际的工业生产中,复杂的工业环境中存在大量用于
监测数据的传感器,传统的智能化控制技术无法很好地利用监测数据的潜在特性,而基于
机器学习的控制方法能够学习到监测数据的变化规律,具有一定的学习能力与泛化能力,
可以从监测数据中挖掘出生产环境的客观规律,归纳出人类专家无法发现的经验与知识。
中的监测值迁移规律,不需要领域专家进行控制规则的设计,适用于复杂工业场景。并且在
强化学习基础上进行增量学习,使控制模型具有自适应能力,在实际应用过程中,更加贴近
工业实际生产情况。强化学习在电网紧急控制策略研究[刘威,张东霞,王新迎,侯金秀,刘
丽平.基于深度强化学习的电网紧急控制策略研究[J].中国电机工程学报,2018,38(01):
109‑119+347.]、飞行器高度控制[苏立军,朱红娟,齐晓慧,董海瑞.基于强化学习的四旋翼
高度控制器设计[J].测控技术,2016,35(10):51‑53+58.]、风力发电变桨距控制等各种工
业领域有着广泛的应用。现有的实际工业生产控制中,需要在工业环境中进行控制策略的
训练和测试以获得性能更好的自适应模型,试错成本以及研发成本过高。
发明内容
度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包括工业生产中的管道压力;
所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;所述目标输出类数据包括
生产过程中控制的对象;
可控制类数据的可控变量, 为任一条所述监测数据中状态类数据的系统状态
量, 为任一条所述监测数据中环境噪声类数据的环境噪音量,
为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间段的历史监测
数据, 为历史监测数据集合的大小,control为可控制类数据,state为状态类数据,
env为环境噪声类数据,goal为目标输出类数据;
化学习的控制模型的一个动作指令,生成控制指令集合。
LightGBM算法构建预测模型,最大叶子数目num_leaves为10,学习速率为0.8,特征筛选比
例feature_fraction为0.9,采用l2正则项减少过拟合;
测模型构建预测仿真模型。
监测数据中下一时刻的环境噪音量 ;
值,并以所述收益值作为概率权重进行采样,采样所述控制指令集合中的一条控制指令
;
;
,利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控
制模型进行训练,以使得所述基于强化学习的控制模型在所述当前监测数据
下,输出使未来累计奖赏最大的控制指令
;
基于强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控制模型。
,为采样的控制指令 , 为在s'状态下可供选择的控
制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示
系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态
s经过控制 演变为s',获得的单步控制收益为r,对网络输出值 进行优化,得到时序
差分损失函数的优化结果 。
控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包括
工业生产中的管道压力;所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;所
述目标输出类数据包括生产过程中控制的对象;
型;
数据中可控制类数据的可控变量, 为任一条所述监测数据中状态类数据的系
统状态量, 为任一条所述监测数据中环境噪声类数据的环境噪音量,
为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间
段的历史监测数据, 为历史监测数据集合的大小,control为可控制类数据,state为
状态类数据,env为环境噪声类数据,goal为目标输出类数据;
的平均值作为所述基于强化学习的控制模型的一个动作指令,生成控制
指令集合。
单变量的预测,采用LightGBM算法构建预测模型,最大叶子数目num_leaves为10,学习速率
为0.8,特征筛选比例feature_fraction为0.9,采用l2正则项减少过拟合;
,整合多个所述预测模型构建预测仿真模型。
以及所述历史监测数据中下一时刻的环境噪音量 ;
基于强化学习的控制模型,输出 个控制指令的收益值,并以所述收益值作为概率权
重进行采样,采样所述控制指令集合中的一条控制指令 ;
测状态输出量 ;
状态量以及目标预测状态输出量 ,利用基于Q‑Learning的时序差分损
失函数对所述基于强化学习的控制模型进行训练,以使得所述基于强化学习的控制模型在
所述当前监测数据 下,输出使未来累计奖赏最大的控
制指令 ;
,训练所述基于强化学习的控制模型,直至所述基于
强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控制模型。
,为采样的控制指令 , 为在s'状态下可供选择的控
制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示
系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态
s经过控制 演变为s',获得的单步控制收益为r,对网络输出值 进行优化,得到时序
差分损失函数的优化结果 。
环境状态推演的预测仿真模型,同时在数据预处理过程中获得控制指令的集合,最后利用
强化学习的方法基于这个预测仿真模型学习控制策略,训练基于强化学习的控制模型,生
成训练后的基于强化学习的控制模型,输出所述工业系统的最优设定目标,从而不需要在
工业环境中进行控制策略的训练和测试,大大的降低了试错成本。并且即使产生训练数据
的实际工业设备并未表现较好的控制性能,利用本发明提出的工业系统无模型自适应控制
方法或系统学习控制经验,能够得到比现有控制系统或算法更加有效的智能控制策略。
附图说明
例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获
得其他的附图。
具体实施方式
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
阀开度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包括工业生产中的管道压
力;所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;所述目标输出类数据包
括生产过程中控制的对象。
control。
行监测,但无法直接控制管道的压力值,只有通过控制管道一段的泵速进而调整管道的流
量,进而控制管道的压力值。此类变量后文简称state。
从现场控制系统中直接获取。完成数据收集后需要将不同的时间序列按照时间对齐,具体
地,可以采用线性插值或者高斯过程方法。假定对齐后的序列长度为 。
监测数据中可控制类数据的可控变量, 为任一条所述监测数据中状态类数据
的系统状态量, 为任一条所述监测数据中环境噪声类数据的环境噪音量,
为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间
段的历史监测数据, 为历史监测数据集合的大小,control为可控制类数据,state为
状态类数据,env为环境噪声类数据,goal为目标输出类数据;从所述历史监测数据S中对可
控变量 进行采集,生成 条控制指令;采用聚类的方式缩小 条
控制指令的规模,利用贝叶斯信息准则确定最佳的聚类中心数k,并将每个类簇中所有的聚
类中心 的平均值作为所述基于强化学习的控制模型的一个动作指令,生
成控制指令集合。
数据均可以同其他传感器监测数据一并导出,第 条控制指令 表示为如式1所
示:
相似或者相同的指令,因此本发明采用聚类的方式来缩小它的规模。
采用归一化方法来使actions集合中指令距离的计算更有意义:
值来衡量的,BIC值越大聚类效果越好。BIC的定义如式3所示:
的预测,采用LightGBM算法构建预测模型,最大叶子数目num_leaves为10,学习速率为0.8,
特征筛选比例feature_fraction为0.9,采用l2正则项减少过拟合;将所述历史监测数据划
分成7:3;其中30%的历史监测数据作为验证集用于确定最优的预测模型的超参数;根据控
制器给出的可控变量以及环境噪音量 以及所述历史监测数据中的
系统状态量以及目标当前状态输出量 ,整合多个所述预测模型构建预测
仿真模型。
过拟合。
以 及系 统 当前 状 态量 ,预 测出 新的
。
监 测数 据中 下一 时 刻的 环境 噪 音量 ;将所 述当 前 监 测数 据
以及设定控制目标值 输入至所述
基于强化学习的控制模型,输出 个控制指令的收益值,并以所述收益值作为概率权
重进行采样,采样所述控制指令集合中的一条控制指令 ;根据所述当前监
测数据 以及所述控制指令 ,利用预测
仿真模型预测下一时刻的系统状态量以及目标预测状态输出量 ;根据所
述设定控制目标值 和下一时刻的目标输出量 ,计算决策奖赏
r;基于所述决策奖赏r、所述当前监测数据 、所述控制
指令 以及下一时刻的系统状态量以及目标预测状态输出量
,利用基于Q‑Learning的时序差分损失函数对所述基于强化学习的控
制模型进行训练,以使得所述基于强化学习的控制模型在所述当前监测数据
下,输出使未来累计奖赏最大的控制指令
;将下一时刻的监测数据 替换所述
当前监测数据 ,训练所述基于强化学习的控制模型,
直至所述基于强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控
制模型。
时刻的系统状态量以及目标预测状态输出量 ,为采样的控制指令
, 为在s'状态下可供选择的控制输入值,为所述基于强化学习的控制
模型的学习速率;Q为强化学习网络, 表示系统状态为s,执行控制命令为 的情况
下,控制策略未来获得的最优长期收益; 表示系统状态为s',执行控制命令为 的
情况下,控制策略未来获得的长期收益;系统状态s经过控制 演变为s',假设执行控制命令
为 的情况下,控制策略未来能够获得的长期收益。利用迭代的贝尔曼方程,利用收集到的
系统状态演变数据,即系统状态s经过控制 演变为s',获得的单步控制收益为r,由此可以
对网络输出值 进行优化,得到 。
预估的奖赏 ,其中 是控制指令集合Actions中的第i个控制指令,i∈n,n为控制指
令序号,设定控制目标值human(goal)指的是人设定的goal的目标值。
作值估计的准确度。
6
2
0
体训练过程如下:
片段的起始状态。设定人为给定的控制目标值human(goal),本发明以工业浓密机底流浓度
控制为例,设置为67。
为聚类中心数k的向量,向量中的每个值代表选某一个控制输入带来的未来长期折扣收益。
此时使用softmax函数将收益值转化为动作选择的概率分布,并从中采样一条控制指令s’
(control),并采用预测仿真模型预测下一时刻系统状态。
制输入s’(control),利用基于Q‑Learning的时序差分损失函数对控制模型参数进行训练,
以使得强化学习模型能够在给定 下,输出使奖赏r尽
可能大的s’(control)。时序差分损失函数表示为:
,为采样的控制指令 , 为在s'状态下可供选择的控
制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示
系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态
s经过控制 演变为s',假设执行控制命令为 的情况下,控制策略未来能够获得的长期收
益。利用迭代的贝尔曼方程,利用收集到的系统状态演变数据,即系统状态s经过控制 演变
为s',获得的单步控制收益为r,由此可以对网络输出值 进行优化,得到 。
没有升高,说明模型参数达到收敛状态。
(control,state,env,goal)。
制。
可控制类数据包括流量阀开度、开度阀开度、变频器转速以及泵机转速;所述状态类数据包
括工业生产中的管道压力;所述环境噪声类数据包括上一工序的产品信息、温度以及湿度;
所述目标输出类数据包括生产过程中控制的对象。
, 为任一条所述监测数据中
可控制类数据的可控变量, 为任一条所述监测数据中状态类数据的系统状态
量, 为任一条所述监测数据中环境噪声类数据的环境噪音量,
为任一条所述监测数据中目标输出类数据的目标输出量,S为一个连续时间段的历史监测
数据, 为历史监测数据集合的大小,control为可控制类数据,state为状态类数据,
env为环境噪声类数据,goal为目标输出类数据;控制指令生成单元,用于从所述历史监测
数据S中对可控变量 进行采集,生成 条控制指令;控制指令集合生
成单元,用于采用聚类的方式缩小 条控制指令的规模,利用贝叶斯信息准则确定最佳
的聚类中心数k,并将每个类簇中所有的聚类中心 的平均值作为所述基于
强化学习的控制模型的一个动作指令,生成控制指令集合。
的各个变量进行独立预测;其中,对于每一个单变量的预测,采用LightGBM算法构建预测模
型,最大叶子数目num_leaves为10,学习速率为0.8,特征筛选比例feature_fraction为
0.9,采用l2正则项减少过拟合;划分单元,用于将所述历史监测数据划分成7:3;其中30%的
历史监测数据作为验证集用于确定最优的预测模型的超参数;预测仿真模型构建单元,用
于根据控制器给出的可控变量以及环境噪音量 以及所述历史监测
数据中的系统状态量以及目标当前状态输出量 ,整合多个所述预测模型
构建预测仿真模型。
型。
、设定控制目标值 以及所述历史
监测数据中下一时刻的环境噪音量 ;控制指令采样单元,用于将所述当前监测数
据 以及设定控制目标值 输入至所
述基于强化学习的控制模型,输出 个控制指令的收益值,并以所述收益值作为概率
权重进行采样,采样所述控制指令集合中的一条控制指令 ;预测单元,用于
根据所述当前监测数据 以及所述控制指令
,利用预测仿真模型预测下一时刻的系统状态量以及目标预测状态输出量
;决策奖赏计算单元,用于根据所述设定控制目标值
和下一时刻的目标输出量 ,计算决策奖赏r训练单元,用于基于所述决策奖赏r、
所述当前监测数据 、所述控制指令 以
及下一时刻的系统状态量以及目标预测状态输出量 ,利用基于Q‑
Learning的时序差分损失函数对所述基于强化学习的控制模型进行训练,以使得所述基于
强化学习的控制模型在所述当前监测数据 下,输出使
未来累计奖赏最大的控制指令 ;训练后的基于强化学习的控制模型确定单
元,用于将下一时刻的监测数据 替换所述当前监测
数据 ,训练所述基于强化学习的控制模型,直至所述
基于强化学习的控制模型的平均奖赏不再升高,确定训练后的基于强化学习的控制模型。
,为采样的控制指令 , 为在s'状态下可供选择的控
制输入值,为所述基于强化学习的控制模型的学习速率;Q为强化学习网络, 表示
系统状态为s,执行控制命令为 的情况下,控制策略未来获得的最优长期收益;
表示系统状态为s',执行控制命令为 的情况下,控制策略未来获得的长期收益;系统状态
s经过控制 演变为s',获得的单步控制收益为r,假设执行控制命令为 的情况下,控制策
略未来能够获得的长期收益。利用迭代的贝尔曼方程,利用收集到的系统状态演变数据,即
系统状态s经过控制 演变为s',获得的单步控制收益为r,由此可以对网络输出值
进行优化,得到 。
可以从监测数据中挖掘出生产环境的客观规律,并转化为具有较好控制精度的智能控制策
略,能够脱离领域专家和控制专家的人为干预。
而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说
明即可。
本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不
应理解为对本发明的限制。