一种基于深度强化学习的反应温度控制方法和系统转让专利

申请号 : CN202210010603.4

文献号 : CN114357884B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周宇

申请人 : 厦门宇昊软件有限公司

摘要 :

本发明公开了一种基于深度强化学习的反应温度控制方法和系统,该控制方法通过温度控制模型输出用于调整加热时间和温度的控制参数,其温度控制模型基于柔性动作评价算法框架建立,可以通过深度强化学习的方式对温度控制模型内部的策略网络进行权重更新,使得在经过多次迭代学习后,策略网络可以具备更好地预测准确性,从而提高控制参数输出的合理性,同时使评价网络所输出的评价值可以在该过程中对策略网络输出的控制参数进行准确的评价,反向地对控制参数的调整作出指导,最终的目的均是使得控制参数可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。

权利要求 :

1.一种基于深度强化学习的反应温度控制方法,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,其特征是,所述加热设备在以初始参数运行后基于控制参数进行控制,所述初始参数包括初始加热温度和初始加热时间;

所述反应溶液以状态参数进行评价,并在所述状态参数达到预设的目标值时判定所述反应溶液达到要求;

所述控制参数包括加热温度调整值和加热时间调整值,其基于温度控制模型获得,并用于根据预设的周期持续调整所述初始参数;

所述状态参数基于所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度获得;

所述温度控制模型基于柔性动作评价算法(Soft Actor‑Critic Algorithms)框架建立,其包括策略网络、评价网络和损失函数;

所述策略网络用于根据当前周期结束时的状态参数输出下一周期的控制参数和下一周期结束时的状态参数的预测值;

所述评价网络用于根据每一周期结束时的状态参数的实际值和所述状态参数的目标值对与该周期对应的所述控制参数进行评价并输出评价参数;

所述损失函数用于根据每一周期结束时的状态参数的实际值和与该周期对应的所述状态参数的预测值输出期望损失;

所述温度控制模型基于所述评价参数和所述期望损失,通过梯度下降方法更新所述策略网络的权重,以使所述状态参数在每一周期结束时的实际值趋近所述的目标值,并使所述状态参数在每一周期结束时的预测值趋近所述的实际值;

所述状态参数包括所述反应溶液的平均温度与所述介质的平均温度的差、所述反应容器的侧部内壁温度和底部内壁温度的差和所述反应溶液的平均浓度;所述状态参数达到预设的目标值指所述反应溶液的平均温度和所述介质的平均温度的差低于第一阈值、所述反应容器的侧部内壁温度和底部内壁温度的差低于第二阈值和所述反应溶液的平均浓度达到符合要求的浓度值。

2.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述第一阈值为0.01℃;所述第二阈值为0.01℃。

3.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述损失函数为均方误差损失函数;所述梯度下降方法中的梯度根据反向传播算法获得。

4.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述温度控制模型还包括随机探索函数;所述随机探索函数用于输出随机的控制参数至所述策略网络;所述策略网络基于该随机的控制参数获得与该随机的控制参数对应的周期结束时的状态参数的预测值;所述评价网络基于该预测值和所述的状态参数的目标值对该随机的控制参数进行评价并输出评价参数;所述温度控制模型基于该评价参数通过梯度下降方法更新所述策略网络的权重以使该预测值趋近所述的状态参数的目标值。

5.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述控制参数在每次输出时其加热温度调整值为0或1℃,加热时间调整值为0或30s,调整方向包括增加和减少。

6.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述加热设备在加热时间为0时停止加热。

7.一种基于深度强化学习的反应温度控制系统,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,其特征是,包括控制单元和传感单元;

所述控制单元用于根据如权利要求1‑6任一项所述的一种基于深度强化学习的反应温度控制方法控制所述加热设备;

所述传感单元用于获取所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度。

8.一种控制装置,其特征是,包括处理器和与所述处理器通信连接的存储介质;所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令以实现如权利要求

1‑6任一项所述的一种基于深度强化学习的反应温度控制方法。

9.一种计算机可读存储介质,其特征是,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1‑6任一项所述的一种基于深度强化学习的反应温度控制方法。

说明书 :

一种基于深度强化学习的反应温度控制方法和系统

技术领域

[0001] 本发明涉及胶体金制备技术领域,具体涉及一种基于深度强化学习的反应温度控制方法和系统。

背景技术

[0002] 胶体金(又称金溶液)是一种稳定的金颗粒悬浮液,基于胶体金发展有多种生物化学检测技术,例如免疫胶体金电镜染色法、胶体金免疫层析法等,利用待检测物与胶体金试剂发生特异性反应而聚集在检测带上的特定位置,可通过肉眼观察显色结果,从而方便快速地对病毒抗体进行定性和半定量检测,故以胶体金为原料的检测方法和胶体金试剂条在免疫学诊断、传染病筛查等方面得到广泛应用。
[0003] 胶体金试剂条的制备过程一般包含对胶体金颗粒、金标记物、金标垫、硝酸纤维素膜和样本垫的制作,以及最终对整个试剂条的装配。其中胶体金颗粒的制备过程十分重要,其质量的好坏可直接影响相关免疫检测方法的准确性和有效性。而反应温度是影响胶体金质量的关键因素之一,在将C6H5Na3O7(柠檬酸三钠)加入到沸腾的AuCl4H(氯金酸)溶液中,需要控制反应温度和沸腾时间,以保证胶体金的稳定性等特性。
[0004] 传统的通过加热板对液体加热的方式会由于气泡出现干点,可能导致金颗粒失水而丧失相关特性,因此在制备过程中需要对加热温度进行更加准确地控制,以保证能够获得质量符合要求的胶体金产物。

发明内容

[0005] 本发明的目的在于克服背景技术中存在的上述缺陷或问题,提供一种基于深度强化学习的反应温度控制方法和系统,该控制方法可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。
[0006] 为达成上述目的,本发明采用如下技术方案:
[0007] 一种基于深度强化学习的反应温度控制方法,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,所述加热设备在以初始参数运行后基于控制参数进行控制,所述初始参数包括初始加热温度和初始加热时间;所述反应溶液以状态参数进行评价,并在所述状态参数达到预设的目标值时判定所述反应溶液达到要求;所述控制参数包括加热温度调整值和加热时间调整值,其基于温度控制模型获得,并用于根据预设的周期持续调整所述初始参数;所述状态参数基于所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度获得;所述温度控制模型基于柔性动作评价算法框架建立,其包括策略网络、评价网络和损失函数;所述策略网络用于根据当前周期结束时的状态参数输出下一周期的控制参数和下一周期结束时的状态参数的预测值;所述评价网络用于根据每一周期结束时的状态参数的实际值和所述状态参数的目标值对与该周期对应的所述控制参数进行评价并输出评价参数;所述损失函数用于根据每一周期结束时的状态参数的实际值和与该周期对应的所述状态参数的预测值输出期望损失;所述温度控制模型基于所述评价参数和所述期望损失,通过梯度下降方法更新所述策略网络的权重,以使所述状态参数在每一周期结束时的实际值趋近所述的目标值,并使所述状态参数在每一周期结束时的预测值趋近所述的实际值。
[0008] 进一步的,所述状态参数包括所述反应溶液的平均温度与所述介质的平均温度的差、所述反应容器的侧部内壁温度和底部内壁温度的差和所述反应溶液的平均浓度;所述状态参数达到预设的目标值指所述反应溶液的平均温度和所述介质的平均温度的差低于第一阈值、所述反应容器的侧部内壁温度和底部内壁温度的差低于第二阈值和所述反应溶液的平均浓度达到符合要求的浓度值。
[0009] 进一步的,所述第一阈值为0.01℃;所述第二阈值为0.01℃。
[0010] 进一步的,所述损失函数为均方误差损失函数;所述梯度下降方法中的梯度根据反向传播算法获得。
[0011] 进一步的,所述温度控制模型还包括随机探索函数;所述随机探索函数用于输出随机的控制参数至所述策略网络;所述策略网络基于该随机的控制参数获得与该随机的控制参数对应的周期结束时的状态参数的预测值;所述评价网络基于该预测值和所述的状态参数的目标值对该随机的控制参数进行评价并输出评价参数;所述温度控制模型基于该评价参数通过梯度下降方法更新所述策略网络的权重以使该预测值趋近所述的状态参数的目标值。
[0012] 进一步的,所述控制参数在每次输出时其加热温度调整值为为0或1℃,加热时间调整值为0或30s,调整方向包括增加和减少。
[0013] 进一步的,所述加热设备在加热时间为0时停止加热。
[0014] 此外,本发明还提供一种基于深度强化学习的胶体金制备过程中反应温度的控制系统,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,包括控制单元和传感单元;所述控制单元用于根据如上述任一项所述的一种基于深度强化学习的反应温度控制方法控制所述加热设备;所述传感单元用于获取所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度。
[0015] 此外,本发明还提供一种控制装置,包括处理器和与所述处理器通信连接的存储介质;所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令以实现如上述任一项所述的一种基于深度强化学习的反应温度控制方法。
[0016] 此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述任一项所述的一种基于深度强化学习的反应温度控制方法。
[0017] 由上述对本发明的描述可知,相对于现有技术,本发明具有如下有益效果:
[0018] 本发明所提供的温度控制方法利用深度强化学习算法和模型保证胶体金制备过程中温度控制的准确性,其通过预设的初始参数使加热设备以预设温度加热一段时间,并通过温度控制模型对这一初始参数进行周期性地调整,在每一次调整中输出控制参数,并通过对实际的状态参数的获取以及预测的状态参数之间进行比较分析,对输出控制参数的策略网络进行权重更新,在经过多次迭代学习后,策略网络可以具备更好地预测准确性,从而提高控制参数输出的合理性,相应的,评价网络所输出的评价值可以在该过程中对策略网络输出的控制参数进行准确的评价,反向地对控制参数的调整作出指导,最终的目的均是使得控制参数可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。
[0019] 此外,本发明所提供的温度控制方法中的温度控制模型的建立基于柔性动作评价算法,该算法基于最大熵深度强化学习,克服了普通深度强化学习中采样复杂度高、模型收敛困难的缺陷,其可以使深度强化学习的收益最大化,并且让策略分布的熵最大化,达到策略分布尽可能随机的效果,从而增大深度强化学习算法的稳定性和探索性。

附图说明

[0020] 为了更清楚地说明本发明实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域的普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1为本发明提供的一种控制系统的实施例的结构示意图。

具体实施方式

[0022] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的优选实施例,且不应被看作对其他实施例的排除。基于本发明实施例,本领域的普通技术人员在不作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 本发明的权利要求书、说明书及上述附图中,如使用术语“包括”、“具有”以及它们的变形,意图在于“包含但不限于”。
[0024] 本发明的实施例提供一种基于深度强化学习的反应温度控制方法,该温度控制方法用于对加热设备进行温度控制,其中加热设备用于通过介质对反应容器进行加热,反应容器内容置有用于制备胶体金的反应溶液。
[0025] 其中,加热设备以初始参数运行后基于控制参数进行控制,初始参数包括初始加热温度和初始加热时间;控制参数包括加热温度调整值和加热时间调整值,其基于温度控制模型获得,并用于根据预设的周期持续调整初始参数;上述的周期在本实施例中为10s,即温度控制模型每10输出一次控制参数。
[0026] 反应溶液以状态参数进行评价,并在状态参数达到预设的目标值时判定反应溶液达到要求;状态参数基于反应溶液的平均温度、介质的平均温度、反应容器的侧部内壁温度、反应容器的底部内壁温度和反应溶液的平均浓度获得。
[0027] 其中,作为一个实施例,加热温度调整值为0或1℃,加热时间调整至为0或30s,调整方向包括增加和减少,例如,作为一次输出,控制参数可包括加热温度调整值为1增加1℃,加热时间调整值为减少30s,或是,作为一次输出,控制参数可包括加热温度调整值为0,加热时间调整值为增加30s。依据预设的周期持续输出控制参数后,加热时间会随时间而减少,直至加热时间为0,加热设备在加热时间为0时停止加热,此时判定胶体金产品制备完成。
[0028] 此外,状态参数包括反应溶液的平均温度与介质的平均温度的差、反应容器的侧部内壁温度和底部内壁温度的差和反应溶液的平均浓度;状态参数达到预设的目标值指反应溶液的平均温度和介质的平均温度的差低于第一阈值、反应容器的侧部内壁温度和底部内壁温度的差低于第二阈值和反应溶液的平均浓度达到符合要求的浓度值。
[0029] 其中,在本实施例中,第一阈值设为0.01℃,第二阈值设为0.01℃,意即在反应溶液的平均温度和介质的平均温度的差低于0.01℃,且反应容器的侧部内壁温度和底部内壁温度的差低于0.01℃,同时反应溶液的平均浓度达到符合要求的浓度值时,判定该胶体金溶液达到符合要求的状态。
[0030] 更具体的,该控制方法基于一控制系统实现,参照图1,该控制系统包括控制单元和传感单元,其中控制单元用于根据本实施例所提供的控制方法对加热设备进行控制,传感单元用于获取反应溶液的平均温度、介质的平均温度、反应容器的侧部内壁温度、反应容器的底部内壁温度和反应溶液的平均浓度。
[0031] 其中,控制单元还可包括智能体、执行机构、输入设备和输出设备。
[0032] 智能体用于根据本实施例所提供的控制方法输出相应的控制参数至执行机构,执行机构用于根据接收到的控制参数对加热设备的加热温度及加热时间进行调整,输入设备用于输入初始参数,并可用于对智能体进行调试,输出设备用于实时显示传感单元所获取的数据。
[0033] 其中,执行机构为可调的温控型电动执行器,温度调节范围为50℃至150℃。
[0034] 输入设备可包括固定终端或移动终端,固定终端例如电脑,移动终端例如手机。
[0035] 输出设备可为显示器。
[0036] 传感单元为温度传感器和浓度传感器,其可采用本领域常规的传感装置。
[0037] 智能体用于储存上述的温度控制模型,该温度控制模型基于柔性动作评价(Soft Actor‑Critic,SAC)算法框架建立,其主要包括策略网络、评价网络、损失函数和探索函数。
[0038] 其中,策略网络用于根据当前周期结束时的状态参数输出下一周期的控制参数和下一周期结束时的状态参数的预测值;评价网络用于根据每一周期结束时的状态参数的实际值和状态参数的目标值对与该周期对应的控制参数进行评价并输出评价参数;损失函数用于根据每一周期结束时的状态参数的实际值和与该周期对应的状态参数的预测值输出期望损失;温度控制模型基于评价参数和期望损失,通过梯度下降方法更新策略网络和评价网络的权重,以使状态参数在每一周期结束时的实际值趋近的目标值,并使状态参数在每一周期结束时的预测值趋近的实际值。
[0039] 此外,探索函数用于输出随机的控制参数至策略网络,策略网络基于该随机的控制参数获得与该随机的控制参数对应的周期结束时的状态参数的预测值,评价网络可基于该预测值和状态参数的目标值对该随机的控制参数进行评价并输出评价参数,温度控制模型基于该评价参数通过梯度下降方法更新策略网络的权重以使该预测值趋近状态参数的目标值。
[0040] 其中,损失函数为均方误差损失函数,梯度下降方法中的梯度根据反向传播算法获得。
[0041] 具体而言,SAC算法是一种基于最大熵的深度强化学习算法,其通过引入熵来衡量策略的随机性,并使策略可以在训练过程中最大程度上权衡期望回报和熵。较高的策略随机性会增加更多的探索,从而加快后续的训练速度,防止策略过早地收敛至局部最优值,因此采用该算法可以有效地对胶体金制备过程中的温度提供更多的控制策略,进而使得对温度的控制可以保持在一个符合要求的动态平衡范围之内。
[0042] 其中,策略网络为多层神经网络,其可输出动作值,该动作值在本实施例中即为上述的控制参数,该控制参数经过预测方法传输至执行机构后,再由执行机构对加热设备进行控制。其中预测方法用于传输控制参数,并对该控制参数对应的周期结束时的状态参数进行预测,得到相应的预测值。
[0043] 评价网络同样为多层神经网络,其可输出用于表示强化学习效果回报值的Q值,该Q值在本实施例中即为上述的评价参数,该评价参数用于对控制参数的好坏进行评价。其中控制参数的好坏是指与该控制参数对应的周期结束时状态参数的实际值是否趋近于目标值,如果趋近于目标值,则判定该控制参数可以达到目标要求,如果远离目标值,则判定该控制参数无法达到目标要求。通过该种评价方法,可以对策略网络输出动作值的策略进行指导,使得下一周期策略网络输出的控制参数能够使得该周期结束时的状态参数的实际值更趋近于目标值。
[0044] 损失函数用于对根据预测方法获得的某一周期结束时的预测值和实际值进行误差分析,并输出期望损失,该期望损失可表示该预测方法的预测结果是否趋近于实际情况,进而再通过梯度下降方法更新策略网络的权重,以使状态参数态参数在每一周期结束时的实际值趋近目标值,并使状态参数在每一周期结束时的预测值趋近实际值。
[0045] 预测方法的改进可以有效地提高策略网络输出的控制参数的有效性,由于已经通过预测方法得到相应的预测值,当该预测方法效果足够好时,其能够使得策略网络对输出的控制参数所能够达成的效果具有更高的把握,进而可以使得基于该控制参数进行的温度控制更好地达到目标要求。
[0046] 应当理解的是,本发明实施例所采用的温度控制模型是基于现有的柔性动作评价算法框架建立的,其中的策略网络、评价网络、损失函数、探索函数等,本领域技术人员可基于公知常识建立,在此不对其内部数学计算进行过多描述。
[0047] 其中可参考的论文包括:
[0048] Haarnoja T,Zhou A,Abbeel P,et al.Soft actor‑critic:Off‑policy maximum entropy deep reinforcement learning with a stochastic actor[C]//International conference on machine learning.PMLR,2018:1861‑1870.
[0049] Haarnoja T,Zhou A,Hartikainen K,et al.Soft actor‑critic algorithms and applications[J].arXiv preprint arXiv:1812.05905,2018.
[0050] Haarnoja T,Tang H,Abbeel P,et al.Reinforcement learning with deep energy‑based policies[C]//International Conference on Machine Learning.PMLR,2017:1352‑1361.
[0051] 以下基于上述的控制系统,对胶体金制备过程中的温度控制步骤进行详细说明。
[0052] 步骤一:启动该控制系统,并通过输入设备设置初始参数;
[0053] 步骤二:通过执行机构控制加热设备以初始参数运行;
[0054] 步骤三:通过传感单元获取并计算状态参数,并将状态参数输入至智能体;
[0055] 步骤四:通过智能体内的温度控制模型输出控制参数至执行机构,对初始参数进行调整;
[0056] 步骤五:判断剩余加热时间是否为0,若不为0,则重复进行步骤五,若为0,则进行步骤六;
[0057] 步骤六:关闭加热设备,并通过传感单元获取反应溶液平均浓度;
[0058] 步骤七:判断反应溶液是否满足目标要求,若满足要求则停止该控制系统,若不满足要求则重复上述步骤。
[0059] 此外,在上述方法的基础上,本实施例还公开了一种控制装置,其包括至少一个处理器(processor)以及存储器(memory),还可以包括显示屏、通信接口(CommunicationsInterface)和总线。其中,处理器、显示屏、存储器和通信接口可以通过总线完成相互间的通信。显示屏设置为显示初始设置模式中预设的用户引导界面。通信接口可以传输信息。处理器可以调用存储器中的逻辑指令,以执行上述实施例中的方法。
[0060] 此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0061] 存储器作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器通过运行存储在存储器中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
[0062] 存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0063] 上述说明书和实施例的描述,用于解释本发明保护范围,但并不构成对本发明保护范围的限定。通过本发明或上述实施例的启示,本领域普通技术人员结合公知常识、本领域的普通技术知识和/或现有技术,通过合乎逻辑的分析、推理或有限的试验可以得到的对本发明实施例或其中一部分技术特征的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。