海洋平台通风系统分层优化控制方法转让专利

申请号 : CN202311790669.0

文献号 : CN117450637B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 崔璨薛佳慧付艺聪吴森源

申请人 : 中国海洋大学

摘要 :

本发明属于海洋工程技术领域,提供一种海洋平台通风系统分层优化控制方法。定义每个舱室风阀为一个智能体;确定海洋平台通风系统的控制目标,并设计智能体强化学习要素;根据设定得海洋平台通风系统控制目标、强化学习要素;基于SAC算法,对舱室风阀智能体进行训练,获得海洋平台通风系统各舱室的需求风量;基于舱室通风量控制目标,对海洋平台通风系统风量进行比例平衡控制,控制所有舱室的实际风量与需求风量的比例误差最小,求解获得需求风量比例一致的最优舱室风阀角度;根据比例平衡控制的求解结果,进行比例恢复,获得最优化求解后的风机功率。

权利要求 :

1.一种海洋平台通风系统分层优化控制方法,其特征在于,所述海洋平台包括风机、主通风管路及多个舱室,所述风机连通主通风管路,主通风管路上设置有总风阀,所述主通风管路与每个舱室连通;每个舱室均设置有一个变量风箱,每个变量风箱处设置有一个舱室风阀;

所述控制方法包括以下步骤:

S1:定义每个舱室的舱室风阀为一个智能体;确定海洋平台通风系统的控制目标,并设计智能体强化学习要素;所述控制目标包括舱室二氧化碳浓度控制目标,风机静压、舱室风阀开度、舱室通风量控制目标,实际风量比例误差控制目标,舱室风阀控制限制目标,风阀及风机协调控制目标;所述强化学习要素包括舱室风阀智能体状态要素、舱室风阀智能体动作要素以及舱室风阀智能体奖励要素;

S2:根据设定的海洋平台通风系统控制目标、强化学习要素,基于SAC算法,采用策略‑价值网络对舱室风阀智能体进行训练,获得海洋平台通风系统各舱室的需求风量;

S3:基于舱室通风量控制目标,对海洋平台通风系统风量进行比例平衡控制,控制所有舱室的实际风量与需求风量的比例误差最小,求解获得需求风量比例一致的最优舱室风阀角度;

S4:根据比例平衡控制的求解结果,进行比例恢复,获得最优化求解后的风机功率;

所述海洋平台通风系统的控制目标包括以下目标之一或组合:目标1:舱室二氧化碳浓度控制目标:

式中 表示t时刻舱室 的CO2实时浓度; 表示舱室 的CO2浓度上限; 表示舱室 的CO2浓度节能下限; 表示舱室数量;

目标2:风机静压、舱室风阀开度、舱室通风量控制目标:式中, 表示 时刻风机静压, 和 表示风机静压的规定运行范围, 为风机静压最小压力值, 为风机静压最大压力值; 表示 时刻舱室 的舱室风阀角度,和 表示舱室 舱室风阀的动作限制范围, 为舱室 舱室风阀的最小风阀角度,为舱室 舱室风阀的最大风阀角度; 表示 时刻舱室 的需求风量, 和 表示舱室 需求风量的限制范围, 为舱室 需求风量最小值, 为舱室 需求风量最大值;

目标3:实际风量比例误差控制目标:

式中 表示在时刻舱室 的实际风量;表示气流速率相对误差; 表示舱室数量;

目标4:舱室风阀控制限制目标,应保证至少有一个风阀完全打开:当 时,表示舱室 的舱室风阀完全打开;

目标5:风阀及风机协调控制目标:

式中 表示节能控制目标下的最大风机静压; 表示海洋平台通风系统节能控制目标下舱室风阀的最大风阀角度;

所述舱室风阀智能体状态 的定义:

其中, 表示时刻舱室 的CO2浓度; 表示时刻舱室外的CO2浓度; 表示时刻舱室的需求风量; 表示时刻舱室 的人数; 表示时刻的人体代谢率;

舱室风阀智能体动作 的定义:

其中, 表示 时刻舱室 的风量变化量, ;

所述风阀智能体训练奖励要素包括:

其中, 为阈值塑形奖励函数, 表示引导智能体k学习的CO2浓度的奖励塑形下限,c1表示同时满足所有舱室CO2浓度限制和通风节能要求时的奖励值,c2表示舱室CO2浓度的阈值塑形奖励值; 为收敛加速奖励函数;c3表示收敛加速奖励值; 为边界限制奖励函数; 表示所有舱室在 时刻的CO2浓度的相对误差的集合, 表示舱室 在时刻的CO2浓度的相对误差, 表示舱室数量; 为风量规范奖励函数;

设计强化学习奖励函数 :

其中, , , 和 是四个子奖励函数的正权重系数;

其中,仅在满足下面两个公式时有效:

其中, 表示舱室k风量变化量的下限  , 表示舱室k风量变化量的上限;

所述采用策略‑价值网络对舱室风阀智能体进行训练的步骤包括:S21:设置基于最大熵的智能体训练损失函数:其中,表示温度系数; 表示强化学习策略 允许的状态‑动作对; 表示计算期望; 表示在舱室风阀智能体状态 选取舱室风阀智能体动作 所得的奖励;表示对强化学习的策略; 是策略熵,用于测量动作概率分布的不确定性,其定义为:其中,表示分布 的取值:

S22:计算SAC算法的最优策略 :

S23:定义柔性动作函数 ,进行柔性动作函数策略评估,使用柔性贝尔曼方程固定策略 并更新 值,直到 值收敛:其中, 是柔性动作函数; 表示折扣因子;

S24:采用收敛后的 值改进强化学习的策略 ,将改进后的强化学习的策略 带入柔性动作函数,更新策略并得到新 函数的指数:其中, 表示更新后的策略; 表示更新前的策略; 表示可行策略集合;

表示更新前策略的 值函数; 表示用于规范化策略分布的配分函数;

步骤S24中,用KL散度来约束策略更新的范围:;

表示用于测量分布 和 差异的KL散度,表示分布 的取值;表示分布 的取值, 用于计算S24中新 函数的指数 ,此时分布 ;分布Y=;

所述步骤S2中,使用训练好的强化学习智能体获取当前时刻各舱室的需求风量的步骤包括:利用训练好的强化学习智能体,根据t时刻强化学习智能体所处的状态,获取t时刻海洋平台各舱室的需求风量的集合 :其中,  表示 时刻舱室 的需求风量;

所述步骤S3包括:

S31:将风量精确控制问题转化如下的比例等式:;

其中, 为 时刻实际风量集合; 为上层需求风量的集合; 表示用于归一化的单位行向量;

S32:将风量精确控制问题转变为约束优化问题,第一目标函数设计为:;

表示 时刻舱室 的舱室风阀的开度;

S33:根据节能控制目标,第二目标函数设计为:其中, 表示舱室 的舱室风阀的最大开度;

S34:第三目标函数设计为:

其中: 表示 时刻风机静压;

S35:整合获得总目标函数 :

其中, , , 为平衡权重系数;

S36:基于总目标函数,采用GA‑fminconHSO方法最优风阀角度求解,获得 时刻舱室 最佳风阀角度下的风量 ;

所述步骤S4包括:

基于 计算获得实际风量:

其中, 为GA‑fmincon HSO方法优化求解后在 时刻舱室 最佳风阀角度下的风量;

为风量恢复比例,为小于1的正数; 为时刻舱室 的实际风量;

采用比例控制的控制方案控制风机功率,根据某一舱室终端的风量调节风机功率,选取各比例的中位数,匹配风机功率调节比例如下:其中, 为比例恢复后的风机实际功率; 为GA‑fmincon HSO方法优化求解后的风机功率; 表示所有舱室恢复比例集合的中值。

说明书 :

海洋平台通风系统分层优化控制方法

技术领域

[0001] 本发明涉及海洋工程技术领域,涉及一种海洋平台通风系统分层优化控制方法。

背景技术

[0002] 海洋平台是为海上钻井、采油、储油等活动提供生产和生活设施的重要结构设施。海洋平台通风不足会导致舱室内空气流通不畅,增加舱室内污染物浓度,降低人员舒适度,增加患呼吸道疾病 (如并态建筑综合症) 的风险。相反,过度通风会向某一舱室输送不必要的风量,造成能源浪费。因此,通风系统作为海洋平台的重要组成部分,是保证海洋平台正常生产和人员正常生活的重要系统。
[0003] 海洋平台通常为多舱室结构,各舱室功能不同,控制要求会存在多样性差异。在维持各舱室空气质量 (IAQ)、减少通风能耗两者之间建立最佳平衡的控制策略,是海洋平台通风系统控制领域面临的主要挑战之一。
[0004] 目前,需求控制通风 (DCV) 策略被广泛用于海洋平台IAQ控制。DCV的基本思想是利用预先设计好的通风方案,引入外部新鲜空气来替代或稀释舱室内污染物 (如二氧化碳) 浓度,以维持各舱室IAQ并保护海洋平台工作人员的健康与安全。实践证明,实施合理有效的通风方案可以在实现各舱室IAQ控制目标的同时节省25% 40%的能源。然而,DCV也有~其自身的不足,即通风方案设计不当会导致舱室通风不足或过度,造成IAQ过低或能源浪费。此外,大多数关于DCV的研究都默认海洋平台通风系统可以准确跟踪需求风量,忽略了两者之间存在的误差。同时,在控制问题的范围内,海洋平台通风系统固有的非线性和强耦合特性仍未得到充分探讨,例如在调整通风量后,由于时序耦合的存在,舱室内空气质量响应会出现时间延迟。因此,如何在海洋平台IAQ控制中实现快速、准确和稳定的风量供应,是大多数海洋平台通风系统控制方法忽略的问题,也是本发明重点讨论的问题之一。

发明内容

[0005] 本发明的目的在于解决以上技术问题,提供一种海洋平台通风系统分层优化控制方法。
[0006] 为实现上述目的,本发明采用的技术方案是:
[0007] 一种海洋平台通风系统分层优化控制方法,所述海洋平台包括风机、主通风管路及多个舱室,所述风机连通主通风管路,主通风管路上设置有总风阀,所述主通风管路与每个舱室连通;每个舱室均设置有一个变量风箱,每个变量风箱处设置有一个舱室风阀;
[0008] 所述控制方法包括以下步骤:
[0009] S1:定义每个舱室的舱室风阀为一个智能体;确定海洋平台通风系统的控制目标,并设计智能体强化学习要素;所述控制目标包括舱室二氧化碳浓度控制目标,风机静压、舱室风阀开度、舱室通风量控制目标,实际风量比例误差控制目标,舱室风阀控制限制目标,风阀及风机协调控制目标;所述强化学习要素包括舱室风阀智能体状态要素、舱室风阀智能体动作要素以及舱室风阀智能体奖励要素;
[0010] S2:根据设定的海洋平台通风系统控制目标、强化学习要素,基于SAC算法,采用策略‑价值网络对舱室风阀智能体进行训练,获得海洋平台通风系统各舱室的需求风量;
[0011] S3:基于舱室通风量控制目标,对海洋平台通风系统风量进行比例平衡控制,控制所有舱室的实际风量与需求风量的比例误差最小,求解获得需求风量比例一致的最优舱室风阀角度;
[0012] S4:根据比例平衡控制的求解结果,进行比例恢复,获得最优化求解后的风机功率。
[0013] 本发明一些实施例中,所述海洋平台通风系统的控制目标包括以下目标之一或组合:
[0014] 目标1:舱室二氧化碳浓度控制目标:
[0015]
[0016] 式中 表示t时刻舱室 的CO2实时浓度; 表示舱室 的CO2浓度上限;表示舱室 的CO2浓度节能下限; 表示舱室数量;
[0017] 目标2:风机静压、舱室风阀开度、舱室通风量控制目标:
[0018]
[0019]
[0020]
[0021] 式中, 表示 时刻风机静压, 和 表示风机静压的规定运行范围,为风机静压最小压力值, 为风机静压最大压力值; 表示 时刻舱室 的舱室风阀角度, 和 表示舱室 舱室风阀的动作限制范围, 为舱室 舱室风阀的最小风阀角度, 为舱室 舱室风阀的最大风阀角度; 表示t时刻舱室 的需求风量, 和表示舱室 需求风量的限制范围, 为舱室 需求风量最小值, 为舱室 需求风量最大值;
[0022] 目标3:实际风量比例误差控制目标:
[0023]
[0024] 式中 表示在 时刻舱室 的实际风量;表示气流速率相对误差; 表示舱室数量;
[0025] 目标4:舱室风阀控制限制目标,应保证至少有一个风阀完全打开:
[0026]
[0027] 当 时,表示舱室 的舱室风阀完全打开;
[0028] 目标5:风阀及风机协调控制目标:
[0029]
[0030] 式中 表示节能控制目标下的最大风机静压; 表示海洋平台通风系统节能控制目标下舱室风阀的最大风阀角度。
[0031] 本发明一些实施例中,舱室风阀智能体状态 的定义:
[0032]
[0033] 其中, 表示 时刻舱室 的CO2浓度; 表示t时刻舱室外的CO2浓度; 表示时刻舱室 的需求风量; 表示 时刻舱室 的人数; 表示 时刻的人体代谢率;
[0034] 舱室风阀智能体动作 的定义:
[0035]
[0036] 其中, 表示时刻舱室 的风量变化量;
[0037] 所述风阀智能体训练奖励要素包括:
[0038]
[0039]
[0040]
[0041]
[0042]
[0043] 其中, 为阈值塑形奖励函数, 表示引导智能体k学习的CO2浓度的奖励塑形下限,c1表示同时满足所有舱室CO2浓度限制和通风节能要求时的奖励值,c2表示舱室CO2浓度的阈值塑形奖励值; 为收敛加速奖励函数;c3表示收敛加速奖励值; 为边界限制奖励函数; 表示所有舱室在 时刻的CO2浓度的相对误差的集合, 表示舱室 在 时刻的CO2浓度的相对误差, 表示舱室数量; 为风量规范奖励函数;
[0044] 设计强化学习奖励函数 :
[0045]
[0046] 其中, , , 和 是四个子奖励函数的正权重系数。
[0047] 本发明一些实施例中, 仅在满足下面两个公式时有效:
[0048]
[0049]
[0050] 其中, 表示舱室k风量变化量的下限  , 表示舱室k风量变化量的上限。
[0051] 本发明一些实施例中,采用策略‑价值网络对舱室风阀智能体进行训练的步骤包括:
[0052] S21:设置基于最大熵的智能体训练损失函数:
[0053]
[0054] 其中,α表示温度系数; 表示强化学习策略 允许的状态‑动作对; 表示计算期望; 表示在舱室风阀智能体状态 选取舱室风阀智能体动作 所得的奖励;表示对强化学习的策略; 是策略熵,用于测量动作概率分布的不确定性,其定义为:
[0055]
[0056] 其中,表示分布 的取值:
[0057] ;
[0058] ;
[0059] S22:计算SAC算法的最优策略 :
[0060]
[0061] S23:定义柔性动作函数 ,进行柔性动作函数策略评估,使用柔性贝尔曼方程固定策略 并更新 值,直到 值收敛:
[0062]
[0063] 其中, 是柔性动作函数; 表示折扣因子;
[0064] S24:采用收敛后的 值改进强化学习的策略 ,将改进后的强化学习的策略 带入柔性动作函数,更新策略并得到新 函数的指数:
[0065]
[0066] 其中, 表示更新后的策略; 表示更新前的策略; 表示可行策略集合;表示更新前策略的 值函数; 表示用于规范化策略分布的配分函数。
[0067] 本发明一些实施例中,步骤S24中,用KL散度来约束策略更新的范围:
[0068] ;
[0069] 表示用于测量分布 和 差异的KL散度,表示分布X的取值;表示分布Y的取值, 用于计算S24中新 函数的指数 ,此时分布 ;分布Y=。
[0070] 本发明一些实施例中,步骤S2中,使用训练好的强化学习智能体获取当前时刻各舱室的需求风量的步骤包括:
[0071] 利用训练好的强化学习智能体,根据t时刻强化学习智能体所处的状态,获取t时刻海洋平台各舱室的需求风量的集合 :
[0072]
[0073] 其中, 表示 时刻舱室 的需求风量。
[0074] 本发明一些实施例中,步骤S3包括:
[0075] S31:将风量精确控制问题转化如下的比例等式:
[0076] ;
[0077] 其中, 为 时刻实际风量集合; 为上层需求风量的集合; 表示用于归一化的单位行向量;
[0078] S32:将风量精确控制问题转变为约束优化问题,第一目标函数设计为:
[0079] ;
[0080] 表示 时刻舱室 的舱室风阀的开度;
[0081] S33:根据节能控制目标,第二目标函数设计为:
[0082]
[0083] 其中, 表示舱室 的舱室风阀的最大开度;
[0084] S34:第三目标函数设计为:
[0085]
[0086] 其中: 表示 时刻风机静压;
[0087] S35:整合获得总目标函数 :
[0088]
[0089] 其中, , , 为平衡权重系数;
[0090] S36:基于总目标函数,采用GA‑fminconHSO方法最优风阀角度求解,获得 时刻舱室 最佳风阀角度下的风量 。
[0091] 本发明一些实施例中,步骤S4包括:
[0092] 基于 计算获得实际风量:
[0093]
[0094] 其中, 为GA‑fmincon HSO方法优化求解后在时刻舱室 最佳风阀角度下的风量; 为风量恢复比例,为小于1的正数; 为时刻舱室 的实际风量;
[0095] 采用比例控制的控制方案控制风机功率,根据某一舱室终端的风量调节风机功率,选取各比例的中位数,匹配风机功率调节比例如下:
[0096]
[0097] 其中, 为比例恢复后的风机实际功率; 为GA‑fmincon HSO方法优化求解后的风机功率; 表示所有舱室恢复比例集合的中值。
[0098] 本发明提供的海洋平台通风系统分层优化控制方法,其有益效果在于:
[0099] 本发明提出了一种融合柔性动作‑评价算法 (SAC) 和混合搜索优化方法 (HSO) 的海洋平台通风系统分层优化控制方法,以维持舱室内空气质量 (IAQ) 并降低通风系统能耗。
[0100] 本发明所提出的海洋平台通风系统分层优化控制方法分为上层控制和下层优化两个层次,采用主动控制方案,根据不同舱室的环境变化情况进行相应的风量调整,以达到各舱室IAQ的控制目标。在上层控制中,本发明建立了一个基于强化学习 (RL) 的虚拟多舱室通风环境,对基于SAC的智能体进行训练,使其在将二氧化碳浓度保持在节能阈值区间 (700ppm 800ppm) 的同时,最大限度地减少需求风量,从而最大限度的降低能耗。在底层优~化中,本发明设计了“比例平衡+比例恢复”的需求风量跟踪策略,使用基于遗传算法和fmincon的HSO方法 (GA‑fmincon HSO) 直接优化风阀位置,并结合风机功率调节隐式优化风机静压。
[0101] 通过风阀位置对风机静压进行隐式优化,进一步提高了海洋平台通风系统分层控制方法效能。

附图说明

[0102] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0103] 图1为本发明海洋平台通风系统分层优化控制方法总框图。
[0104] 图2为本发明SAC算法参数更新框图。
[0105] 图3为本发明GA‑Fmincong HSO 方法流程图。

具体实施方式

[0106] 为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0107] 显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0108] 本发明提供一种海洋平台通风系统分层优化控制方法,可用于海上船舶或海洋平台通风系统各舱室通风的控制。本发明的目的在于克服现有海洋平台通风控制方法的不足,针对舱室空气质量、多舱室通风节能需求,提出了一种融合柔性动作‑评价算法 (SAC) 和混合搜索优化方法 (HSO) 的海洋平台通风系统分层优化控制方法,分层优化控制方法总框图见图1。
[0109] 海洋平台包括主通风管路、多个舱室,主通风管路上设置有总风阀,主通风管路与每个舱室连通;每个舱室均设置有一个变量风箱,每个风箱处设置有一个舱室风阀。其中,总风阀用于控制整个主通风管路的总通风量,舱室风阀用于控制每个舱室内的通风量。根据舱室的具体用途不同,可以根据需要选择控制舱室风阀的开度,以控制每个舱室的通风量。
[0110] 首先,阐述本发明海洋平台通风控制系统的控制目标。本发明为一种多目标控制算法,根据舱室空气质量和多舱室通风节能需求,本发明的具体控制目标如下。
[0111] 目标1:舱室二氧化碳浓度控制目标。
[0112] 兼顾舱室空气质量和通风节能要求,二氧化碳浓度范围应满足以下要求:
[0113]
[0114] 式中 表示时刻舱室 的CO2浓度; 表示舱室 的CO2浓度上限 (单位:ppm),本发明设置为800ppm; 表示舱室 的CO2浓度节能下限 (单位:ppm),本发明设置为700ppm; 表示舱室数量。
[0115] 目标2:风机静压、舱室风阀开度、舱室通风量控制目标。
[0116] 基于海洋平台通风系统固有物理约束,风机静压、舱室风阀位置、舱室通风量应在规定运行范围内:
[0117]
[0118]
[0119]
[0120] 式中, 表示 时刻风机静压, 和 表示风机静压的规定运行范围,为风机静压最小压力值, 为风机静压最大压力值; 表示 时刻舱室 的舱室风阀角度, 和 表示舱室 舱室风阀的动作限制范围, 为舱室 舱室风阀的最小风阀角度, 为舱室 舱室风阀的最大风阀角度; 表示 时刻舱室 的需求风量, 和表示舱室 需求风量的限制范围, 为舱室 需求风量最小值, 为舱室 需求风量最大值。
[0121] 目标3:实际风量比例误差控制目标。
[0122] 为了保证实际风量的控制精度,实际风量比例误差应保持在允许范围内:
[0123]
[0124] 式中 表示 时刻舱室 的实际风量 (单位:m3/h);表示气流速率相对误差 (工业标准为小于10%); 表示舱室数量。
[0125] 目标4:舱室风阀控制限制指标。
[0126] 为了最大限度地减少能耗,应保证至少有一个风阀完全打开,公式如下:
[0127]
[0128] 当 时,表示舱室 的舱室风阀完全打开。
[0129] 目标5:风阀及风机协调控制目标。
[0130] 最小化风阀的阻力,以相应地降低风机静压并进一步降低能耗:
[0131]
[0132] 式中 表示节能控制目标下的最大风机静压(单位:Pa);表示海洋平台通风系统节能控制目标下的舱室风阀的最大风阀角度  (单位:°)。
[0133] 本发明所提方法将海洋平台每个舱室的舱室风阀定义为舱室风阀智能体(共个),训练和控制方法具体包括如下步骤。
[0134] S1:定义每个舱室的舱室风阀为一个智能体;确定海洋平台通风系统的控制目标,并设计智能体强化学习要素;控制目标如前述目标1至目标5。强化学习要素包括舱室风阀智能体状态要素、舱室风阀智能体动作要素以及舱室风阀智能体奖励要素。对舱室风阀智能体状态、舱室风阀智能体动作、舱室风阀智能体奖励进行初始化定义。
[0135] S11:舱室风阀智能体状态的定义
[0136] 考虑到舱室内空气质量与CO2浓度、通风量、舱室内人员数量以及代谢率有关,因此本发明定义时刻 为:
[0137]
[0138] 其中, 表示 时刻舱室 的CO2浓度 (单位:ppm); 表示 时刻舱室外的CO2浓3
度 (单位:ppm); 表示 舱室 的需求风量 (单位:m /h); 表示 时刻舱室 的人数; 表示 时刻人体代谢率 (单位:met)。
[0139] S12:舱室风阀智能体动作的定义。
[0140] 为了有效地降低吹风感,限制需求风量调整的幅度,设置风阀智能体的动作为需求风量的变化量:
[0141]
[0142] 其中, 表示 时刻舱室 的风量变化量 (单位:m3/h);考虑到实际物理模型中存在的变量的约束,仅在满足下面两个公式时有效。
[0143]
[0144]
[0145] 其中, 表示舱室 风量变化量的变化下限 (单位:m3/h), 表示舱室 风量变化量的变化上限 (单位:m3/h)。
[0146] S13:舱室风阀智能体奖励的定义。
[0147] 为达到控制目标并引导智能体更快、更顺利地学习最优策略,本发明引入以下四个奖励子函数:
[0148]
[0149]
[0150]
[0151]
[0152]
[0153] 其中, 为阈值塑形奖励函数, 表示引导智能体k学习的CO2浓度的奖励塑形下限,c1表示同时满足所有舱室CO2浓度限制和通风节能要求时的奖励值,即满足目标1中的上下界限制,本发明优选为20,c2表示舱室CO2浓度的阈值塑形奖励值,用于引导所有舱室CO2在更大范围内保持阈值收敛,本发明优选为1; 为收敛加速奖励函数,用于引导智能体在训练过程中快速实现收敛,c3表示收敛加速奖励值,本发明优选为0.5; 为边界限制奖励函数,用于指导智能体在边界条件保持的正确动作判断, 表示所有舱室在t时刻的CO2浓度的相对误差的集合, 表示时刻舱室 的CO2浓度的相对误差, 表示舱室数量; 为风量规范奖励函数,用于优化需求风量以保证节能效果。综合考虑以上四个子奖励函数,最终的强化学习奖励函数设计如下:
[0154]
[0155] 其中, , , 和 是四个子奖励函数的正权重系数。
[0156] S2:智能体训练步骤。
[0157] 利用S1中设计的强化学习要素,在预先构建的虚拟环境中对智能体进行训练,以实现最终的优化控制流程,SAC算法参数更新框图见图2,采用策略‑价值网络对风阀智能体进行训练,最终获得海洋平台通风系统各舱室的需求风量。具体训练步骤如下。
[0158] S21:设置基于最大熵的智能体训练损失函数:
[0159]
[0160] 其中,α表示温度系数; 表示强化学习策略 允许的状态‑动作对; 表示计算期望; 表示在舱室风阀智能体状态 选取舱室风阀智能体动作 所得的奖励;表示对强化学习的策略; 是策略熵,用于测量动作概率分布的不确定性,其定义为:
[0161]
[0162] 其中,表示分布 的取值。在本发明中,策略熵 用于计算S22等的动作概率分布的不确定性,此时,此时 , 。
[0163] SAC算法通过引入最大熵,增强了策略的随机性,使每个动作的概率尽可能均匀地分布,防止过度集中于特定动作,从而提高了算法的探索能力、迁移学习能力和稳定性。
[0164] S22:计算SAC算法中的最优策略 ,具体如下:
[0165]
[0166] S23:定义柔性动作函数 ,进行柔性动作函数策略评估。固定策略 ,使用柔性贝尔曼方程更新 值,直到 值收敛:
[0167]
[0168] 其中, 是柔性动作函数; 表示折扣因子。
[0169] S24:采用收敛后的 值改进策略 ,将改进后的策略 带入柔性动作函数,更新策略 并得到新的 值函数的指数,并使用KL散度来约束策略更新的范围。策略更新公式如下:
[0170]
[0171] 其中, 表示更新后的策略; 表示更新前的策略; 表示可行策略集合;表示更新前策略的 值函数; 表示用于规范化策略分布的配分函数;
表示用于测量分布X和Y差异的KL散度。
[0172] 以上,S23与S24用于策略函数 的迭代:S23计算 值需要用到当前时刻的策略函数;S24策略函数 的更新需要使用S23计算出的 值;更新后的策略函数 再用于S23计算新的 值。不断重复,直至达到要求。
[0173] 用KL散度来约束策略更新的范围,具体公式如下:
[0174]
[0175] 其中: 表示用于测量分布 和 差异的KL散度,表示分布X的取值;表示分布Y的取值。在本发明中, 用于计算S24中新 函数的指数 ,此时分布;分布Y= 。
[0176] 通过以上步骤,保证了柔性策略能够在离散域和表格域迭代收敛到满足最大熵条件下的最优策略。在连续域中,柔性策略的迭代可以使用函数逼近器来实现,通常使用神经网络进行近似。
[0177] S25:从回放缓冲区 中提取小批量的历史交互数据,进行柔性 网络参数 和策略网络参数 的更新,具体分为三步。
[0178] S251:价值网络参数更新
[0179] 设计价值网络训练的损失函数,以保证柔性贝尔曼误差尽可能的小,具体如下:
[0180]
[0181] 其中, 是柔性 网络 的参数;是柔性状态值函数 的参数; 可以通过以下公式计算得到:
[0182]
[0183] 其中,是策略网络 的参数; 是目标 网络 的参数。
[0184] 利用梯度下降算法更新网络参数,SAC算法中柔性 网络的参数 梯度更新如下式所示:
[0185]
[0186] 其中, 是柔性 网络的更新步长; 是 的梯度。
[0187] 通过对状态值网络权重应用柔性更新的方法,即可根据柔性 网络的各项参数更新目标 网络的参数,具体为:
[0188]
[0189] 其中, 是目标 网络的更新步长。
[0190] S252:策略网络参数更新
[0191] 设计策略网络训练的损失函数,通过最小化贝尔曼方程中期望的KL散度对其进行训练,损失函数具体如下:
[0192]
[0193] 对于策略网络,采用参数变化的技巧,利用其具备的可微性质减少计算工作量,其最终输出的策略可以使用高斯分布N来表示:
[0194]
[0195] 其中, 和 分别表示 时刻高斯分布的均值和标准差,基于此,损失函数可进一步改写为以下公式:
[0196]
[0197] 继续使用梯度更新进行策略网络训练,其参数更新过程如下:
[0198]
[0199] 其中, 是策略网络的更新步长; 是 的梯度。
[0200] S253:温度系数自适应更新
[0201] 最新的SAC算法中,通过对最大熵的梯度进行更新,自适应得到最优的温度系数,其中损失函数设计为:
[0202]
[0203] 其中, 是期望的最小期望熵,通常为动作空间的维数的负值; 表示策略网络在时刻的动作。
[0204] 利用梯度下降法,更新温度系数如下:
[0205]
[0206] 其中, 是温度系数的更新步长; 是 的梯度。
[0207] 利用训练好的强化学习智能体,根据 时刻强化学习智能体所处的状态,获取 时刻各舱室的需求风量的集合 :
[0208]
[0209] 其中, 表示 时刻舱室 的需求风量。
[0210] S3:基于舱室通风量控制目标,对海洋平台通风系统风量进行比例平衡控制,控制所有舱室的实际风量与需求风量的比例误差最小,求解获得需求风量比例一致的最优舱室风阀角度。
[0211] 本发明所提的分层优化控制中,下层优化控制的目的是确保海洋平台通风系统中实际风量与上层得到的需求风量匹配,实现准确跟踪。根据目标3,首先对海洋平台通风系统的风量进行比例平衡控制,其核心为保持所有舱室的实际风量与需求风量的比例最小化。本发明通过设计待优化的比例平衡目标函数,以风阀角度为优化变量,利用GA‑fmincon HSO方法进行寻优,得到海洋平台通风系统能耗最小的全局最优风阀以进行精确的风量跟踪和节能优化,具体步骤如下。
[0212] S31:比例平衡对海洋平台通风系统的风量进行精确跟踪与控制,其核心在于风量比例而不是绝对值。通过引入风量的归一化,将风量精确控制问题转化如下的比例等式:
[0213]
[0214] 其中, 为 时刻实际风量集合; 为上层需求风量的集合; 表示用于归一化的单位行向量。
[0215] S32:将风量精确控制问题转变为约束优化问题,目标函数设计为:
[0216]
[0217] 其中, 表示时刻舱室 的舱室风阀的开度;上述目标函数存在多个可行解,因此需要进一步优化以获得最节能的风阀角度。
[0218] S33:根据目标4与目标5,应该至少保证一个风阀全开,并且所有的风阀角度均应该尽可能小以维持最大限度的节能,本发明利用当前风阀角度与最大风阀角度差和的最小化来实现节能目标,其目标函数记作:
[0219]
[0220] 其中, 表示舱室 的舱室风阀的最大开度;
[0221] S34:基于比例平衡进行实际风量控制时,还可以进一步考虑风机静压的影响,风机静压是通过PID控制器进行功率控制实现总的供应风量的进行线性变化,虽然调节风阀角度不能直接改善风机静压,但可以通过尽可能增加比例平衡的比例,使得总风量最大化,进一步使得降低的功率更大,以实现节能的要求,因此,第三个目标函数记为:
[0222]
[0223] 其中, 表示 时刻风机静压。
[0224] S35:整合以上优化目标得到下层优化的总体目标函数:
[0225]
[0226] 其中, , , 为平衡权重系数,作用为使子目标函数的量级保持一致,并具有不同的优化权值。
[0227] S36:基于总目标函数,采用GA‑fminconHSO方法最优风阀角度求解,获得实际风量。
[0228] 在完成下层海洋平台通风系统的优化的目标函数设计后,利用GA‑fminconHSO方法对最优风阀角度求解。遗传算法 (GA) 是一种元启发式优化算法,起源于达尔文的进化论,被广泛用于解决复杂的非线性和多维空间优化搜索问题。该算法通过将问题的解决方案编码为染色体来模拟选择和适应的自然过程。它在每次迭代中通过选择、交叉和突变操作产生一个新的和改进的染色体群体。然后,该算法将最佳染色体解码成问题的解。标准遗传算法的基本步骤如下:
[0229] S361:初始化:
[0230] 设置种群大小 、交叉概率 、突变概率 和终止准则。随机生成 个体作为初始总体 。将生成计数器 设置为0。
[0231] S362:评价:
[0232] 计算种群 中每个个体的适应度。
[0233] S363:进化:
[0234] a) 选择:使用轮盘选择方法从种群 中选择 对亲本 ( ),其中,个体可被重复选取。
[0235] b) 交叉:依概率 对已选的 对亲本进行交叉运算,生成 个中间个体。
[0236] c) 突变:依概率 对 中间个体独立应用突变算子,产生 个候选个体。
[0237] S364:选择:
[0238] 根据适合度和精英度从 候选个体中选择 个体,形成下一代群体 。
[0239] S365:终止:
[0240] 如果满足终止准则,则输出适应度最高的 ,将最优解的集合记为 。否则,将 加1,然后转到步骤S362。
[0241] 针对标准遗传算法在海洋平台通风系统最优控制中容易出现局部最优的问题,引入fmincon算法来弥补遗传算法在局部搜索方面的不足。遗传算法为fmincon算法提供一个良好的初始点,当达到优化的误差切换阈值时切换到fmincon算法,这样有更高的概率搜索到全局最优解。GA‑fmincon HSO法的流程图见图3。
[0242] S4:比例恢复。
[0243] 根据比例平衡控制的求解结果,进行比例恢复,获得最优化求解后的风机功率。具体的说,通过比例平衡优化求解后,得到满足与需求风量比例一致的最优舱室风阀角度,后续需要对风机的功率进行调节,以实现比例恢复到满足匹配需求风量的情况,接下来介绍比例恢复的步骤。
[0244] S41:根据S3的结果,海洋平台通风系统不同舱室的风量在比例平衡后与需求风量存在如下比例关系。
[0245]
[0246] 其中, 为GA‑fmincon HSO方法优化求解后在时刻舱室 时最佳风阀角度下的风量; 为风量恢复比例,为小于1的正数; 为时刻舱室 的实际风量。
[0247] 现有的研究已经表明,在一个舱室的风量恢复比例与风机功率调节比例匹配的情况下,其他舱室也可以严格匹配,且关系满足:
[0248]
[0249] 其中, (其中, 的取值为整数,包括1,2,…)是海洋平台通风系统风阀角度与固有特性相关的系数,当各舱室风阀角度固定时, 保持不变。因此,通过调节风机功率,将一个舱室的风量按适当的恢复比例进行缩放的同时,则其他舱室的风量也将会按相同比例进行缩放。这样,各舱室的风量就可以准确匹配各自的需求风量。
[0250] S42:采用比例控制的控制方案控制风机功率,根据某一舱室终端的风量调节风机功率,选取各比例的中位数,匹配风机功率调节比例如下:
[0251]
[0252] 其中, 为比例恢复后的风机实际功率 (单位:W); 为GA‑fmincon HSO方法优化求解后的风机功率 (单位:W); 表示所有舱室恢复比例集合的中值。
[0253] 与现有的需求控制通风 (DCV) 方法相比,所提出的海洋平台通风系统分层优化控制方法具有以下优势:
[0254] a) 可根据实时环境调整需求风量,有效维持多舱室的室内空气质量;
[0255] b) 可确保海洋平台通风系统实际风量与需求风量之间的相对误差符合ASHRAE标准 (小于10%);
[0256] c) 实验表明,与基于DDPG的方法相比,基于上层SAC的方法将二氧化碳浓度在节能阈值区间内的时间百分比提高了42.77%;与比例方法和P2S‑DVC方法相比,下层GA‑fmincon HSO方法的平均节能率分别提高了48.99%和38.97%。
[0257] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。