考虑空调系统的燃料电池汽车学习型协同能量管理方法转让专利

申请号 : CN202211385462.0

文献号 : CN115503559B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 唐小林邓磊甘炯鹏朱和龙胡晓松李佳承

申请人 : 重庆大学

摘要 :

本发明涉及一种考虑空调系统的燃料电池汽车学习型协同能量管理方法,属于新能源汽车领域。该方法包括:S1:获取燃料电池汽车的车辆状态参数信息、燃料电池参数信息、动力电池参数信息以及空调系统参数信息;S2:建立燃料电池汽车协同能量管理模型;S3:建立考虑空调系统的燃料电池汽车协同能量管理优化控制策略,并结合SAC算法求解包含燃氢经济性和舱室温度舒适性的多目标优化问题,在进行能量流优化控制的同时,控制空调制冷/制热容量的变化以维持舱室温度处于舒适区间。本发明能有效解决氢能消耗和舱室温度舒适性之间的折中问题,优化燃料电池汽车的燃氢经济性以及舱室温度舒适性。

权利要求 :

1.一种考虑空调系统的燃料电池汽车学习型协同能量管理方法,其特征在于,该方法具体包括以下步骤:S1:获取燃料电池汽车的车辆状态参数信息、燃料电池参数信息、动力电池参数信息以及空调系统参数信息;

S2:建立燃料电池汽车协同能量管理模型,包括:整车纵向动力学模型、燃料电池模型、动力电池模型、电机模型、空调系统模型和车舱热负荷模型;

S3:建立考虑空调系统的燃料电池汽车协同能量管理优化控制策略,并结合SAC算法求解包含燃氢经济性和舱室温度舒适性的多目标优化问题,在进行能量流优化控制的同时,控制空调制冷/制热容量的变化以维持舱室温度处于舒适区间;所述SAC算法是软约束演员评论家算法;其中,建立考虑空调系统的燃料电池汽车协同能量管理优化控制策略,具体包括以下步骤:S301:确定状态空间:将动力电池SOC、燃料电池输出功率Pfc、车辆速度v、空调系统的制冷/制热容量Qac设置为状态变量,构建状态空间S,表示为:S={SOC,Pfc,v,Qac}

S302:确定动作空间:将燃料电池输出功率变化量▽Pfc和空调系统制冷/制热容量变化量▽Qac设置为动作变量,构建动作空间A,表示为:A={▽Pfc,▽Qac}

S303:建立奖励函数:将奖励函数R设置为氢能消耗量、SOC变化和舱室温度变化三个指标的加权求和,表示为:

2 2

R=‑(ζ·fuel(t)+ψ·(SOC(t)‑0.7) +γ·(Tin‑24))其中,ζ、Ψ、γ为各优化项权重因子,通过调节权重因子来解决氢能消耗和舱室温度舒适性之间的折中问题,从而求解多目标优化问题;fuel(t)表示当前时刻下的氢能消耗量;

SOC(t)表示当前时刻下的动力电池荷电状态;Tin表示为舱内空气温度;

结合SAC算法求解包含燃氢经济性和舱室温度舒适性的多目标优化问题,具体包括以下步骤:S311:结合SAC算法求解能量管理中多目标优化问题,在SAC算法中引入了动作熵值使得动作输出更加分散,进而提升算法的探索能力、学习新任务能力以及稳定性,熵值表示为:H(π(·|st))=‑logπ(·|st)

其中,H为策略π(·|st)的熵;

S312:求解过程中,智能体中演员网络以状态st作为输入,输出动作高斯分布的均值和方差,利用重参数化技术生成动作at:其中,τt表示从标准正态分布中采样的噪声信号; 表示函数输出均值和方差; 和分别表示高斯分布的均值和方差;

S313:执行动作at后,车辆环境向智能体反馈奖励rt,并转移到下一状态st+1,即生成环境与智能体的交互数据{st,at,rt,st+1},并储存于经验池 中;

S314:随机从经验池中抽取小批量经验样本,引入参数为θ1,θ2的评估评论家网络以及参数为θ1′,θ2′的目标评论家网络,选择目标评论家网络输出较小的动作状态函数值作为目标值;针对特定状态st和动作at,SAC算法中软约束动作值函数Qsoft(st,at)更新公式如下:其中,r表示车辆获得的奖励;γ表示折扣因子;α表示温度系数;

S315:更新策略网络时,通过最小化损失函数L(θi)更新评估评论家网络,损失函数定义为 与 之间的均方误差,表示为:其中, 表示评估评论家网络参数为θi时的评价函数, 表示目标评论家网络参数为θi′时的评价函数;

S316:演员网络参数更新是通过最小化KL散度实现;演员网络的目标函数 定义为:其中,DKL表示KL散度计算表达式;Z(st)是配分函数,用于归一化分布; 表示当前时刻下车辆状态st、执行动作at时的数学期望函数; 表示当前状态为st时的策略函数,表示为策略函数的参数;

S317:按照梯度下降法更新演员网络参数,表示为:

其中, 表示为关于策略函数参数 的下降梯度, 表示为关于当前时刻t下执行动作at的下降梯度;

S318:通过对优化问题中目标函数求解最小值,即能更新得到每步最佳温度系数,目标函数表示为:其中,H0表示预先定义的最小策略熵的阈值, 表示为依据策略函数πt执行动作at时的数学期望函数,πt(at|st)表示为策略函数,st表示为当前时刻t下燃料电池汽车所处的状态,at则表示为当前时刻t时依据策略函数执行的动作。

2.根据权利要求1所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S1中,所述车辆状态参数信息包括:车速、车舱热负荷参数、电机运行效率以及传动系统特性参数;所述燃料电池参数信息包括:燃料电池的功率、效率以及氢能消耗量;所述动力电池参数信息包括:动力电池的荷电状态、内阻以及开路电压;所述空调系统参数信息包括:空调系统冷却容量/制热容量以及相应的功率。

3.根据权利要求1所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的整车纵向动力学模型为:Pdrive=(Fair+Ff+Fi+m0a)·v

Pdem=Pb+Pfc·ηDC/DC

其中,m0表示整车质量;v表示为整车车速;a表示车辆加速度;Fair表示为空气阻力;Ff表示为滚动阻力;Fi表示为加速阻力;ηm、ηDC/AC、ηDC/DC以及ηmotor分别表示传动效率、DC/AC转换器效率、DC/DC转换器效率以及电机效率;Pdrive、Pdem、Pb以及Pfc分别表示车辆车轮处驱动功率、需求功率以及电池输出功率、燃料电池输出功率。

4.根据权利要求3所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的燃料电池模型为:ηfc=fη(Pfc)

其中,fη(·)和 分别表示为效率和氢能消耗量的拟合函数,通过插值法计算效率与氢耗。

5.根据权利要求3所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的动力电池模型为:其中,IL表示为动力电池电流;Voc表示为动力电池开路电压;Rin表示为动力电池等效内阻;SOC0表示为初始SOC;Qt表示为动力电池最大容量;t0表示为初始时刻;tf表示为最终时刻。

6.根据权利要求3所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的电机模型为:ηm=fm(ωm,Tm)

其中,ωm和Tm分别表示电机转速和转矩;Pm表示为电机输出功率,fm(·)表示电机工作效率的拟合函数,通过插值法得到电机的工作效率。

7.根据权利要求1所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的空调系统模型为:其中,Qac表示为空调系统的制冷容量或制热容量;Pac表示为空调系统相应功耗;ηcop表示为空调系统性能系数。

8.根据权利要求1所述的燃料电池汽车学习型协同能量管理方法,其特征在于,步骤S2中,建立的车舱热负荷模型为:Qc=∑KF(Tout‑Tin)

Qh=145+116n

Qn=meξCpair(Tout‑Tin)

其中,Qc、Qr、Qh以及Qn分别表示热传导负荷、辐射热负荷、车内人员产生热量以及通风系统热负荷;K表示为传热系数;F表示为相应外壳的传热面积;Tout表示为环境温度;

Tin表示为舱内空气温度;η表示为渗透率;I表示为太阳光光强大小;Ai表示为挡风玻璃、左右侧窗以及后窗面积;θi表示为太阳光入射角;β表示为阴影因子;n表示为车内乘客人数;

me表示为通过蒸发器的空气质量;ξ表示为空气再循环系数;Cpair表示为室内空气热容;

ρair和Vair分别表示为车舱内空气密度和车舱体积。

说明书 :

考虑空调系统的燃料电池汽车学习型协同能量管理方法

技术领域

[0001] 本发明属于新能源汽车领域,涉及一种考虑空调系统的燃料电池汽车学习型协同能量管理方法。

背景技术

[0002] 面对日益严峻的生态环境污染和化石燃料匮乏等问题,各大汽车厂商争相开始研发新能源汽车。随着燃料电池技术的发展,燃料电池汽车充分发挥着零排放、低能耗、强续航的优势,被认为是实现未来汽车可持续发展的重要研究方向之一。能量管理策略是燃料电池汽车多动力源系统的核心控制技术,其性能的优劣直接决定了整车的经济性能。当前研究中,能量管理方法主要分为三种类型:基于规则、基于优化与基于学习的能量管理策略。然而,基于规则和基于优化的能量管理方法面临着无法同时满足实时性和最优性的困境;对于传统深度强化学习算法而言,虽然能同时实现能量流优化的实时性和最优性,但在训练数据以及超参数设置方面存在一定不足。为此,软约束演员评论家算法的提出为解决以上难题提供了一种方法。
[0003] 另一方面,空调系统作为燃料电池汽车必不可少的辅助设备,有助于为车内乘员提供舒适的乘坐环境。然而,空调系统的使用必然会增加燃料电池汽车的能耗,从而对整车的经济性能产生影响。在现今燃料电池汽车能量管理方法研究中,空调系统的能量消耗量通常视为定值或被忽略不计。但是,由于驾驶环境的变化,驾驶舱内外热交换量会随之变化,也就使得空调系统使用功率会发生变化。
[0004] 因此,亟需一种新型的燃料电池汽车能量管理方法来协调控制空调系统和动力源部件,在考虑空调系统能耗变化的同时负责优化车辆中的能量流。

发明内容

[0005] 有鉴于此,本发明的目的在于提供一种考虑空调系统的燃料电池汽车学习型协同能量管理方法,通过运用软约束演员评论家(Soft actor critic,SAC)算法协调控制燃料电池汽车的空调系统和动力源部件,在保证舱室舒适性的同时优化整车能量流,以降低燃料电池汽车的整车能耗。
[0006] 为达到上述目的,本发明提供如下技术方案:
[0007] 一种考虑空调系统的燃料电池汽车学习型协同能量管理方法,具体包括以下步骤:
[0008] S1:获取燃料电池汽车的车辆状态参数信息、燃料电池参数信息、动力电池参数信息以及空调系统参数信息;
[0009] S2:建立燃料电池汽车协同能量管理模型,包括:整车纵向动力学模型、燃料电池模型、动力电池模型、电机模型、空调系统模型和车舱热负荷模型;
[0010] S3:建立考虑空调系统的燃料电池汽车协同能量管理优化控制策略,结合SAC算法求解包含燃氢经济性和舱室温度舒适性的多目标优化问题,在进行能量流优化控制的同时,控制空调制冷/制热容量的变化以维持舱室温度处于舒适区间;所述SAC算法是软约束演员评论家算法。
[0011] 进一步,步骤S1中,所述车辆状态参数信息包括:车速、车舱热负荷参数、电机运行效率以及传动系统特性参数;所述燃料电池参数信息包括:燃料电池的功率、效率以及氢能消耗量;所述动力电池参数信息包括:动力电池的荷电状态、内阻以及开路电压;所述空调系统参数信息包括:空调系统冷却容量/制热容量以及相应的功率。
[0012] 进一步,步骤S2中,建立的整车纵向动力学模型为:
[0013] Pdrive=(Fair+Ff+Fi+m0a)·v
[0014]
[0015] Pdem=Pb+Pfc·ηDC/DC
[0016] 其中,m0表示整车质量;v表示为整车车速;a表示车辆加速度;Fair表示为空气阻力;Ff表示为滚动阻力;Fi表示为加速阻力;ηm、ηDC/AC、ηDC/DC以及ηmotor分别表示传动效率、DC/AC转换器效率、DC/DC转换器效率以及电机效率;Pdrive、Pdem、Pb以及Pfc分别表示车辆车轮处驱动功率、需求功率以及电池输出功率、燃料电池输出功率。
[0017] 进一步,步骤S2中,建立的燃料电池模型为:
[0018] ηfc=fη(Pfc)
[0019]
[0020] 其中,fη(·)和 分别表示为效率和氢能消耗量的拟合函数,可通过插值法计算效率与氢耗。
[0021] 进一步,步骤S2中,建立的动力电池模型为:
[0022]
[0023]
[0024] 其中,IL表示为动力电池电流;Voc表示为动力电池开路电压;Rin表示为动力电池等效内阻;SOC0表示为初始SOC;Qt表示为动力电池最大容量;t0表示为初始时刻;tf表示为最终时刻。
[0025] 进一步,步骤S2中,建立的电机模型为:
[0026] ηm=fm(ωm,Tm)
[0027]
[0028] 其中,ωm和Tm分别表示电机转速和转矩;Pm表示为电机输出功率,fm(·)表示为电机工作效率的拟合函数,通过插值法可得到电机的工作效率。
[0029] 进一步,步骤S2中,建立的空调系统模型为:
[0030]
[0031] 其中,Qac表示为空调系统的制冷容量或制热容量;Pac表示为空调系统相应功耗;ηcop表示为空调系统性能系数。
[0032] 进一步,步骤S2中,建立的车舱热负荷模型为:
[0033] Qc=∑KF(Tout‑Tin)
[0034]
[0035] Qh=145+116n
[0036] Qn=meξCpair(Tout‑Tin)
[0037]
[0038] 其中,Qc、Qr、Qh以及Qn分别表示热传导负荷、辐射热负荷、车内人员产生热量(根据经验,驾驶员产生的热量约为145W,每位乘客约产生116W的热量)以及通风系统热负荷;K表示为传热系数;F表示为相应外壳的传热面积;Tout表示为环境温度;Tin表示为舱内空气温度;η表示为渗透率;I表示为太阳光光强大小;Ai表示为挡风玻璃、左右侧窗以及后窗面积;θi表示为太阳光入射角;β表示为阴影因子;n表示为车内乘客人数;me表示为通过蒸发器的空气质量;ξ表示为空气再循环系数;Cpair表示为室内空气热容;ρair和Vair分别表示为车舱内空气密度和车舱体积。
[0039] 进一步,步骤S3中,建立考虑空调系统的燃料电池汽车协同能量管理优化控制策略,具体包括以下步骤:
[0040] S301:确定状态空间:为能反映关键环境信息,将动力电池SOC、燃料电池输出功率Pfc、车辆速度v、空调系统的制冷/制热容量Qac设置为状态变量,构建状态空间S,可表示为:
[0041] S={SOC,Pfc,v,Qac}
[0042] S302:确定动作空间:考虑空调系统的协同能量管理不但分配动力源功率,还应根据空调系统制冷/制热容量的变化维持舱室温度的热舒适性,为此,将燃料电池输出功率变化量 和空调系统制冷/制热容量变化量 设置为动作变量,构建动作空间A,可表示为:
[0043]
[0044] S303:建立奖励函数:为保证舱室温度舒适性,将车舱室内温度维持在24℃左右,为此奖励函数中还应包括舱室温度变化这一优化项,于是将奖励函数R设置为氢能消耗量、SOC变化和舱室温度变化三个指标的加权求和,表示为:
[0045] R=‑(ζ·fuel(t)+ψ·(SOC(t)‑0.7)2+γ·(Tin‑24)2)
[0046] 其中,ζ、Ψ、γ为各优化项权重因子,通过调节权重因子来解决氢能消耗和舱室温度舒适性之间的折中问题,从而求解多目标优化问题;fuel(t)表示当前时刻下的氢能消耗量;SOC(t)表示当前时刻下的动力电池荷电状态。
[0047] 进一步,步骤S3中,结合SAC算法求解包含燃氢经济性和舱室温度舒适性的多目标优化问题,具体包括以下步骤:
[0048] S311:结合SAC算法求解能量管理中多目标优化问题,在SAC算法中引入了动作熵值使得动作输出更加分散,进而提升算法的探索能力、学习新任务能力以及稳定性,熵值表示为:
[0049] H(π(·|st))=‑logπ(·|st)
[0050] 其中,H为策略π(·|st)的熵。
[0051] S312:求解过程中,智能体中演员网络以状态st作为输入,输出动作高斯分布的均值和方差,利用重参数化技术生成动作at:
[0052]
[0053] 其中,τt表示从标准正态分布中采样的噪声信号; 表示函数输出均值和方差;和 分别表示高斯分布的均值和方差。
[0054] S313:执行动作at后,车辆环境向智能体反馈奖励rt,并转移到下一状态st+1,即可生成环境与智能体的交互数据{st,at,rt,st+1},并储存于经验池 中。
[0055] S314:随机从经验池中抽取小批量经验样本,为避免最大化动作状态函数值时的高估以及利用自身网络计算目标时的进一步高估,引入参数为θ1,θ2的评估评论家网络以及参数为θ′1,θ′2的目标评论家网络,选择目标评论家网络输出较小的动作状态函数值作为目标值;针对特定状态st和动作at,SAC算法中软约束动作值函数Qsoft(st,at)更新公式如下:
[0056]
[0057] 其中,r表示车辆获得的奖励;γ表示折扣因子;α表示温度系数。
[0058] S315:更新策略网络时,通过最小化损失函数L(θi)更新评估评论家网络,损失函数定义为 与 之间的均方误差,表示为:
[0059]
[0060]
[0061] 其中, 表示为评估评论家网络参数为θi时的评价函数,而 表为目标评论家网络参数为θ′i时的评价函数。
[0062] S316:演员网络参数更新是通过最小化KL散度实现,KL值越小,输出动作对应的奖励之间的差异越小,则策略的收敛效果越好;演员网络的目标函数 定义为:
[0063]
[0064] 其中,DKL表示KL散度计算表达式;Z(st)是配分函数,用于归一化分布; 表示当前时刻下车辆状态st、执行动作at时的数学期望函数, 表示当前状态为st时的策略函数,表示为策略函数的参数。
[0065] S317:按照梯度下降法更新演员网络参数,表示为:
[0066]
[0067] 其中, 表示为关于策略函数参数 的下降梯度, 表示为关于当前时刻t下执行动作at的下降梯度。
[0068] S318:在SAC算法体系中,温度系数α的调节对于SAC算法训练效果至关重要,在不同的强化学习任务及训练时期,最佳温度系数的取值均不同。为实现温度系数的自动调节,通过对优化问题中目标函数求解最小值,即能更新得到每步最佳温度系数,目标函数表示为:
[0069]
[0070] 其中,H0表示预先定义的最小策略熵的阈值, 表示为依据策略函数πt执行动作at时的数学期望函数,πt(at|st)表示为策略函数,st表示为当前时刻t下燃料电池汽车所处的状态,at则表示为当前时刻t时依据策略函数执行的动作。
[0071] 本发明的有益效果在于:
[0072] 1)本发明设计了一种基于软约束演员评论家算法的能量管理策略,有效摆脱了传统深度强化学习算法在燃料电池汽车能量管理应用中对训练数据以及超参数设置的依赖性,有利于提高连续动作空间下控制任务的稳定性。
[0073] 2)考虑到在燃料电池汽车能量管理问题设计时通常忽略了空调系统能耗的变化,为此,本发明以氢能消耗、SOC维持以及舱室温度舒适性为优化目标,搭建了计及空调系统的协同能量管理优化控制框架,实现了能量管理与空调系统的协同控制。
[0074] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

[0075] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0076] 图1为本发明的燃料电池汽车协同能量管理方法的流程图;
[0077] 图2为燃料电池汽车多动力源系统结构示意图;
[0078] 图3为车舱热负荷模型和空调系统结构示意图;
[0079] 图4为本发明中应用SAC算法搭建的计及空调系统的协同能量管理框架图。

具体实施方式

[0080] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0081] 请参阅图1~图4,本发明基于软约束演员评论家算法设计了一种计及空调系统的燃料电池汽车协同能量管理优化方法。考虑到燃料电池汽车能量管理中通常忽略空调系统的能耗变化,因此分析了车辆舱室内温度舒适性的主要影响因素,建立了空调系统模型与车舱热负荷模型,以氢耗、SOC维持和舱室温度为优化目标,通过应用适用于连续动作空间下控制任务的软约束演员评论家算法,搭建了计及空调系统的协同能量管理优化控制框架,实现了能量管理与空调系统的协同控制,优化了燃料电池汽车的燃氢经济性以及舱室温度舒适性。如图1所示,该能量管理协同优化方法具体包括以下步骤:
[0082] S1:获取燃料电池汽车关键参数信息,包括:
[0083] 车辆状态参数信息包括:车速、车舱热负荷参数、电机运行效率以及传动系统特性参数;
[0084] 燃料电池参数信息包括:燃料电池的功率、效率以及氢能消耗量;
[0085] 动力电池参数信息包括:动力电池的荷电状态、内阻以及开路电压;
[0086] 空调系统参数信息包括:空调系统冷却容量/制热容量以及相应的功率。
[0087] S2:建立燃料电池汽车协同能量管理模型,如图2和图3所示,具体步骤为:
[0088] S21:建立整车纵向动力学模型:
[0089] Pdrive=(Fair+Ff+Fi+m0a)·v
[0090]
[0091] Pdem=Pb+Pfc·ηDC/DC
[0092] 其中,m0表示整车质量;v表示为整车车速;a表示车辆加速度;Fair表示为空气阻力;Ff表示为滚动阻力;Fi表示为加速阻力;ηm、ηDC/AC、ηDC/DC以及ηmotor分别表示传动效率、DC/AC转换器效率、DC/DC转换器效率以及电机效率;Pdrive、Pdem、Pb以及Pfc分别表示车辆车轮处驱动功率、需求功率以及电池输出功率、燃料电池输出功率。
[0093] S22:建立燃料电池模型:
[0094] ηfc=fη(Pfc)
[0095]
[0096] 其中,fη(·)和 分别表示为效率和氢能消耗量的拟合函数,可通过插值法计算效率与氢耗。
[0097] S23:建立动力电池模型:
[0098]
[0099]
[0100] 其中,IL表示为动力电池电流;Voc表示为动力电池开路电压;Rin表示为动力电池等效内阻;SOC0表示为初始SOC;Qt表示为动力电池最大容量;t0表示为初始时刻;tf表示为最终时刻。
[0101] S24:建立电机模型:
[0102] ηm=fm(ωm,Tm)
[0103]
[0104] 其中,ωm和Tm分别表示电机转速和转矩;Pm表示为电机输出功率,fm(·)表示为电机工作效率的拟合函数,通过插值法可得到电机的工作效率。
[0105] S25:建立空调系统模型:
[0106]
[0107] 其中,Qac表示为空调系统的冷却容量或制热容量;Pac表示为空调系统相应功耗;ηcop表示为空调系统性能系数。
[0108] S26:建立车舱热负荷模型:
[0109] Qc=∑KF(Tout‑Tin)
[0110]
[0111] Qh=145+116n
[0112] Qn=meξCpair(Tout‑Tin)
[0113]
[0114] 其中,Qc、Qr、Qh以及Qn分别表示热传导负荷、辐射热负荷、车内人员产生热量(根据经验,驾驶员产生的热量约为145W,每位乘客约产生116W的热量)以及通风系统热负荷;K表示为传热系数;F表示为相应外壳的传热面积;Tout表示为环境温度;Tin表示为舱内空气温度;η表示为渗透率;I表示为太阳光光强大小;Ai表示为挡风玻璃、左右侧窗以及后窗面积;θi表示为太阳光入射角;β表示为阴影因子;n表示为车内乘客人数;me表示为通过蒸发器的空气质量;ξ表示为空气再循环系数;Cpair表示为室内空气热容;ρair和Vair分别表示为车舱内空气密度和车舱体积。
[0115] S3:基于SAC算法建立了计及空调系统的燃料电池汽车协同能量管理优化控制框架,求解包含燃氢经济性和舱室温度舒适性的多目标优化问题。如图3所示,通过应用软约束演员评论家算法实现了能量管理与空调系统的协同控制,优化了燃料电池汽车的燃氢经济性以及舱室温度舒适性,具体为:
[0116] S301:为能反映关键环境信息,将动力电池SOC、燃料电池输出功率Pfc、车辆速度v、空调制冷/制热容量Qac设置为状态变量,构建状态空间,可表示为:
[0117] S={SOC,Pfc,v,Qac}
[0118] S302:计及空调系统的协同能量管理不但分配动力源功率,还应根据空调系统制冷/制热容量的变化维持舱室温度的热舒适性,为此,将燃料电池输出功率变化量 和空调系统制冷/制热容量变化量 设置为动作变量,构建动作空间,可表示为:
[0119]
[0120] S303:为保证舱室温度舒适性,将车舱室内温度维持在24℃左右,为此奖励函数中还应包括舱室温度变化这一优化项,于是奖励函数设置为氢能消耗量、SOC变化和舱室温度变化三个指标的加权求和,表示为:
[0121] R=‑(ζ·fuel(t)+ψ·(SOC(t)‑0.7)2+γ·(Tin‑24)2)
[0122] 其中,ζ、Ψ、γ为各优化项权重因子,通过调节权重因子来解决氢能消耗和舱室温度舒适性之间的折中问题,从而求解多目标优化问题;fuel(t)表示为当前时刻下的氢能消耗量;SOC(t)表示为当前时刻下的动力电池荷电状态。
[0123] S304:结合SAC算法求解能量管理中多目标优化问题,在SAC算法中引入了动作熵值使得动作输出更加分散,进而提升算法的探索能力、学习新任务能力以及稳定性,熵值表示为:
[0124] H(π(·|st))=‑logπ(·|st)
[0125] 其中,H即为策略π(·|st)的熵。
[0126] S305:求解过程中,智能体中演员网络以状态st作为输入,输出动作高斯分布的均值和方差,利用重参数化技术生成动作at:
[0127]
[0128] 其中,τt表示为从标准正态分布中采样的噪声信号; 函数输出均值和方差; 和分别表示高斯分布的均值和方差。
[0129] S306:执行动作at后,车辆环境向智能体反馈奖励rt,并转移到下一状态st+1,即可生成环境与智能体的交互数据{st,at,rt,st+1},并储存于经验池 中。
[0130] S307:随机从经验池中抽取小批量经验样本,为避免最大化动作状态函数值时的高估以及利用自身网络计算目标时的进一步高估,引入参数为θ1,θ2的评估评论家网络以及参数为θ′1,θ′2的目标评论家网络,选择目标评论家网络输出较小的动作状态函数值作为目标值。针对特定状态st和动作at,SAC算法中软约束动作值函数Qsoft(st,at)更新公式如下:
[0131]
[0132] 其中,r表示为车辆获得的奖励;γ表示为折扣因子;α表示为温度系数。
[0133] S308:更新策略网络时,通过最小化损失函数L(θi)更新评估评论家网络,损失函数定义为 与 之间的均方误差,表示为:
[0134]
[0135]
[0136] 其中, 表示为评估评论家网络参数为θi时的评价函数,而 表为目标评论家网络参数为θ′i时的评价函数。
[0137] S309:演员网络参数更新是通过最小化KL散度实现,KL值越小,输出动作对应的奖励之间的差异越小,则策略的收敛效果越好。演员网络的目标函数 定义为:
[0138]
[0139] 其中,DKL表示为KL散度计算表达式;Z(st)是配分函数,用于归一化分布;表示当前时刻下车辆状态st、执行动作at时的数学期望函数, 表示当前状态为st时的策略函数,表示为策略函数的参数。
[0140] S310:按照梯度下降法更新演员网络参数,表示为:
[0141]
[0142] 其中, 表示为关于策略函数参数 的下降梯度, 表示为关于当前时刻t下执行动作at的下降梯度;
[0143] S311:在SAC算法体系中,温度系数α的调节对于SAC算法训练效果至关重要,在不同的强化学习任务及训练时期,最佳温度系数的取值均不同。为实现温度系数的自动调节,通过对优化问题中目标函数求解最小值,即可更新得到每步最佳温度系数,目标函数表示为:
[0144]
[0145] 其中,H0表示为预先定义的最小策略熵的阈值, 表示为依据策略函数πt执行动作at时的数学期望函数,πt(at|st)表示为策略函数,st表示为当前时刻t下燃料电池汽车所处的状态,at则表示为当前时刻t时依据策略函数执行的动作。
[0146] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。