一种基于DQN变体的混联式混合动力系统能量管理方法转让专利
申请号 : CN202010845021.9
文献号 : CN112026744B
文献日 : 2022-01-04
发明人 : 周健豪 , 薛四伍 , 廖宇晖 , 薛源
申请人 : 南京航空航天大学
摘要 :
权利要求 :
1.一种基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,包括以下步骤:
建立被动混联式汽车的模型;在工况信息提前已知情况下利用DP算法求解得到最优的能量管理经验,储存进OEB中,然后在实时工况情况下利用深度强化学习中的Dueling DQN进行训练,在每次训练中,将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据,以及当前时刻的奖励值作为Dueling DQN代理的奖励值输入数据,将这时候得到的经验储存在PEB中,然后利用PER在PEB进行采样和随机从OEB中采样,将两者经验进行结合,其中PEB中经验的比例会随着时间的进行而不断减少,从而进行HER的Dueling DQN的神经网络进行训练得到收敛的代理,获取实验车辆在不同工况下的等效燃油消耗、影响能量管理的参数和观测量;将所述观测量输入所述深度强化学习代理进行所述混合动力汽车不同工况下的能量管理,输出为当前时刻的下一时刻所述混联式混合动力汽车控制量即发动机转矩需求和转速。
2.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述被动混联式汽车的模型包括汽车动力学模型、行星齿轮变速器以及电机和电池。
3.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述汽车动力学模型如下:
其中,Tout是驱动轴扭矩,R是汽车车轮半径,Fa是汽车惯性阻力,Fr是汽车空气阻力,Fg是汽车坡道阻力,Ff是汽车滚动阻力,m是汽车质量,v是汽车速度,a是汽车加速度,ρ是空气密度,A是汽车迎风面积,CD是空气阻力系数,α是汽车道路坡度,μr为滚动阻力系数。
4.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述行星齿轮变速器模型如下:
其中nm是电机转速;β是行星齿轮参数;nout是驱动轴转速;ne是发动机转速;Tm是电机扭矩、Te是发动机扭矩。
5.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所示电池模型为:
其中Pbatt(t)是电池功率,Voc是电池电压,Ib(t)是电池电流,rint是电池电阻,Pm(t)是电机功率,其大小为 其中ηm是电机效率,SOC是电池荷电状态,Qmax是电池最大容量。
6.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述影响能量管理的参数包括混合动力汽车不同工况上的道路情况即道路坡度和因乘客或货物变化导致的车载质量变化;所述影响能量管理的观测量包括汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差值、汽车位移以及可测量干扰道路坡度和车载质量变化量。
7.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,能量管理的目标函数为:
其中,γ是积极的权重因子,表明对燃油消耗和电池电量消耗的一种平衡等效;SOCref表示SOC参考值, 为每个取样时间燃油消耗量。
8.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述获取实验车辆在不同工况下影响能量管理的参数为:获取多个样本,每个样本包括不同时刻在所述实验车辆上采集到的可能影响能量管理的参数。
9.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法,其特征在于,所述获取实验车辆在在不同工况下的等效燃油消耗和影响所述能量管理的参数之后,以预设的采样频率采集所述实验车辆在固定路线工况下等效燃油消耗和影响所述能量管理的参数,并对采集到数据进行平滑处理和归一化处理。
说明书 :
一种基于DQN变体的混联式混合动力系统能量管理方法
技术领域
背景技术
烧问题的优势,所以混合动力的能量管理问题一直是研究的关键。
持,进行规则上的能量控制。基于优化的策略具有代表基准的是动态规划(DP),在全局工况
信息已知的情况下离线得到的混合动力汽车相对最优能量管理,它利用速度工况已知,对
混合动力汽车发动机和电池进行相应最优的能量需求分配,来得到最优能量管理。在现有
技术中,利用工程师经验制定规则进行规则上能量管理或者基于优化的在速度已知或者预
测的基础上选择的模型预测控制进行能量管理,进而调节混合动力汽车的等效燃油消耗的
大小。
进行实时在线运用,存在的模型预测可以做到优化和实时进行,但预测控制步长不能选择
过大,与DP的优化结果相比仍具有较大的差距。且很多优化方法考虑不全面,忽略了道路坡
度情况信息和汽车自身车载质量变化情况。
发明内容
车不同工况下的能量管理。
空气密度,A是汽车迎风面积,CD是空气阻力系数,α是汽车道路坡度,μr为滚动阻力系数;
荷电状态,Qmax是电池最大容量;
值、汽车位移以及可测量干扰道路坡度和车载质量变化量;
中,将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消
耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据,以及当前时刻
的奖励值作为Dueling DQN代理的奖励值输入数据,将这时候得到的经验储存在PEB中,然
后利用PER在PEB进行采样和随机从OEB中采样,将两者经验进行结合,其中PEB中经验的比
例会随着时间的进行而不断减少,从而进行HER的Dueling DQN的神经网络进行训练得到收
敛的代理,获取实验车辆在不同工况下的等效燃油消耗和影响能量管理的参数;将所述观
测值输入所述深度强化学习代理,输出为当前时刻的下一时刻所述混联式混合动力汽车控
制量即发动机转矩需求和转速,其中,所述当前时刻为当前观测量所处时刻;
量管理的参数,并对采集到数据进行平滑处理和归一化处理。
验和利用PER从而组成HER可以更好训练Dueling架构DQN代理,获取实验车辆在不同工况下
等效燃油消耗和影响能量管理的环境参数;基于影响所述能量管理的参数和观测量,训练
深度强化学习代理模型,获得训练后的代理;获取汽车实际行驶中影响能量管理的环境参
数,基于实际行驶中影响能量管理的环境参数,以及训练后的代理,进行混合动力汽车的能
量管理,从而能有效控制能量优化,并能实时在线应用,实现对混合动力汽车能量管理更有
效的控制,减少了能源消耗。
附图说明
具体实施方式
车不同工况下的能量管理。
况运行时间,可得到简单的SOC参考,即随着时间变化,参考SOC呈一次函数匀速下降,这种
情况下的电池工作效果较好;
空气密度,A是汽车迎风面积,CD是空气阻力系数,α是汽车道路坡度,μr为滚动阻力系数;
荷电状态,Qmax是电池最大容量;
值、汽车位移以及可测量干扰道路坡度和车载质量变化量;
中,将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消
耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据,以及当前时刻
的奖励值作为Dueling DQN代理的奖励值输入数据,将这时候得到的经验储存在PEB中,然
后利用PER在PEB进行采样和随机从OEB中采样,将两者经验进行结合,其中PEB中经验的比
例会随着时间的进行而不断减少,从而进行HER的Dueling DQN的神经网络进行训练得到收
敛的代理,获取实验车辆在不同工况下的等效燃油消耗和影响能量管理的参数;将所述观
测值输入所述深度强化学习代理,输出为当前时刻的下一时刻所述混联式混合动力汽车控
制量即发动机转矩需求和转速,其中,所述当前时刻为当前观测量所处时刻;
量管理的参数,并对采集到数据进行平滑处理和归一化处理。
进而降低等效燃油消耗和进行更精确的控制。如图2所示,以上所述方法的具体应用过程如
下:
用NEDC作为实验训练工况,并采集该实验车辆在该工况下循环至少三次的数据,以保证训
练数据的可靠性。
取在汽车安装的燃油消耗量和电池电量传感器上的数据,获取实验车辆在该工况下等效燃
油消耗。
预先设置采样时间间隔,根据采样时间间隔对行驶时的实验车辆进行采样。例如,技术人员
可以将采样频率设置为1HZ。
数值,可以通过下述公式计算:
出Q值估计。
(s,a|θ),网络分为Online评价网络和Target评价网络,Target评价网络和Online评价网
Q
络结构相同对Online评价网络的参数θ进行随机初始化,通过这两个网络参数来初始
Q′
Target评价网络的网络参数θ ,同时开辟一个空间OEB作为经验回放的储存空间。
at,rt,st+1)储存到OEB空间中。从OEB空间采用PER技术选取一个小批量数据,结合OEB中随机
选取的一小批数据进行HER作为Online评价网络的训练数据,更新Online评价网络。
过最小化Loss函数来更新Online评价网络。利用更新的Online评价网络参数θ对Target评
Q′
价网络的网络参数θ 进行更新:
的评估就并不准确,缺乏鲁棒性和稳定性。
声,使每个状态相对于其他未选择动作的相对价值,另一个流表示一定状态下的状态动作
优势函数A(s,a),如果一个动作的优势值是正数,则意味着该动作所带来的价值比其他动
作的平均价值更高。最后,通过一个特殊的聚合层将两个流组合在一起,以生成状态动作值
函数的估计值,这种设计的优点是可以跨操作泛化学习,而不需要对底层的RL算法进行任
何更改,在Dueling DQL中,构造的Q值函数如下:
性,因此利用优势函数的平均值来提高提出的算法的稳定性:
果进行评价。
均方根接近于0,这表明由深度强化学习训练完成后的代理模型具有很好的控制性能。
进行检测,并在每种工况训练过程中计算出R值,以R值为指标来比较各个反向传播训练方
法的控制性能,进而检测深度强化学习的效果和鲁棒性。结果如表1所示:
行驶和能量管理。
中的至少一种参数。汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机
转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差值、汽车位移。将这些参
数输入训练后的代理模型,输出汽车在预估时刻的控制行动,即下一时刻发动机扭矩和转
速,其中,预估时刻为当前时刻的下一个进行参数采样的时刻,也就是,预估时刻是当前时
刻对应的采样点的下一个采样点对应的时刻。
改、等同替换、改进等,均应包含在本发明的保护范围之内。