一种基于DQN变体的混联式混合动力系统能量管理方法转让专利

申请号 : CN202010845021.9

文献号 : CN112026744B

文献日 : 2022-01-04

本发明公开了一种基于DQN变体的混联式混合动力系统能量管理方法，属于混联式混合动力汽车技术领域，可以提高训练收敛速度以及汽车燃油经济性；本发明包括：建立混联式混合动力汽车模型，获取影响所述能量管理策略的环境参数，包括道路坡度和车载质量；利用动态规划(DP)算法，求解得到最优能量管理策略，将经验保存进最优经验池(OEB)，结合混合经验回放(HER)技术，采用Dueling DQN策略训练模型，获得训练后的深度强化学习代理，进行所述混联式混合动力汽车在不同工况下的能量管理。本发明所构建HER技术和DQN变体Dueling架构可以有效提高训练收敛速度、汽车燃油经济性和算法鲁棒性。

1.一种基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，包括以下步骤：

建立被动混联式汽车的模型；在工况信息提前已知情况下利用DP算法求解得到最优的能量管理经验，储存进OEB中，然后在实时工况情况下利用深度强化学习中的Dueling DQN进行训练，在每次训练中，将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据，以及当前时刻的奖励值作为Dueling DQN代理的奖励值输入数据，将这时候得到的经验储存在PEB中，然后利用PER在PEB进行采样和随机从OEB中采样，将两者经验进行结合，其中PEB中经验的比例会随着时间的进行而不断减少，从而进行HER的Dueling DQN的神经网络进行训练得到收敛的代理，获取实验车辆在不同工况下的等效燃油消耗、影响能量管理的参数和观测量；将所述观测量输入所述深度强化学习代理进行所述混合动力汽车不同工况下的能量管理，输出为当前时刻的下一时刻所述混联式混合动力汽车控制量即发动机转矩需求和转速。

2.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述被动混联式汽车的模型包括汽车动力学模型、行星齿轮变速器以及电机和电池。

3.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述汽车动力学模型如下：

其中，Tout是驱动轴扭矩，R是汽车车轮半径，Fa是汽车惯性阻力，Fr是汽车空气阻力，Fg是汽车坡道阻力，Ff是汽车滚动阻力，m是汽车质量，v是汽车速度，a是汽车加速度，ρ是空气密度，A是汽车迎风面积，CD是空气阻力系数，α是汽车道路坡度，μr为滚动阻力系数。

4.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述行星齿轮变速器模型如下：

其中nm是电机转速；β是行星齿轮参数；nout是驱动轴转速；ne是发动机转速；Tm是电机扭矩、Te是发动机扭矩。

5.根据权利要求2所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所示电池模型为：

其中Pbatt(t)是电池功率，Voc是电池电压，Ib(t)是电池电流，rint是电池电阻，Pm(t)是电机功率，其大小为其中ηm是电机效率，SOC是电池荷电状态，Qmax是电池最大容量。

6.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述影响能量管理的参数包括混合动力汽车不同工况上的道路情况即道路坡度和因乘客或货物变化导致的车载质量变化；所述影响能量管理的观测量包括汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差值、汽车位移以及可测量干扰道路坡度和车载质量变化量。

7.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，能量管理的目标函数为：

其中，γ是积极的权重因子，表明对燃油消耗和电池电量消耗的一种平衡等效；SOCref表示SOC参考值，为每个取样时间燃油消耗量。

8.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述获取实验车辆在不同工况下影响能量管理的参数为：获取多个样本，每个样本包括不同时刻在所述实验车辆上采集到的可能影响能量管理的参数。

9.根据权利要求1所述的基于DQN变体的混联式混合动力系统能量管理的方法，其特征在于，所述获取实验车辆在在不同工况下的等效燃油消耗和影响所述能量管理的参数之后，以预设的采样频率采集所述实验车辆在固定路线工况下等效燃油消耗和影响所述能量管理的参数，并对采集到数据进行平滑处理和归一化处理。

一种基于DQN变体的混联式混合动力系统能量管理方法

技术领域

[0001] 本发明属于混联式混合动力汽车技术领域，尤其涉及一种基于DQN变体的混联式混合动力系统能量管理方法。

背景技术

[0002] 在能源危机日渐严重的当今，汽车排放标准也逐渐变得严苛，纯燃油汽车的使用受到了挑战，而混合动力汽车兼顾了燃油车的续驶里程长和电动车无排放解决化石燃料燃
烧问题的优势，所以混合动力的能量管理问题一直是研究的关键。

[0003] 目前混合动力汽车的能量管理大多是基于规则的策略，通过制定一定的能量管理阈值，最常见的插电式混合动力的规则是先进行电池能量的消耗，然后进行电池电量的保
持，进行规则上的能量控制。基于优化的策略具有代表基准的是动态规划(DP)，在全局工况
信息已知的情况下离线得到的混合动力汽车相对最优能量管理，它利用速度工况已知，对
混合动力汽车发动机和电池进行相应最优的能量需求分配，来得到最优能量管理。在现有
技术中，利用工程师经验制定规则进行规则上能量管理或者基于优化的在速度已知或者预
测的基础上选择的模型预测控制进行能量管理，进而调节混合动力汽车的等效燃油消耗的
大小。

[0004] 但是现有技术中的方法存在一些缺点，基于规则的常常能量管理效果不够显著，针对工况单一，需要很多经验知识，基于优化的DP需要全局工况已知，因计算时间过长不能
进行实时在线运用，存在的模型预测可以做到优化和实时进行，但预测控制步长不能选择
过大，与DP的优化结果相比仍具有较大的差距。且很多优化方法考虑不全面，忽略了道路坡
度情况信息和汽车自身车载质量变化情况。

发明内容

[0005] 本发明提供了一种基于DQN变体的混联式混合动力系统能量管理方法，结合OEB与PER技术的混合经验回放，可以提高训练收敛速度以及汽车燃油经济性。

[0006] 为达到以上目的，本发明采用以下技术方案：

[0007] 一种基于DQN变体的混联式混合动力系统能量管理的方法，包括以下步骤：

[0008] 步骤一：建立被动混联式汽车的模型；

[0009] 步骤二：获取实验车辆在固定路线工况下影响能量管理的参数，然后利用DP求解得到最优解，将最优解经验储存在OEB；

[0010] 步骤三：基于影响能量管理的参数和观测量，利用结合PER的HER训练Dueling DQN神经网络模型，获得训练后的深度强化学习代理；

[0011] 步骤四：获取汽车实际行驶中影响能量管理的参数和观测量，基于实际行驶中影响能量管理的参数和观测量，以及所述训练后的深度强化学习代理，进行所述混合动力汽
车不同工况下的能量管理。

[0012] 以上所述步骤中，能量管理的目标函数：

[0013]

[0014] 其中，γ是积极的权重因子，表明对燃油消耗和电池电量消耗的一种平衡等效；SOCref表示SOC参考值，mdotfuel为每个取样时间燃油消耗量；

[0015] 所述被动混联式汽车的模型包括汽车动力学模型、行星齿轮变速器以及电机和电池；

[0016] 所述汽车动力学模型如下：

[0017]

[0018] 其中，Tout是驱动轴扭矩，R是汽车车轮半径，Fa是汽车惯性阻力，Fr是汽车空气阻力，Fg是汽车坡道阻力，Ff是汽车滚动阻力，m是汽车质量，v是汽车速度，a是汽车加速度，ρ是
空气密度，A是汽车迎风面积，CD是空气阻力系数，α是汽车道路坡度，μr为滚动阻力系数；

[0019] 所述行星齿轮变速器模型如下：

[0020]

[0021] 其中nm是电机转速；β是行星齿轮参数；nout是驱动轴转速；ne是发动机转速；Tm是电机扭矩、Te是发动机扭矩；

[0022] 所示电池模型为：

[0023]

[0024] 其中Pbatt(t)是电池功率，Voc是电池电压，Ib(t)是电池电流，rint是电池电阻，Pm(t)是电机功率，其大小为其中ηm是电机效率，SOC是电池
荷电状态，Qmax是电池最大容量；

[0025] 所述影响能量管理的参数包括混合动力汽车不同工况上的道路情况即道路坡度和因乘客或货物变化导致的车载质量变化；

[0026] 所述影响能量管理的观测量包括汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差
值、汽车位移以及可测量干扰道路坡度和车载质量变化量；

[0027] 步骤二～步骤四具体包括以下步骤：

[0028] 在工况信息提前已知情况下利用DP算法求解得到最优的能量管理经验，储存进OEB中，然后在实时工况情况下利用深度强化学习中的Dueling DQN进行训练，在每次训练
中，将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消
耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据，以及当前时刻
的奖励值作为Dueling DQN代理的奖励值输入数据，将这时候得到的经验储存在PEB中，然
后利用PER在PEB进行采样和随机从OEB中采样，将两者经验进行结合，其中PEB中经验的比
例会随着时间的进行而不断减少，从而进行HER的Dueling DQN的神经网络进行训练得到收
敛的代理，获取实验车辆在不同工况下的等效燃油消耗和影响能量管理的参数；将所述观
测值输入所述深度强化学习代理，输出为当前时刻的下一时刻所述混联式混合动力汽车控
制量即发动机转矩需求和转速，其中，所述当前时刻为当前观测量所处时刻；

[0029] 所述获取实验车辆在不同工况下影响能量管理的参数为：获取多个样本，每个样本包括不同时刻在所述实验车辆上采集到的可能影响能量管理的参数；

[0030] 所述获取实验车辆在在不同工况下的等效燃油消耗和影响所述能量管理的参数之后，以预设的采样频率采集所述实验车辆在固定路线工况下等效燃油消耗和影响所述能
量管理的参数，并对采集到数据进行平滑处理和归一化处理。

[0031] 有益效果：本发明提供了一种基于DQN变体的混联式混合动力系统能量管理方法，考虑了道路坡度和车载质量变化影响能量管理的环境参数，利用DP进行的提前求解最优经
验和利用PER从而组成HER可以更好训练Dueling架构DQN代理，获取实验车辆在不同工况下
等效燃油消耗和影响能量管理的环境参数；基于影响所述能量管理的参数和观测量，训练
深度强化学习代理模型，获得训练后的代理；获取汽车实际行驶中影响能量管理的环境参
数，基于实际行驶中影响能量管理的环境参数，以及训练后的代理，进行混合动力汽车的能
量管理，从而能有效控制能量优化，并能实时在线应用，实现对混合动力汽车能量管理更有
效的控制，减少了能源消耗。

附图说明

[0032] 图1是本发明实施例中基于DQN变体的混联式混合动力系统能量管理方法的训练和应用过程的示意图；

[0033] 图2是本发明实施例中基于DQN变体的混联式混合动力系统能量管理方法具体应用的流程图；

[0034] 图3是本发明实施例中基于DQN变体的混联式混合动力系统能量管理方法Dueling DQN的网络结构示意图；

[0035] 图4是本发明实施例中参考SOC随时间变化曲线图。

具体实施方式

[0036] 下面结合附图和具体实施例对本发明进行详细说明：

[0037] 一种基于DQN变体的混联式混合动力系统能量管理的方法，包括以下步骤：

[0038] 步骤一：建立被动混联式汽车的模型；

[0039] 步骤二：获取实验车辆在固定路线工况下影响能量管理的参数，然后利用DP求解得到最优解，将最优解经验储存在OEB；

[0040] 步骤三：基于影响能量管理的参数和观测量，利用结合PER的HER训练Dueling DQN神经网络模型，获得训练后的深度强化学习代理；

[0041] 步骤四：获取汽车实际行驶中影响能量管理的参数和观测量，基于实际行驶中影响能量管理的参数和观测量，以及所述训练后的深度强化学习代理，进行所述混合动力汽
车不同工况下的能量管理。

[0042] 以上所述步骤中，能量管理的目标函数为：

[0043]

[0044] 其中，γ是积极的权重因子，表明对燃油消耗和电池电量消耗的一种平衡等效；SOCref表示SOC参考值；如图4所示，目标函数中参考SOC通过历史行程信息主要是汽车的工
况运行时间，可得到简单的SOC参考，即随着时间变化，参考SOC呈一次函数匀速下降，这种
情况下的电池工作效果较好；

[0045] 所述被动混联式汽车的模型包括汽车动力学模型、行星齿轮变速器以及电机和电池；

[0046] 所述汽车动力学模型如下：

[0047]

[0048] 其中，Tout是驱动轴扭矩，R是汽车车轮半径，Fa是汽车惯性阻力，Fr是汽车空气阻力，Fg是汽车坡道阻力，Ff是汽车滚动阻力，m是汽车质量，v是汽车速度，a是汽车加速度，ρ是
空气密度，A是汽车迎风面积，CD是空气阻力系数，α是汽车道路坡度，μr为滚动阻力系数；

[0049] 所述行星齿轮变速器模型如下：

[0050]

[0051] 其中nm是电机转速；β是行星齿轮参数；nout是驱动轴转速；ne是发动机转速；Tm是电机扭矩、Te是发动机扭矩；

[0052] 所示电池模型为：

[0053]

[0054] 其中Pbatt(t)是电池功率，Voc是电池电压，Ib(t)是电池电流，rint是电池电阻，Pm(t)是电机功率，其大小为其中ηm是电机效率，SOC是电池
荷电状态，Qmax是电池最大容量；

[0055] 所述影响能量管理的参数包括混合动力汽车不同工况上的道路情况即道路坡度和因乘客或货物变化导致的车载质量变化；

[0056] 所述影响能量管理的观测量包括汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差
值、汽车位移以及可测量干扰道路坡度和车载质量变化量；

[0057] 如图1所示，基于DQN变体的混联式混合动力系统能量管理方法的离线训练和在线实时应用过程，包括以下步骤：

[0058] 在工况信息提前已知情况下利用DP算法求解得到最优的能量管理经验，储存进OEB中，然后在实时工况情况下利用深度强化学习中的Dueling DQN进行训练，在每次训练
中，将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消
耗量、道路坡度、车载质量变化量作为Dueling DQN代理的观测值输入数据，以及当前时刻
的奖励值作为Dueling DQN代理的奖励值输入数据，将这时候得到的经验储存在PEB中，然
后利用PER在PEB进行采样和随机从OEB中采样，将两者经验进行结合，其中PEB中经验的比
例会随着时间的进行而不断减少，从而进行HER的Dueling DQN的神经网络进行训练得到收
敛的代理，获取实验车辆在不同工况下的等效燃油消耗和影响能量管理的参数；将所述观
测值输入所述深度强化学习代理，输出为当前时刻的下一时刻所述混联式混合动力汽车控
制量即发动机转矩需求和转速，其中，所述当前时刻为当前观测量所处时刻；

[0059] 所述获取实验车辆在不同工况下影响能量管理的参数为：获取多个样本，每个样本包括不同时刻在所述实验车辆上采集到的可能影响能量管理的参数；

[0060] 所述获取实验车辆在在不同工况下的等效燃油消耗和影响所述能量管理的参数之后，以预设的采样频率采集所述实验车辆在固定路线工况下等效燃油消耗和影响所述能
量管理的参数，并对采集到数据进行平滑处理和归一化处理。

[0061] 以上所述方法可以应用在混联式混合动力汽车不同工况下的场景，比如，利用上述方法进行汽车的能量管理，汽车可以根据提前训练好的代理，对在线行驶情况进行调整，
进而降低等效燃油消耗和进行更精确的控制。如图2所示，以上所述方法的具体应用过程如
下：

[0062] 步骤201，获取实验车辆在不同工况下影响能量管理的环境参数

[0063] 其中，工况可以表示实验车辆的行驶速度随着时间的变化，比如，汽车的起始站点到终点站点的时间为1024s，速度变化情况人如何，这可以作为一个工况。在本实施例中，使
用NEDC作为实验训练工况，并采集该实验车辆在该工况下循环至少三次的数据，以保证训
练数据的可靠性。

[0064] 影响能量管理的环境参数可以是混合动力汽车不同工况的道路情况即道路坡度、由于乘客和货物变化导致的车载质量变化的至少一种参数。

[0065] 在实施中，获取实验车辆在各个工况下的至少一个可能影响能量管理的环境参数，在至少一个可能影响能量管理的环境参数中，选取出影响能量管理的环境参数。通过读
取在汽车安装的燃油消耗量和电池电量传感器上的数据，获取实验车辆在该工况下等效燃
油消耗。

[0066] 可选的，以预设的采样频率采集实验车辆在各个工况下等效燃油消耗和影响能量管理的环境参数和观测量，并对采集到的参数进行平滑处理和归一化处理。

[0067] 其中，由于采样频率越大，则采样点之间的间隔越小,获得的数据就越多,这些数据之间的相关性越大，使得最终训练出的代理模型输出的结果更加的准确。技术人员可以
预先设置采样时间间隔，根据采样时间间隔对行驶时的实验车辆进行采样。例如，技术人员
可以将采样频率设置为1HZ。

[0068] 通过对采集到的数据进行平滑处理，可以达到对采集到的不准确的数据进行抑制的目的。

[0069] 通过对采集到参数进行归一化处理，使得让不同的参数所对应的数值有一定的比较性，同时也提高了代理网络模型的准确性，而且对于奖励值的设定有大的帮助。

[0070] 具体的，在本实施例中的归一化过程，由于上述过程中已经获取多组参数项，可以通过确定每组参数项中的最大参数值和最小参数值，并根据确定出的最大参数值和最小参
数值，可以通过下述公式计算：

[0071]

[0072] 其中，X为每组参数项中的参数归一化处理后的数据，xmin为每组参数项中的最小参数值，xmax为每组参数项中的最大参数值。

[0073] 步骤202，基于影响能量管理的环境参数和观测值，利用深度强化学习训练代理模型，获得训练后的收敛代理。

[0074] 其中，深度强化学习代理是结合神经网络模型的一种，可以根据预估时刻的观测数据，来控制下一时刻的行动数据。在代理模型的输入层输入观测数据，在代理的输出层输
出Q值估计。

[0075] 神经网络进行Q函数计算得到Q值：Q(s,a|θQ),输入为状态s、动作a,输出为Q函数QQ
(s,a|θ),网络分为Online评价网络和Target评价网络，Target评价网络和Online评价网
Q
络结构相同对Online评价网络的参数θ进行随机初始化，通过这两个网络参数来初始
Q′
Target评价网络的网络参数θ ，同时开辟一个空间OEB作为经验回放的储存空间。

[0076] 初始化完成后，开始进行迭代求解，通过采用∈‑greed贪婪算法进行动作探索，在当前状态下执行动作at，得到相应的奖励和下一个状态，并且将这个过程形成的元素组(st，
at，rt，st+1)储存到OEB空间中。从OEB空间采用PER技术选取一个小批量数据，结合OEB中随机
选取的一小批数据进行HER作为Online评价网络的训练数据，更新Online评价网络。

[0077] 定义Online评价网络Loss函数：L＝[(r+γQt(s′，μt(s′|θtμ)|θtQ))‑Q(s,a|θQ)]2通Q
过最小化Loss函数来更新Online评价网络。利用更新的Online评价网络参数θ对Target评
Q′
价网络的网络参数θ 进行更新：

[0078]

[0079] 深度强化学习代理Dueling DQN神经网络框架如图3所示，标准的DQN的Q值代表状态和动作的价值，这种情况下，对于某些状态下Q值与不同动作无关情况下，这种动作价值
的评估就并不准确，缺乏鲁棒性和稳定性。

[0080] Dueling DQL将卷积层提取的抽象特征划分为全连通层中的两个流，将原本DQN仅表示的状态动作值函数分别表示成状态值函数V(s)，使状态估计值独立于行动和环境噪
声，使每个状态相对于其他未选择动作的相对价值,另一个流表示一定状态下的状态动作
优势函数A(s，a)，如果一个动作的优势值是正数，则意味着该动作所带来的价值比其他动
作的平均价值更高。最后，通过一个特殊的聚合层将两个流组合在一起，以生成状态动作值
函数的估计值，这种设计的优点是可以跨操作泛化学习，而不需要对底层的RL算法进行任
何更改，在Dueling DQL中，构造的Q值函数如下：

[0081] Q(s,a；θ,α,β)＝V(s；θ,α)+A(s,a；θ,β) (7)

[0082] α和β分别是全连接层中两个流的参数，θ是卷积层的参数。然而，当Q值给定时，V和A的值并不是唯一的，换句话说，V和A的不同组合可以得到相同的Q值，这使得算法缺乏稳定
性，因此利用优势函数的平均值来提高提出的算法的稳定性：

[0083]

[0084] 与标准DQN训练一样相比只需要更多层，但当存在许多相似价值的行为时，Dueling DQN能更好的进行策略评估，并且提高了稳定性和鲁棒性。

[0085] 在实际过程中，将代理模型的隐藏层中的神经元个数设置为40个，为了准确评价深度强化学习能量管理的效果，可以通过等效燃油消耗量比值R，对深度强化学习的控制效
果进行评价。

[0086] 等效燃油消耗量比值反映了实际控制的效果与DP基准之间的比较，当R值越接近0，则效果好。计算比值R值的公式如下：

[0087]

[0088] 其中，R表示为DP基准数据与实际数据之间的比值，SRL表示利用深度强化学习训练得到的等效燃油消耗量，SDP表示在DP基准下得到的等效燃油消耗量基准数据。

[0089] 需要说明的是，通过计算出在基准数据与实际数据之间的比值和均方根，来评价训练完成后的非线性自回归动态神经网络模型的预测性能，例如，当获得的比值接近于1，
均方根接近于0，这表明由深度强化学习训练完成后的代理模型具有很好的控制性能。

[0090] 可选的，训练工况是NEDC,检测工况是WLTP，也可以是FTP75、UDDS、JN1015。为了使深度强化学习算法控制数据更加的准确，可以使用多种不同工况分别对训练完的代理模型
进行检测，并在每种工况训练过程中计算出R值，以R值为指标来比较各个反向传播训练方
法的控制性能，进而检测深度强化学习的效果和鲁棒性。结果如表1所示：

[0091] 表1

[0092]

[0093] 由表1可得，在深度强化学习训练过程时，获得的基准数据与实际数据的比值R值接近于90％，证明了实时应用的有效性。

[0094] 步骤303，获取汽车实际行驶中影响能量管理的环境参数和观测量，基于实际行驶中影响能量管理的环境参数，以及训练后的代理模型，控制汽车能量管理。

[0095] 其中，由于在上述步骤中已经获得了影响能量管理的环境参数项，以及训练后的代理模型，便可以实时将影响能量的参数和观测量输入训练后的代理模型，来控制汽车的
行驶和能量管理。

[0096] 具体的，若要控制汽车在当前时刻的控制行动，需要获取在预估时刻影响能量管理的环境参数和观测量，如混合动力汽车不同工况上的道路坡度情况和车载质量变化情况
中的至少一种参数。汽车的速度、汽车的加速度、发动机转速、发动机转矩、电机转速、电机
转矩、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差值、汽车位移。将这些参
数输入训练后的代理模型，输出汽车在预估时刻的控制行动，即下一时刻发动机扭矩和转
速，其中，预估时刻为当前时刻的下一个进行参数采样的时刻，也就是，预估时刻是当前时
刻对应的采样点的下一个采样点对应的时刻。

[0097] 以上所述仅为本发明的优选实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修
改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种基于DQN变体的混联式混合动力系统能量管理方法转让专利

申请号 : CN202010845021.9

文献号 : CN112026744B

文献日 : 2022-01-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 周健豪 , 薛四伍 , 廖宇晖 , 薛源

申请人 : 南京航空航天大学

摘要 :

权利要求 :

说明书 :