一种基于自学习功能的混合电动汽车智能动力控制方法转让专利

申请号 : CN201710047191.0

文献号 : CN106864451B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郑云丰

申请人 : 郑云丰

摘要 :

一种基于自学习功能的混合电动汽车智能动力控制方法包括环境参数采集、策略选择、随机判断、策略执行、策略评估、更新Q值表。本发明的优点是,融合二种现有方法的优点,既能够根据变动的路况信息做出的实时的控制策略改变与自适应控制,又能够给出最优或者次优的控制决策。本方法具有从历史的驾驶和控制数据中学习最优控制策略的方法,最终能够达到平均油耗降低12%的效果。

权利要求 :

1.一种基于自学习功能的混合电动汽车智能动力控制方法,其特征是:所述方法包括环境参数采集、策略选择、随机判断、策略执行、策略评估、更新Q值表;

环境参数采集,车辆启动后实时采集车辆当下的环境数据,环境数据包括当前速度、车载动力电池剩余电量百分比、路面情况、功率瞬时需求;

策略选择,根据环境参数与Q值表选择车辆下一步动力策略,Q值表中记录车辆历史上驶中的历史环境参数、历史动力策略、历史动力策略评分,三者呈一一对应关系,在选择下一步动力策略时,环境参数通过与历史环境参数的对较,选择出历史动力策略评分最高的历史动力策略为当下动力策略;

随机判断,通过系统或程序随机给出一个数值temp,如果temp小于等Ƹ,则给出肯定策略,即肯定策略选择步骤中选择出的当下动力策略,如果temp大于Ƹ,则给出否定策略,即否定策略选择步骤中选择出的当下动力策略;

策略执行,随机判断中给出肯定策略时,执行策略选择步骤中选择出的当下动力策略,随机判断中给出否定策略时,随机执行随机策略;

策略评估,对车辆执行策略执行步骤中当下动力策略或随机策略进评估并进行策略打分;

更新Q值表,将策略评估中策略评分与其对应的策行执行、环境参数存入Q值表,成为历史环境参数、历史动力策略、历史动力策略评分。

2.根据权利要求书1所述的一种基于自学习功能的混合电动汽车智能动力控制方法,其特征是:所述随机判断中,temp为产生于(0,1)之间的随机数,Ƹ数为选择于(0,1)之间变动数,Ƹ数与车辆行使时间负相关,即车辆行使时间越长Ƹ数越小。

3.根据权利要求书1所述的一种基于自学习功能的混合电动汽车智能动力控制方法,其特征是:所述策略评估步聚中的策略打分的依据为瞬间回馈值;

所述瞬间回馈值,为M倒数,当电池剩余电量百分比大于等于20%、小于等于80%时,M值为PICE, PICE不等于零;当电池剩余电量百分比小于20%或大于80%时, M值为PICE+P, PICE不等于零;PICE为执行策略执行步骤时引擎输出功率;

P为车辆最大引擎输出功率。

4.根据权利要求书3所述的一种基于自学习功能的混合电动汽车智能动力控制方法,其特征是:所述瞬间回馈值还包括以下二种情况,当电池剩余电量百分比大于等于20%、小于等于80%,且PICE等于零时,M值为二分之一的MINPICE; 当电池剩余电量百分比小于20%或大于80%, 且PICE等于零时, M值为二倍的P;MINPICE为车辆最小引擎输出功率。

说明书 :

一种基于自学习功能的混合电动汽车智能动力控制方法

技术领域

[0001] 本发明涉及一种混合电动汽车智能动力控制方法,特别涉及一种基于自学习功能的混合电动汽车智能动力控制方法。

背景技术

[0002] 可插电(增程)混合电动汽车被认为在交通节能减排方面具有很好的前景,而对于该车型,设计一个有效的动力控制系统是降低车辆单位能耗的关键所在。现有的传统方法多数是基于一下两中方法:第一中方法的控制策略是基于事先设计好的固定的简单的控制规则,比如,在车载动力电池没有达到最低容量是,就只允许使用电池提供动力,当电池容量达到最低阈值时候,才开启引擎,通过消耗油料来提供动力。这种类型的控制策略优点是简单,便于实时的控制应用,缺点是控制策略不是最优,而且不能根据变化的实时路况情况作出相应的策略调整和适应。第二种方法大多基于严格的数学模型,然后利用一个最优方法求解出一个基于全路径的路况信息的最优控制解来执行电池和引擎的能量输出控制。该类方法的优点是控制策略是理论最优值。但是缺点是很难实际应用,因为需要提前知道或者准确预测出全路径的实时路况信息用于计算最优控制策略。这往往在是实际应用中很难实现。

发明内容

[0003] 基于以上背景技术二种现有的混合电动车动力控制方法的缺点。本发明提出一种基于自学习功能的混合电动汽车智能动力控制方法,融合二种现有方法的优点,既能够根据变动的路况信息作出的实时的控制策略改变与自适应控制,又能够给出最优或者次优的控制决策。本方法具有从历史的驾驶和控制数据中学习最优控制策略的方法,最终能够达到平均油耗降低12% 的效果。
[0004] 实现本发明技术方案是,一种基于自学习功能的混合电动汽车智能动力控制方法包括环境参数采集、策略选择、随机判断、策略执行、策略评估、更新Q值表;
[0005] 环境参数采集,车辆启动后实时采集车辆当下的环境数据,环境数据包括当前速度、车载动力电池剩余电量百分比、路面情况、功率瞬时需求;
[0006] 策略选择,根据环境参数与Q值表选择车辆下一步当下动力策略,Q值表中记录车辆历史上驶中的历史环境参数、历史动力策略、历史动力策略评分,三者呈一一对应关系,在选择下一步动力策略时,环境参数通过与历史环境参数的对较,选择出历史动力策略评分最高的历史动力策略为当下动力策略;
[0007] 随机判断,通过系统或程序随机给出一个数值temp,如果temp小于等Ƹ,则给出肯定策略,即肯定策略选择步骤中选择出的当下动力策略,如果temp大于Ƹ,则给出否定策略,即否定策略选择步骤中选择出的当下动力策略;
[0008] 策略执行,随机判断中给出肯定策略时,执行策略选择步骤中选择出的当下动力策略,随机判断中给出否定策略时,随机执行随机策略;
[0009] 策略评估,对车辆执行策略执行步骤中当下动力策略或随机策略进评估并进行策略打分;
[0010] 更新Q值表,将策略评估中策略评分与其对应的策行执行、环境参数存入Q值表,成为历史环境参数、历史动力策略、历史动力策略评分。
[0011] 策略执行评估,对车辆执行车辆动力策略后车辆的参数进行采集评估,采集车辆数据为车辆初始数据,评估数据为车辆自学习数据,车辆自学习数据包括初始数据、环境参数、车辆动力策略、车辆动力策略执行效果,车辆动力策略执行效果以车辆执行动力与车辆所需动力比值为参考。
[0012] 进一步讲,所述随机判断中,temp为产生于(0,1)之间的随机数,Ƹ数为选择于(0,1)之间变动数,Ƹ数与车辆行使时间负相关,即车辆行使时间越长Ƹ数越小。
[0013] 进一步讲,所述策略评估步聚中的策略打分的依据为瞬间回馈值;
[0014] 所述瞬间回馈值,为M倒数,当车载动力电池剩余电量百分比大于等于20%、小于等于80%时,M值为PICE, PICE不等于零;当车载动力电池剩余电量百分比小于20%或大于80%时, M值为PICE+P, PICE不等于零;
[0015] PICE为执行策略执行步骤时引擎输出功率;
[0016] P为车辆最大引擎输出功率。
[0017] 进一步讲,所述瞬间回馈值还包括以下二种情况,当电池剩余电量百分比(SOC)大于等于20%、小于等于80%,且PICE等于零时,M值为二分之一的MINPICE; 当电池剩余电量百分比(SOC)小于20%或大于80%, 且PICE等于零时, M值为二倍的P;
[0018] MINPICE为车辆最小引擎输出功率。
[0019] 本发明的优点,1)自学习功能:使用增强学习的模型实现具有自学习功能的混合电动汽车的功率控制方法。
[0020] 2)实时性: 所有控制决策都基于当前环境信息状态,实时决策控制。不依赖于任何预测信息或者预设信息。
[0021] 3)自适应性:该系统可以根据新的驾驶数据和不同的驾驶行为,不断自我更新和学习最优的控制策略。

附图说明

[0022] 图1为方法工作流程图。
[0023] 图2为方法功能架构图。
[0024] 图3为方法中瞬时回馈值定义。
[0025] 图4为方法中探索率变化控制曲线。
[0026] 图5为本发明中方法与现有技术的对比曲线。具体实施例
[0027] 如图1、2中,一种基于自学习功能的混合电动汽车智能动力控制方法包括环境参数采集、策略选择、随机判断、策略执行、策略评估、更新Q值表;
[0028] 环境参数采集,车辆启动后实时采集车辆当下的环境数据,环境数据包括当前速度(Vehicle speed)、车载动力电池剩余电量百分比(Battery soc)、路面情况(Road grade)、功率瞬时需求(Power demand),优选的,环境数据还包括充电站信息(Charging information);
[0029] 策略选择,根据环境参数与Q值表选择车辆下一步当下动力策略,Q值表中记录车辆历史上驶中的历史环境参数、历史动力策略、历史动力策略评分,三者呈一一对应关系,在选择下一步动力策略时,环境参数通过与历史环境参数的对较(将环境参数与历史环境参数进行对比,选出与环境参数相接近的历史环境参数,及与其对应的历史动策略、历史动策略评分),选择出历史动力策略评分最高的历史动力策略为当下动力策略;
[0030] 随机判断,通过系统或程序随机给出一个数值temp,如果temp小于等Ƹ(探索率),则给出肯定策略,即肯定策略选择步骤中选择出的当下动力策略,如果temp大于Ƹ,则给出否定策略,即否定策略选择步骤中选择出的当下动力策略,优选的,所述随机判断中,temp为产生于(0,1)之间的随机数,Ƹ数为选择于(0,1)之间变动数,Ƹ数与车辆行使时间负相关,即车辆行使时间越长Ƹ数越小,如图4中,Ƹ数在(0.6,0.8)之间;
[0031] 策略执行,随机判断中给出肯定策略时,执行策略选择步骤中选择出的当下动力策略,随机判断中给出否定策略时,随机执行随机策略;
[0032] 策略评估,对车辆执行策略执行步骤中当下动力策略或随机策略进评估并进行策略打分;
[0033] 更新Q值表,将策略评估中策略评分与其对应的策行执行、环境参数存入Q值表,成为历史环境参数、历史动力策略、历史动力策略评分。
[0034] 策略执行评估,对车辆执行车辆动力策略后车辆的参数进行采集评估,采集车辆数据为车辆初始数据,评估数据为车辆自学习数据,车辆自学习数据包括初始数据、环境参数、车辆动力策略、车辆动力策略执行效果,车辆动力策略执行效果以车辆执行动力与车辆所需动力比值为参考,优选的,策略评估步聚中的策略打分的依据为瞬间回馈值(如图3中);
[0035] 所述瞬间回馈(Reward)值,为M倒数,当电池剩余电量百分比(SOC)大于等于20%、小于等于80%时,M值为PICE, PICE不等于零;当电池剩余电量百分比(SOC)小于20%或大于80%时, M值为PICE+P, PICE不等于零;
[0036] PICE为执行策略执行步骤时引擎输出功率;
[0037] P为车辆最大引擎输出功率。
[0038] 进一步优选的,所述瞬间回馈值还包括以下二种情况,当电池剩余电量百分比(SOC)大于等于20%、小于等于80%,且PICE等于零时,M值为二分之一的MINPICE;电池剩余电量百分比(SOC)小于20%或大于80%, 且PICE等于零时, M值为二倍的P;
[0039] MINPICE为车辆最小引擎输出功率。
[0040] 如图5中,相同电量情况下,epsilon=0.7(0.3559)曲线表示是Ƹ数为0.7的耗油量为0.3559美式加仑,epsilon=0.5(0.3792) 曲线表示是Ƹ数为0.5的耗油量为0.3792美式加仑,binary control(0.4041) 曲线表示预先设定工作策略的耗油量为0.4041美式加仑,epsilon=0.9(0.4321) 曲线表示是Ƹ数为0.9的耗油量为0.4321美式加仑,adaptive(0.3570) 曲线表示本发明中采用变动Ƹ数的耗油量为0.3570美式加仑,global optimal(0.3460)曲线表示经过理论计算出的最佳耗油量为0.3460美式加仑,本发明adaptive(0.3570) 曲线最接近global optimal(0.3460)曲线,相对于binary control(0.4041) 曲线能实现至少平均12% 的节油效果,也就是增程12%。