一种车道保持控制系统及方法转让专利

申请号 : CN201510495790.X

文献号 : CN105059288B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 方啸高红博谷明琴王继贞陈效华

申请人 : 奇瑞汽车股份有限公司

摘要 :

本发明公开了一种车道保持控制系统及方法,属于汽车主动安全技术领域。所述车道保持控制系统包括:检测模块,用于实时检测车辆相对车道的实际位置,并根据所述实际位置产生与所述实际位置对应的增强信号,所述增强信号用于表示所述实际位置与设定的理想位置之间的偏差幅度;增强学习模块,用于采用增强学习的方式,根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度;调整模块,用于按照所述调整幅度,调整所述车辆的行驶方向,以改变所述实际位置。本发明不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。

权利要求 :

1.一种车道保持控制系统,其特征在于,所述车道保持控制系统包括:检测模块,用于实时检测车辆相对车道的实际位置,并根据所述实际位置产生与所述实际位置对应的增强信号,所述增强信号用于表示所述实际位置与设定的理想位置之间的偏差幅度;

增强学习模块,用于采用增强学习的方式,根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度;

调整模块,用于按照所述调整幅度,调整所述车辆的行驶方向,以改变所述实际位置;

所述增强学习模块,包括:

动作神经网络,用于根据所述实际位置,产生所述车辆的行驶方向的调整幅度;

评价神经网络,用于根据所述实际位置、所述增强信号、以及所述调整幅度,产生代价函数,所述代价函数为所述增强信号的近似表示;根据所述代价函数,调节所述评价神经网络的神经网络权值,以最小化所述代价函数与所述增强信号的误差;

所述动作神经网络还用于,根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,得到最优的调整幅度,以最小化所述代价函数与期望值的误差,所述期望值为所述实际位置达到所述理想位置时产生的所述代价函数。

2.根据权利要求1所述的车道保持控制系统,其特征在于,所述动作神经网络和所述评价神经网络均采用非线性多层感知器。

3.根据权利要求1所述的车道保持控制系统,其特征在于,所述动作神经网络用于,采用梯度下降法则对所述动作神经网络的神经网络权值进行设定次数的调节;

所述评价网络用于,

采用梯度下降法则对所述评价神经网络的神经网络权值进行设定次数的调节。

4.根据权利要求1-3任一项所述的车道保持控制系统,其特征在于,所述调整幅度采用符号函数。

5.一种车道保持控制方法,其特征在于,所述车道保持控制方法包括:实时检测车辆相对车道的实际位置,并根据所述实际位置产生与所述实际位置对应的增强信号,所述增强信号用于表示所述实际位置与设定的理想位置之间的偏差幅度;

采用增强学习的方式,根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度;

按照所述调整幅度,调整所述车辆的行驶方向,以改变所述实际位置;

所述根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度,包括:采用动作神经网络根据所述实际位置,产生所述车辆的行驶方向的调整幅度;

采用评价神经网络根据所述实际位置、所述增强信号、以及所述调整幅度,产生代价函数,所述代价函数为所述增强信号的近似表示;

根据所述代价函数,调节所述评价神经网络的神经网络权值,以最小化所述代价函数与所述增强信号的误差;

根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,得到最优的调整幅度,以最小化所述代价函数与期望值的误差,所述期望值为所述实际位置达到所述理想位置时产生的所述代价函数。

6.根据权利要求5所述的车道保持控制方法,其特征在于,所述动作神经网络和所述评价神经网络均采用非线性多层感知器。

7.根据权利要求5所述的车道保持控制方法,其特征在于,所述根据所述代价函数,调节所述评价神经网络的神经网络权值,包括:采用梯度下降法则对所述动作神经网络的神经网络权值进行设定次数的调节;

所述根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,包括:采用梯度下降法则对所述评价神经网络的神经网络权值进行设定次数的调节。

8.根据权利要求5-7任一项所述的车道保持控制方法,其特征在于,所述调整幅度采用符号函数。

说明书 :

一种车道保持控制系统及方法

技术领域

[0001] 本发明涉及汽车主动安全技术领域,特别涉及一种车道保持控制系统及方法。

背景技术

[0002] 交通事故给人们的人身安全带来巨大伤害。在引起交通事故的种种原因中,车道偏离造成的交通事故占所有交通事故的20%,车道偏移造成的交通事故死亡率占所有交通事故死亡率的37%。
[0003] 车道保持辅助系统可以有效防止车道偏移,避免交通事故的发生。目前车道保持辅助系统主要是采用摄像头、雷达等装置检测车辆相对车道的实际位置,并采用监督学习的方式,按照实际位置与设定的保持位置的偏差调整车辆的行驶方向,使实际位置与设定的保持位置的偏差最小化。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 当实际位置相对于设定的保持位置左偏时,若车辆行驶的车道由直线车道变为左转弯道,则按照实际位置与设定的保持位置的偏差向右行驶,会造成实际位置又相对于设定的保持位置右偏。此时再按照实际位置与设定的保持位置的偏差向左行驶,若车辆行驶的车道又变为直线车道,则又会造成实际位置相对于设定的保持位置左偏。如此反复,车辆不断左转和右转,呈S型线行驶,车道保持的稳定性、可靠性和舒适性较差。

发明内容

[0006] 为了解决现有技术车道保持的稳定性、可靠性和舒适性较差的问题,本发明实施例提供了一种车道保持控制系统及方法。所述技术方案如下:
[0007] 一方面,本发明实施例提供了一种车道保持控制系统,所述车道保持控制系统包括:
[0008] 检测模块,用于实时检测车辆相对车道的实际位置,并根据所述实际位置产生与所述实际位置对应的增强信号,所述增强信号用于表示所述实际位置与设定的理想位置之间的偏差幅度;
[0009] 增强学习模块,用于采用增强学习的方式,根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度;
[0010] 调整模块,用于按照所述调整幅度,调整所述车辆的行驶方向,以改变所述实际位置;
[0011] 所述增强学习模块,包括:
[0012] 动作神经网络,用于根据所述实际位置,产生所述车辆的行驶方向的调整幅度;
[0013] 评价神经网络,用于根据所述实际位置、所述增强信号、以及所述调整幅度,产生代价函数,所述代价函数为所述增强信号的近似表示;根据所述代价函数,调节所述评价神经网络的神经网络权值,以最小化所述代价函数与所述增强信号的误差;
[0014] 所述动作神经网络还用于,根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,得到最优的调整幅度,以最小化所述代价函数与期望值的误差,所述期望值为所述实际位置达到所述理想位置时产生的所述代价函数。
[0015] 可选地,所述动作神经网络和所述评价神经网络均采用非线性多层感知器。
[0016] 可选地,所述动作神经网络用于,
[0017] 采用梯度下降法则对所述动作神经网络的神经网络权值进行设定次数的调节;
[0018] 所述评价网络用于,
[0019] 采用梯度下降法则对所述评价神经网络的神经网络权值进行设定次数的调节。
[0020] 在本发明一种可能的实现方式中,所述调整幅度采用符号函数。
[0021] 另一方面,本发明实施例提供了一种车道保持控制方法,所述车道保持控制方法包括:
[0022] 实时检测车辆相对车道的实际位置,并根据所述实际位置产生与所述实际位置对应的增强信号,所述增强信号用于表示所述实际位置与设定的理想位置之间的偏差幅度;
[0023] 采用增强学习的方式,根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度;
[0024] 按照所述调整幅度,调整所述车辆的行驶方向,以改变所述实际位置;
[0025] 所述根据所述实际位置和所述增强信号,确定所述车辆的行驶方向的调整幅度,包括:
[0026] 采用动作神经网络根据所述实际位置,产生所述车辆的行驶方向的调整幅度;
[0027] 采用评价神经网络根据所述实际位置、所述增强信号、以及所述调整幅度,产生代价函数,所述代价函数为所述增强信号的近似表示;
[0028] 根据所述代价函数,调节所述评价神经网络的神经网络权值,以最小化所述代价函数与所述增强函数的误差;
[0029] 根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,得到最优的调整幅度,以最小化所述代价函数与期望值的误差,所述期望值为所述实际位置达到所述理想位置时产生的所述代价函数。
[0030] 可选地,所述动作神经网络和所述评价神经网络均采用非线性多层感知器。
[0031] 可选地,所述根据所述代价函数,调节所述评价神经网络的神经网络权值,包括:
[0032] 采用梯度下降法则对所述动作神经网络的神经网络权值进行设定次数的调节;
[0033] 所述根据神经网络权值调节后的所述评价神经网络产生的所述代价函数,调节所述动作神经网络的神经网络权值,包括:
[0034] 采用梯度下降法则对所述评价神经网络的神经网络权值进行设定次数的调节。
[0035] 在本发明一种可能的实现方式中,所述调整幅度采用符号函数。
[0036] 本发明实施例提供的技术方案带来的有益效果是:
[0037] 通过采用增强学习的方式,根据车辆相对车道的实际位置和增强信号,确定车辆的行驶方向的调整幅度,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度,可以在行驶方向的调整过程中,采用自适应动态规划方法,不断通过增强信号反映的偏差幅度,自主学习如何根据实际位置确定合适的调整幅度,以有效调整车辆的行驶方向,使实际位置与设定的理想位置的偏差最小化,不会只根据实际位置与设定的保持位置的偏差幅度直接确定行驶方向的调整幅度,因此不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。

附图说明

[0038] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039] 图1是本发明实施例一提供的一种车道保持控制系统的结构示意图;
[0040] 图2是本发明实施例二提供的一种车道保持控制系统的结构示意图;
[0041] 图3是本发明实施例二提供的神经网络的结构示意图;
[0042] 图4是本发明实施例二提供的动作神经网络的函数曲线图;
[0043] 图5是本发明实施例三提供的一种车道保持控制方法的流程图;
[0044] 图6是本发明实施例四提供的一种车道保持控制方法的流程图。

具体实施方式

[0045] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0046] 实施例一
[0047] 本发明实施例提供了一种车道保持控制系统,参见图1,该车道保持控制系统包括:
[0048] 检测模块101,用于实时检测车辆相对车道的实际位置,并根据实际位置产生与实际位置对应的增强信号,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度;
[0049] 增强学习模块102,用于采用增强学习的方式,根据实际位置和增强信号,确定车辆的行驶方向的调整幅度;
[0050] 调整模块103,用于按照调整幅度,调整车辆的行驶方向,以改变实际位置。
[0051] 容易知道,增强学习是通过一个能感知环境的自治代理(agent),自主学习选择能达到其目标的最优动作。具体自主学习的过程是代理在其环境中做出动作,环境会给予反馈,代理根据环境的反馈(成功给予奖励、失败给予惩罚),对动作进行认识和学习,从而在后续的动作中优先考虑正确的行为和避免错误的行为发生,如此不断学习,最终可以确定出最优动作。结合本实施例,检测模块101检测环境信息(即车辆相对车道的实际位置),增强学习模块102先根据环境信息任意确定一个动作策略(即车辆的行驶方向的调整幅度),调整模块103按照确定的动作策略进行动作(即调整车辆的行驶方向)。然后检测模块101再次检测环境信息并根据环境的变化情况给予反馈(即增强信号),增强学习模块102根据增强信号更新动作策略,调整模块103按照更新后的动作策略进行动作。如此不断调整,直到确定出最优动作策略(即实际位置保持为设定的理想位置)。
[0052] 进一步地,调整模块103进行动作后,车辆相对车道的实际位置会发生变化,实际位置与设定的理想位置之间的偏差幅度可能减小,也可能增大。如果偏差幅度减小,通过增强信号给予的惩罚随之减小,增强学习模块102学习到之前的动作是正确的,以后会优先采用这个动作进行调节;如果偏差幅度增大,通过增强信号给予的惩罚随之增大,增强学习模块102学习到之前的动作是错误的,以后会避免采用这个动作进行调节。具体地,当实际位置相对于设定的保持位置左偏时,第一次由于车辆行驶的车道由直线车道变为左转弯道而造成实际位置相对于设定的保持位置右偏时,增强学习模块102会通过增强信号得到相应的惩罚,第二次的时候便会尽量避免出现相同的情况,减少了车辆的颠簸,提高了车道保持的稳定性、可靠性和舒适性。
[0053] 本发明实施例通过采用增强学习的方式,根据车辆相对车道的实际位置和增强信号,确定车辆的行驶方向的调整幅度,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度,可以在行驶方向的调整过程中,采用自适应动态规划方法,不断通过增强信号反映的偏差幅度,自主学习如何根据实际位置确定合适的调整幅度,以有效调整车辆的行驶方向,使实际位置与设定的理想位置的偏差最小化,不会只根据实际位置与设定的保持位置的偏差幅度直接确定行驶方向的调整幅度,因此不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。
[0054] 实施例二
[0055] 本发明实施例提供了一种车道保持控制系统,本实施例是对实施例一提供的车道保持控制系统的具体论述,参见图2,该车道保持控制系统包括:
[0056] 检测模块201,用于实时检测车辆相对车道的实际位置,并根据实际位置产生与实际位置对应的增强信号,增强信号用于表示实际位置与设定的理想位置(如车道中间)之间的偏差幅度;
[0057] 增强学习模块202,用于采用增强学习的方式,根据实际位置和增强信号,确定车辆的行驶方向的调整幅度;
[0058] 调整模块203,用于按照调整幅度,调整车辆的行驶方向,以改变实际位置。
[0059] 在本实施例中,增强信号可以根据实际情况进行设定。一般实际位置与设定的理想位置之间的偏差幅度越小,增强信号越大。例如,偏差幅度为0时,增强信号为0;根据偏差幅度的增加,增强信号逐渐增加到-1(此时偏离车道)。
[0060] 在实际应用中,检测模块201可以包括:
[0061] 位置获取单元201a,用于实时检测车辆相对车道的实际位置;
[0062] 信号产生单元201b,用于根据设定的函数关系,由实际位置与理想位置之间的位置偏差,产生增强信号。
[0063] 具体地,设定的函数关系可以为线性函数,实际位置与理想位置之间的位置偏差越大,增强信号越小。
[0064] 在实际应用中,获取单元201a可以为摄像头、雷达(如毫米波雷达、激光雷达)等传感器,信号产生单元201b可以为单片机。例如,雷达可以检测车辆与两边车道线之间的距离,容易知道,根据该距离即可确定车辆相对车道的实际位置。
[0065] 在本实施例的一种实现方式中,该增强学习模块202可以包括:
[0066] 动作神经网络202a,用于根据实际位置,产生车辆的行驶方向的调整幅度;
[0067] 评价神经网络202b,用于根据实际位置、增强信号、以及调整幅度,产生代价函数,代价函数为增强信号的近似表示;根据代价函数,调节评价神经网络202b的神经网络权值,以最小化代价函数与增强信号的误差;
[0068] 动作神经网络202a还用于,根据神经网络权值调节后的评价神经网络202b产生的代价函数,调节动作神经网络202a的神经网络权值,得到最优的调整幅度,以最小化代价函数与期望值的误差,期望值为实际位置达到理想位置时产生的代价函数。
[0069] 需要说明的是,动作神经网络202a的神经网络权值、评价神经网络202b的神经网络权值初始值可以随机配置,增强学习模块202学习的过程主要在配置初始值对初始值的不断调整,直到最后得到最优的权值,此时误差达到最小。
[0070] 可选地,动作神经网络202a可以用于,
[0071] 采用梯度下降法则对动作神经网络202a的神经网络权值进行设定次数的调节。
[0072] 可选地,评价神经网络202b可以用于,
[0073] 采用梯度下降法则对评价神经网络202b的神经网络权值进行设定次数的调节。
[0074] 可以理解地,采用梯度下降法则进行调节,一方面可以实现有序调节,提高调节的准确性,另一方面可以逐步逼近,提高调节的效率。
[0075] 在具体实现中,先按照设定次数调节评价神经网络202b的神经网络权值,以缩小代价函数与增强信号的误差;然后保持更新后的评价神经网络202b的神经网络权值,按照设定次数调节动作神经网络202a的神经网络权值,以通过改变调整幅度,最小化代价函数与期望值的误差。接着又开始调节评价神经网络202b的神经网络权值……如此反向循环,直到最后动作神经网络202a的神经网络权值、评价神经网络202b的神经网络权值均趋于稳定,此时得到的权值是最优的,并且代价函数达到最小,此后按照该权值进行调节,很快便能达到理想的设定的理想位置。
[0076] 可以理解地,先调节评价神经网络202b的神经网络权值,可以使代价函数更逼近增强信号,提高评价的准确性;再调节动作神经网络202a的神经网络权值,即可调节调整幅度(动作神经网络202a的输出值和评价神经网络202b的神经网络权值的输入值),进而调节代价函数,缩小其与期望值的偏差。
[0077] 具体地,评价神经网络202b可以按照如下公式(1)计算误差,误差为0时调节完成:
[0078] ec(t)=α*J(t)-[J(t-1)-r(t)];   (1)
[0079] 其中,ec(t)表示代价函数与增强信号的误差,α为折算因子,0<α<1,J(t)表示代价函数,r(t)表示增强信号,t表示时刻。
[0080] 动作神经网络202a可以按照如下公式(2)计算误差,误差为0时调节完成:
[0081] e(t)=J(t)-U(t);   (2)
[0082] 其中,ea(t)表示代价函数与期望值的误差,J(t)表示代价函数,U(t)表示期望值,t表示时刻。
[0083] 在实际应用中,可以按如下公式(3)将e(t)转换为E(t)进行调节:
[0084] E(t)=(1/2)*[e(t)]2;   (3)
[0085] 其中,e(t)为ec(t)或ea(t)。
[0086] 需要说明的是,采用梯度下降法则进行调节是对权值求偏导,将e(t)转换为E(t),可以便于计算。
[0087] 具体地,评价神经网络202b可以按照如下公式(4)-(6)进行调节:
[0088] wc(t+1)=wc(t)+Δwc(t);   (4)
[0089]
[0090]
[0091] 其中,wc表示评价神经网络202b的输入值,△wc表示评价神经网络202b的中间结果,lc表示评价神经网络202b的学习速率,Ec表示评价神经网络202b的误差,J表示代价函数,t表示时刻。
[0092] 动作神经网络202a可以按照如下公式(7)-(9)进行调节:
[0093] wa(t+1)=wa(t)+Δwa(t);   (7)
[0094]
[0095]
[0096] 其中,wa表示动作神经网络202a的输入值,△wa表示动作神经网络202a的中间结果,la表示动作神经网络202a的学习速率,Ea表示动作神经网络202a的误差,J表示代价函数,t表示时刻。
[0097] 优选地,动作神经网络202a和评价神经网络202b可以均采用非线性多层感知器。多层感知器包括一层或多层隐藏层,每个隐藏层包括若干节点,每层的各个节点分别与相邻层的各个节点存在映射关系。以图3所示的一层隐藏层为例,x1-xn为n个输入值,y1-ym为隐藏层的m个节点,z为输出值,xi以权值wij映射到节点yj,节点yj将所有输入值计算出的结果以权值vj映射到输出值中。其中,n≥1且n为整数,m≥1且m为整数,1≤i≤n且i为整数,
1≤j≤m且j为整数。结合动作神经网络202a,输入值为实际位置,输出值为调整幅度;结合评价神经网络202b,输入值为实际位置、增强信号、调整幅度,输出值为代价函数。
[0098] 容易知道,神经网络的层次越多,关系越复杂,处理事件的适用性和准确性越高,动作神经网络202a和评价神经网络202b均采用非线性多层感知器,可以提高动作神经网络202a和评价神经网络202b自主学习的能力,自主学习确定的跟车策略更接近最优,跟车效果更好。
[0099] 在实际应用中,检测模块201还可以包括:
[0100] 归一化单元201c,用于将实际位置和增强信号归一化。
[0101] 可选地,调整幅度可以采用符号sgn函数。
[0102] 例如,调整幅度与实际位置的具体关系可以如图4所示,从图4可以看出,调整幅度的取值范围为[-1,1]。其中,调整幅度大于0表示需要左转,0表示无需左转或右转,调整幅度小于0表示需要右转。
[0103] 也就是说,动作神经网络202a和评价神经网络202b的输入值的取值范围为[-1,1]。在具体实现中,可以先将各个输入值进行归一化,然后再输入动作神经网络202a或评价神经网络202b。
[0104] 进一步地,动作神经网络202a和评价神经网络202b可以采用sigmoid函数。
[0105] 可以理解地,所有数值进行归一化,更便于计算,也便于使系统适用于所有车辆。
[0106] 在实际应用中,可以根据车轮转动的角度与方向盘转动的角度之间的对应关系进行具体调节,以使本发明可以在各种车辆上实现。
[0107] 本发明实施例通过采用增强学习的方式,根据车辆相对车道的实际位置和增强信号,确定车辆的行驶方向的调整幅度,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度,可以在行驶方向的调整过程中,采用自适应动态规划方法,不断通过增强信号反映的偏差幅度,自主学习如何根据实际位置确定合适的调整幅度,以有效调整车辆的行驶方向,使实际位置与设定的理想位置的偏差最小化,不会只根据实际位置与设定的保持位置的偏差幅度直接确定行驶方向的调整幅度,因此不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。
[0108] 实施例三
[0109] 参见图5,本发明实施例提供了一种车道保持控制方法,适用于实施例一或实施例二提供的车道保持控制系统,该方法包括:
[0110] 步骤301:实时检测车辆相对车道的实际位置,并根据实际位置产生与实际位置对应的增强信号。
[0111] 在本实施例中,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度。
[0112] 步骤302:采用增强学习的方式,根据实际位置和增强信号,确定车辆的行驶方向的调整幅度。
[0113] 步骤303:按照调整幅度,调整车辆的行驶方向,以改变实际位置。
[0114] 本发明实施例通过采用增强学习的方式,根据车辆相对车道的实际位置和增强信号,确定车辆的行驶方向的调整幅度,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度,可以在行驶方向的调整过程中,采用自适应动态规划方法,不断通过增强信号反映的偏差幅度,自主学习如何根据实际位置确定合适的调整幅度,以有效调整车辆的行驶方向,使实际位置与设定的理想位置的偏差最小化,不会只根据实际位置与设定的保持位置的偏差幅度直接确定行驶方向的调整幅度,因此不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。
[0115] 实施例四
[0116] 参见图6,本发明实施例提供了一种车道保持控制方法,适用于实施例一或实施例二提供的车道保持控制系统,本实施例是对实施例三提供的车道保持控制方法的具体论述,该方法包括:
[0117] 步骤401:实时检测车辆相对车道的实际位置,并根据实际位置产生与实际位置对应的增强信号。
[0118] 在本实施例中,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度。
[0119] 步骤402:采用增强学习的方式,根据实际位置和增强信号,确定车辆的行驶方向的调整幅度。
[0120] 在实施例的一种实现方式中,该步骤402可以包括:
[0121] 步骤402a:采用动作神经网络根据实际位置,产生车辆的行驶方向的调整幅度。
[0122] 步骤402b:采用评价神经网络根据实际位置、增强信号、以及调整幅度,产生代价函数。
[0123] 在本实施例中,代价函数为增强信号的近似表示。
[0124] 步骤402c:根据代价函数,调节评价神经网络的神经网络权值,以最小化代价函数与增强信号的误差。
[0125] 可选地,该步骤402c可以包括:
[0126] 采用梯度下降法则对动作神经网络的神经网络权值进行设定次数的调节。
[0127] 步骤402d:根据神经网络权值调节后的评价神经网络产生的代价函数,调节动作神经网络的神经网络权值,得到最优的调整幅度,以最小化代价函数与期望值的误差。
[0128] 在本实施例中,期望值为实际位置达到理想位置时产生的代价函数。
[0129] 可选地,该步骤402d可以包括:
[0130] 采用梯度下降法则对评价神经网络的神经网络权值进行设定次数的调节。
[0131] 优选地,动作神经网络和评价神经网络可以均采用非线性多层感知器。
[0132] 步骤403:按照调整幅度,调整车辆的行驶方向,以改变实际位置。
[0133] 可选地,调整幅度可以采用符号函数。
[0134] 本发明实施例通过采用增强学习的方式,根据车辆相对车道的实际位置和增强信号,确定车辆的行驶方向的调整幅度,增强信号用于表示实际位置与设定的理想位置之间的偏差幅度,可以在行驶方向的调整过程中,采用自适应动态规划方法,不断通过增强信号反映的偏差幅度,自主学习如何根据实际位置确定合适的调整幅度,以有效调整车辆的行驶方向,使实际位置与设定的理想位置的偏差最小化,不会只根据实际位置与设定的保持位置的偏差幅度直接确定行驶方向的调整幅度,因此不存在不断在左转和右转之间切换而造成车辆呈S型线行驶的情况,跟车的稳定性、可靠性和舒适性均得到提高。
[0135] 需要说明的是:上述实施例提供的车道保持控制系统在控制车道保持时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的车道保持控制系统与车道保持控制方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0136] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0137] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0138] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。