模型训练的方法、无人驾驶设备的控制方法以及装置转让专利
申请号 : CN202110445170.0
文献号 : CN112947495B
文献日 : 2021-09-24
发明人 : 熊方舟 , 夏华夏 , 任冬淳 , 李潇 , 丁曙光 , 樊明宇
申请人 : 北京三快在线科技有限公司
摘要 :
权利要求 :
1.一种模型训练的方法,其特征在于,用于对部署在无人驾驶设备的决策模型进行训练,包括:
获取采集设备在各历史时刻下对应的状态数据,作为历史状态数据;
针对每个历史时刻,将该历史时刻对应的历史状态数据输入到待训练的决策模型中,确定所述采集设备在该历史时刻对应的锚点,其中,所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶;
针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,并将各历史时刻对应的锚点的奖励值的奖励和值,作为目标奖励值,其中,该历史时刻对应的锚点的奖励值用于表示所述采集设备按照该历史时刻对应的锚点进行行驶的合理程度,该历史时刻对应的锚点的奖励值是根据预测出的所述采集设备向该历史时刻对应的锚点进行行驶后,在该历史时刻之后的每个其他历史时刻对应的预测奖励值确定出的;
根据所述目标奖励值,对所述决策模型进行训练。
2.如权利要求1所述的方法,其特征在于,针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,具体包括:
针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,预测所述采集设备在该历史时刻之后的状态数据,作为预测状态数据;
根据所述预测状态数据,预测所述采集设备在该历史时刻之后的每个其他历史时刻对应的预测奖励值;
根据所述预测奖励值、所述采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值以及预设因子,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,其中,针对该历史时刻之后的每个其他历史时刻,若是该历史时刻距离该其他历史时刻越远,该其他历史时刻对应的预测奖励值在所述预设因子的作用下,对该历史时刻对应的锚点的奖励值的影响越小。
3.如权利要求1所述的方法,其特征在于,针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,具体包括:根据所述采集设备在该历史时刻对应的锚点,预测所述采集设备在该历史时刻之后的状态数据,作为预测状态数据;
根据所述预测状态数据,确定该历史时刻对应的第一影响因子;
根据该历史时刻对应的第一影响因子,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,所述第一影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时,与所述采集设备周围的障碍物的碰撞概率,所述碰撞概率越大,该历史时刻对应的锚点的奖励值越小。
4.如权利要求1所述的方法,其特征在于,针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,具体包括:根据所述采集设备在该历史时刻对应的锚点,预测所述采集设备在该历史时刻之后的状态数据,作为预测状态数据;
根据所述预测状态数据,确定该历史时刻对应的第二影响因子;
根据该历史时刻对应的第一影响因子,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,所述第二影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时的行驶效率,所述行驶效率越大,该历史时刻对应的锚点的奖励值越大。
5.如权利要求1所述的方法,其特征在于,针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,具体包括:根据所述采集设备在该历史时刻对应的锚点,预测所述采集设备在该历史时刻之后的状态数据,作为预测状态数据;
根据所述预测状态数据,确定该历史时刻对应的第三影响因子;
根据该历史时刻对应的第三影响因子,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,所述第三影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程度,所述状态变化程度越大,该历史时刻对应的锚点的奖励值越小。
6.如权利要求1所述的方法,其特征在于,针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,具体包括:确定该历史时刻对应的锚点,与所述决策模型在上一轮训练时所确定出的该历史时刻对应的锚点之间的变化程度表征值;
根据所述变化程度表征值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值。
7.如权利要求6所述的方法,其特征在于,根据所述变化程度表征值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,具体包括:
若确定所述变化程度表征值未落入预设的表征值范围,根据所述表征值范围,对所述变化程度表征值进行更新,得到更新后变化程度表征值;
根据所述更新后变化程度表征值以及所述变化程度表征值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值。
8.如权利要求7所述的方法,其特征在于,根据所述更新后变化程度表征值以及所述变化程度表征值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,具体包括:
确定所述更新后变化程度表征值对应的第一奖励值,以及所述变化程度表征值对应的第二奖励值;
根据所述第一奖励值和所述第二奖励值中的最小奖励值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。
9.一种无人驾驶设备的控制方法,其特征在于,包括:获取无人驾驶设备在当前时刻时的状态数据,作为当前状态数据;
将所述当前状态数据输入到决策模型中,确定出所述无人驾驶设备在当前时刻对应的锚点,其中,所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶,所述决策模型是通过上述权利要求1 8任一所述的方法训练得到的;
~
根据所述锚点,对所述无人驾驶设备进行控制。
10.一种模型训练的装置,其特征在于,用于对部署在无人驾驶设备的决策模型进行训练,包括:
获取模块,用于获取采集设备在各历史时刻下对应的状态数据,作为历史状态数据;
确定模块,用于针对每个历史时刻,将该历史时刻对应的历史状态数据输入到待训练的决策模型中,确定所述采集设备在该历史时刻对应的锚点,其中,所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶;
轨迹模块,用于针对每个历史时刻,根据所述采集设备在该历史时刻对应的锚点,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,并将各历史时刻对应的锚点的奖励值的奖励和值,作为目标奖励值,其中,该历史时刻对应的锚点的奖励值用于表示所述采集设备按照该历史时刻对应的锚点进行行驶的合理程度,该历史时刻对应的锚点的奖励值是根据预测出的所述采集设备向该历史时刻对应的锚点进行行驶后,在该历史时刻之后的每个其他历史时刻对应的预测奖励值确定出的;
训练模块,用于根据所述目标奖励值,对所述决策模型进行训练。
11.一种无人驾驶设备的控制装置,其特征在于,包括:获取模块,用于获取无人驾驶设备在当前时刻时的状态数据,作为当前状态数据;
确定模块,用于将所述当前状态数据输入到决策模型中,确定出所述无人驾驶设备在当前时刻对应的锚点,其中,所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶,所述决策模型是通过上述权利要求1 8任一所述的方法训练得到的;
~
控制模块,用于根据所述锚点,对所述无人驾驶设备进行控制。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1 8或9任一项所述的方法。
~
13.一种无人驾驶设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1 8或9任一项所~
述的方法。
说明书 :
模型训练的方法、无人驾驶设备的控制方法以及装置
技术领域
背景技术
的规则来完成躲避障碍物。但在实际应用中,由于交通参与者的意图以及行为过于复杂,仅
仅根据预先设定的规则来躲避障碍物的成功率并不高,存在与周围其他障碍物碰撞的可
能,安全性较低。
发明内容
下一历史时刻向所述锚点进行行驶;
应的锚点的奖励值;
驶所得到的行驶轨迹的奖励值,其中,针对该历史时刻之后的每个其他历史时刻,若是该历
史时刻距离该其他历史时刻越远,该其他历史时刻对应的预测奖励值在所述预设因子的作
用下,对该历史时刻对应的锚点的奖励值的影响越小。
时刻对应的锚点的奖励值,具体包括:
一影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时,与所述采集设
备周围的障碍物的碰撞概率,所述碰撞概率越大,该历史时刻对应的锚点的奖励值越小。
时刻对应的锚点的奖励值,具体包括:
二影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时的行驶效率,所
述行驶效率越大,该历史时刻对应的锚点的奖励值越大。
时刻对应的锚点的奖励值,具体包括:
三影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程
度,所述状态变化程度越大,该历史时刻对应的锚点的奖励值越小。
时刻对应的锚点的奖励值,具体包括:
点的奖励值。
述决策模型是通过上述模型训练的方法训练得到的;
所述采集设备在下一历史时刻向所述锚点进行行驶;
锚点进行行驶,所述决策模型是通过上述模型训练的方法训练得到的;
人驾驶设备的控制方法。
入到待训练的决策模型中,确定采集设备在该历史时刻对应的锚点,其中,锚点用于引导采
集设备在下一历史时刻向锚点进行行驶。而后,确定采集设备按照采集设备在各历史时刻
对应的锚点进行行驶所得到的行驶轨迹,并确定行驶轨迹对应的目标奖励值,最后,根据目
标奖励值,对决策模型进行训练。
对应的目标奖励值衡量该锚点的合理程度,所以,通过这种方式训练决策模型,可以使得无
人驾驶设备向该锚点进行行驶时,能够有效地保障了无人驾驶设备的安全行驶,避免与周
围障碍物发生碰撞,降低了与周围障碍物发生碰撞的概率,从而保证了无人驾驶设备的行
驶效率。
附图说明
在附图中:
具体实施方式
说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
指在决策模型训练的过程中进行数据采集的设备,如有人驾驶的汽车、有人操控的机器人
等设备,也可以是指无人驾驶设备,采集设备可以装配有多种传感器,例如,摄像机、激光雷
达、毫米波雷达等,用来在行驶过程中感知采集设备周围的环境,获取所需的状态数据。这
里提到的障碍物可以是指采集设备运动过程中周围的车辆、自行车、行人等可以运动的物
体,即能够对采集设备运动造成干扰的障碍物。
体,对本说明书提供的控制模型的训练方法进行说明。
据,以及采集设备周围的障碍物的位置数据、采集设备的速度数据,以及采集设备周围的障
碍物的速度数据、采集设备的转向角数据、采集设备到行程终点的距离等。在采集设备运动
过程中,周围可能存在多个障碍物,因此,采集设备可以针对周围每个障碍物,采集并获取
这些障碍物的状态数据。
用于执行配送领域的配送任务,如,使用无人驾驶设备进行快递、物流、外卖等配送的业务
场景。
设备在下一历史时刻向所述锚点进行行驶。
导采集设备在下一历史时刻向锚点进行行驶。这里提到的锚点可以是指与采集设备之间具
有相对距离的坐标点。
如图2所示。
以通过 表示,表示锚点与采集设备之间的横向距离, 表示锚点与采集设备之间
的纵向距离。若 小于零时,表示锚点位于采集设备的右方(假设默认位于采集设备左侧为
正向),若 大于零时,表示锚点位于采集设备的左方,相应的,若 小于零时,表示锚点位
于采集设备的后方,若 大于零时,表示锚点位于采集设备的前方。
小于零时的样本进行过滤,这是因为若是 小于零,表明采集设备按照锚点行驶时会进行
倒车或是掉头,而为了保证安全行驶以及行驶效率,则可以在后期去除掉会使采集设备出
现倒车或是掉头的样本。
策模型的具体形式进行限定。
并不一定会到达该锚点所在的位置,可能未行驶到该锚点所在的位置,也可能会到达的位
置超过了该锚点所在的位置。所以,该历史时刻对应的锚点实际上可以理解成采集设备在
下一时刻期望所要到达的位置。相应的,采集设备每个时刻都可以确定出相应的锚点,进而
使得采集设备按照各锚点进行行驶后,最终到达目标终点。
作为该历史时刻对应的锚点的奖励值,将各历史时刻对应的锚点的奖励值的奖励和值,作
为目标奖励值。也就是说,服务器可以根据采集设备从起点行驶到终点的行驶轨迹中,确定
出的所有的锚点对应的奖励值之和,得到采集设备对应的实际的行驶轨迹的目标奖励值。
确定。例如,采集设备向该锚点进行行驶,预测该采集设备以及障碍物在下一时刻的位置、
速度,确定采集设备与障碍物是否碰撞,以此来确定该锚点对应的奖励值,判断该锚点的合
理程度。
测采集设备在该历史时刻之后的每个其他历史时刻对应的预测奖励值。最后,根据各历史
时刻对应的预测奖励值以及采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后
的实际奖励值,确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖
励值,作为该历史时刻对应的锚点的奖励值。
采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值以及预设因子,
确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。其中,针
对该历史时刻之后的每个其他历史时刻,若是该历史时刻距离该其他历史时刻越远,该其
他历史时刻对应的预测奖励值在预设因子的作用下,对该历史时刻对应的锚点的奖励值的
影响越小。具体可以参考如下公式:
奖励值。 用于表示采集设备在时刻t+1下预测出的状态数据对应的奖励值。为预设因
子,用于减小在时刻t之后的其他时刻预测出的状态数据对 的影响。
碍物发生碰撞,那么预测出的采集设备在时刻t+1的状态数据对应的奖励值较小,从而导致
在时刻t下的采集设备的状态数据对应的奖励值也较小,也就是说,可以通过预测出的采集
设备的状态数据对应的奖励值对当前时刻的锚点的合理程度进行判断。
以参考如下公式:
数据与采集设备在时刻t对应的实际状态数据存在偏差,则可以通过这一偏差,对采集设备
在时刻t下的状态数据对应的奖励值(即 )进行补偿,从而保证 的合理性。进一
步地,由于上述公式中减去了 ,则相当于 这一奖励值更加关注t时刻所对应的锚点对未
来的影响。
大于0且小于1,主要用于减少较远时刻的采集设备的状态数据对应的奖励值对时刻t对应
的锚点的奖励值的影响。用于表示采集设备的行驶轨迹的时长。
备在时刻t对应的锚点的奖励值,以此来判断时刻t对应的锚点的合理程度。
时刻t过远的历史时刻的状态数据,对该锚点的奖励值的影响程度,从而保证了该锚点的奖
励值的合理性。
驶时的行驶效率以及平稳性。
第一影响因子。最后,根据该历史时刻对应的第一影响因子,确定采集设备按照该历史时刻
对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,
第一影响因子用于表征采集设备按照该历史时刻对应的锚点进行行驶时,与采集设备周围
的障碍物的碰撞概率,碰撞概率越大,该历史时刻对应的锚点的奖励值越小。具体可以参考
如下公式:
如,可以是指采集设备按照该历史时刻对应的锚点进行行驶的过程中,与周围障碍物之间
的平均距离;再例如,也可以是指采集设备按照该历史时刻对应的锚点进行行驶的过程中,
与周围障碍物之间的最小距离。 可以用于表示采集设备与障碍物之间的预计碰撞时间,
具体形式也可以有多种,如,采集设备按照该历史时刻对应的锚点进行行驶的过程中,与障
碍物之间的平均预计碰撞时间。
设备之间的距离不小于设定阈值,则 为较大的奖励值。
为较大的奖励值。
大,奖励值 越大,采集设备与障碍物的预计碰撞时间越大,奖励值 越大。进一步地,
若确定出采集设备与障碍物发生碰撞或采集设备驶出车道,则可以对 奖励值减去一个
预设的极大值,从而使得在使用这种方式训练出的决策模型进行决策时,可以有效地避免
无人驾驶设备与障碍物发生碰撞或无人驾驶设备驶出车道的情况的发生。
设阈值的数值统一确定为预设阈值的数值,避免出现奖励值无限大的情况发生。
史时刻对应的第二影响因子。最后,根据该历史时刻对应的第一影响因子,确定采集设备按
照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚
点的奖励值,第二影响因子用于表征采集设备按照该历史时刻对应的锚点进行行驶时的行
驶效率,行驶效率越大,该历史时刻对应的锚点的奖励值越大。具体可以参考如下公式:
史时刻对应的锚点进行行驶时,在横向距离上接近目标终点的程度。
应的锚点进行行驶时,在纵向距离上接近目标终点的程度。
的锚点进行行驶时,接近最大行驶速度的程度。
越大, 越大,则 对应的奖励值越大。
驶方向,与目标起点到目标终点的方向之间的夹角不超过设定阈值,则确定 较大。在
本说明书实施例中,目标起点和目标终点,可以是指采集设备在执行任务的过程中的起点
以及所要到达的终点位置。
因子。最后,根据该历史时刻对应的第三影响因子,确定采集设备按照该历史时刻对应的锚
点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,第三影响
因子用于表征采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程度,状态变化
程度越大,该历史时刻对应的锚点的奖励值越小。具体可以参考如下公式:
用于表示采集设备按照该历史时刻对应的锚点进行行驶时方向盘转角的变化率。从该公式
中可以看出,采集设备的加速度的变化率越大,表明采集设备按照该历史时刻对应的锚点
进行行驶时,平稳性越差,所以 越小,相应的,若是采集设备的方向盘转角的变化率越
大,表明采集设备按照该历史时刻对应的锚点进行行驶时,平稳性越差, 越小。
程度表征值,相应的, 越大,若采集设备的加速度不小于设定阈值,则可以对应较高的影
响程度表征值,相应的, 越小。
低的影响程度表征值,相应的, 越大,若采集设备的方向盘转角不小于设定阈值,则可以
对应较高的影响程度表征值,相应的, 越小。
对应的锚点的奖励值。
的关系,以及奖励值与上述状态变化程度呈负相关的关系即可,本说明书不对奖励函数的
具体形式进行限制。
确定该历史时刻对应的锚点,与决策模型在上一轮训练时所确定出的该历史时刻对应的锚
点之间的变化程度表征值,并根据变化程度表征值,确定采集设备按照该历史时刻对应的
锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值。
参考如下公式:
定出的锚点, 可以用于表征决策模型根据上一轮训练时的模型参数确定出的锚
点。
行更新,得到更新后变化程度表征值。再根据更新后变化程度表征值以及变化程度表征值,
确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历
史时刻对应的锚点的奖励值。
历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。具体可以参考如下公式:
型的模型参数更新幅度的超参数, 用于表示限制决策模型的模型参数
更新幅度。
0.8,则将确定出的变化程度表征值更新为0.8。
然可以避免与障碍物碰撞,并能够保证采集设备在行驶过程中有着较高的行驶效率以及平
稳性。
数,实现该决策模型的训练。也就是说,经过多轮的迭代训练,可以使行驶轨迹对应的目标
奖励值不断增大,并收敛在一个数值范围内,进而完成决策模型的训练过程。
就是说,在多轮迭代训练的过程中,需要使目标奖励值不断的接近该预设的奖励值,当经过
多轮迭代训练后,目标奖励值在该预设的奖励值周围来回浮动,则可以确定完成对该决策
模型的训练。
的决策模型根据状态数据得到的锚点不仅能够提高行驶过程中的安全性,同时还能够提高
行驶效率以及平稳性。
该历史时刻对应的历史状态数据输入到待训练的决策模型,确定出采集设备在该历史时刻
对应的锚点,并基于确定出的锚点,对决策模型进行训练,以及将训练后的决策模型部署到
无人驾驶设备中。
行驶,所述决策模型是通过上述模型训练的方法训练得到的。
前状态数据输入到决策模型中,确定出无人驾驶设备在当前时刻对应的锚点。
体,则终端设备可以获取到无人驾驶设备采集并上传的的状态数据,并在确定出在该时刻
对应的锚点后,可以将确定出的锚点对应的数据返回给无人驾驶设备。
导所述采集设备在下一历史时刻向所述锚点进行行驶;
驶轨迹的奖励值,作为该历史时刻对应的锚点的奖励值,将各历史时刻对应的锚点的奖励
值的奖励和值,作为所述目标奖励值。
据,根据所述预测状态数据,预测所述采集设备在该历史时刻之后的每个其他历史时刻对
应的预测奖励值,根据所述预测奖励值、所述采集设备按照上一历史时刻对应的锚点行驶
至该历史时刻后的实际奖励值以及预设因子,确定所述采集设备按照该历史时刻对应的锚
点进行行驶所得到的行驶轨迹的奖励值,其中,针对该历史时刻之后的每个其他历史时刻,
若是该历史时刻距离该其他历史时刻越远,该其他历史时刻对应的预测奖励值在所述预设
因子的作用下,对该历史时刻对应的锚点的奖励值的影响越小。
态数据,确定该历史时刻对应的第一影响因子,根据该历史时刻对应的第一影响因子,确定
所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历
史时刻对应的锚点的奖励值,所述第一影响因子用于表征所述采集设备按照该历史时刻对
应的锚点进行行驶时,与所述采集设备周围的障碍物的碰撞概率,所述碰撞概率越大,该历
史时刻对应的锚点的奖励值越小。
态数据,确定该历史时刻对应的第二影响因子,根据该历史时刻对应的第一影响因子,确定
所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历
史时刻对应的锚点的奖励值,所述第二影响因子用于表征所述采集设备按照该历史时刻对
应的锚点进行行驶时的行驶效率,所述行驶效率越大,该历史时刻对应的锚点的奖励值越
大。
态数据,确定该历史时刻对应的第三影响因子,根据该历史时刻对应的第三影响因子,确定
所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历
史时刻对应的锚点的奖励值,所述第三影响因子用于表征所述采集设备按照该历史时刻对
应的锚点进行行驶后的状态变化程度,所述状态变化程度越大,该历史时刻对应的锚点的
奖励值越小。
化程度表征值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹
的奖励值,作为该历史时刻对应的锚点的奖励值。
征值,根据所述更新后变化程度表征值以及所述变化程度表征值,确定所述采集设备按照
该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值,作为该历史时刻对应的锚点
的奖励值。
励值中的最小奖励值,确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行
驶轨迹的奖励值。
述锚点进行行驶,所述决策模型是通过上述模型训练的方法训练得到的;
制方法。
能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存
中然后运行,以实现上述图1所述的模型训练的方法或上述图3提供的无人驾驶设备的控制
方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或
软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也
可以是硬件或逻辑器件。
而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因
此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件
(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable Gate
Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员
自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作
专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻
辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,
而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言
(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL
(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description
Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL
(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby
Hardware Description Language)等,目前最普遍使用的是VHDL(Very‑High‑Speed
Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应
该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,
就可以很容易得到实现该逻辑方法流程的硬件电路。
读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,
ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制
器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,
存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了
以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来
使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来
实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各
种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置
视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何
设备的组合。
施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
示例。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算
机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。
组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境
中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块
可以位于包括存储设备在内的本地和远程计算机存储介质中。
施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。