面向城市场景下行人轨迹预测方法、模型及存储介质转让专利

申请号 : CN202211002636.0

文献号 : CN115071762B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈雪梅韩欣彤孔令兴肖龙姚诚达

申请人 : 北京理工大学前沿技术研究院山东汇创信息技术有限公司

摘要 :

本申请涉及自动驾驶技术领域,尤其涉及一种面向城市场景下行人轨迹预测方法、模型及存储介质,方法包括:用向量表示各智能体的轨迹序列,并基于层级的网络结构得到预测目标的空间交互特征;利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征;利用多头注意力机制对空间交互特征和轨迹时序特征进行融合得到场景上下文特征;对场景上下文特征进行解码输出预测目标的未来轨迹。以场景向量特征作为输入,能直接学习场景中的关键交互信息,将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。

权利要求 :

1.一种面向城市场景下行人轨迹预测方法,其特征在于,包括:用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征;

获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;

利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;

对所述场景上下文特征进行解码,输出预测目标的未来轨迹;

所述利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征步骤,具体包括:以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;

根据所述关联程度对不同空间区域加权,计算场景上下文特征。

2.根据权利要求1所述一种面向城市场景下行人轨迹预测方法,其特征在于,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤之前,还包括:基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据;

对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段;

根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。

3.根据权利要求2所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列步骤,具体包括:根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,删除静止目标及长度不足设定长度的轨迹,对不完整的轨迹进行插值补充,得到长度为观测时长的预测目标和周边智能体的轨迹序列。

4.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤,具体包括:用向量表示各智能体的轨迹序列,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;

将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;

利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。

5.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征步骤,具体包括:获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;

将所述多维特征向量映射到高维空间,获得高维特征向量;

将所述高维特征向量输入LSTM网络,输出轨迹时序特征。

6.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述对所述场景上下文特征进行解码,输出预测目标的未来轨迹步骤,具体包括:利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;

通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;

其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。

7.一种面向城市场景下行人轨迹预测模型,其特征在于,包括:空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;

轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;

特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;

轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹;

所述特征融合模块包括:

以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;

根据所述关联程度对不同空间区域加权,计算场景上下文特征。

8.一种计算机可读存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1‑6中任一种方法中的计算机程序。

说明书 :

面向城市场景下行人轨迹预测方法、模型及存储介质

技术领域

[0001] 本申请涉及自动驾驶的技术领域,尤其是涉及一种面向城市场景下行人轨迹预测方法、模型及存储介质。

背景技术

[0002] 随着科技的高速发展和汽车智能化时代的到来,自动驾驶汽车将在未来智能交通系统中占据极其重要的地位。
[0003] 自动驾驶车辆在人车混行的城市交叉口行驶时需要特别关注行人运动,通过准确预测行人的未来运动轨迹,可以确保自动驾驶车辆及时避让以保证行车安全。行人作为交通场景中最为灵活、随机的个体,其运动高度发散,意图难以确定,与其他交通参与者常存在各种空间和时间上的交互,极易受到周边智能体的影响。对于自动驾驶车辆而言,对行人行为的理解和轨迹的预测是一个难点。
[0004] 传统的行人轨迹预测方法主要建立在各种时序模型上,例如隐马尔可夫模型、高斯过程等。这类方法一般通过人为地设计时序递推公式来生成未来轨迹,具有严格的数学证明,可解释性强。但这些算法往往会引入一些苛刻的条件假设,在行人轨迹预测这种复杂问题上效果比较差,难以有效帮助自动驾驶车辆进行合理决策并保证行车安全。

发明内容

[0005] 为了提高复杂城市道路场景中行人轨迹的预测效果,本申请提供一种面向城市场景下行人轨迹预测方法、模型及存储介质。
[0006] 第一方面,本申请提供的一种面向城市场景下行人轨迹预测方法,采用如下的技术方案:
[0007] 一种面向自动驾驶的城市场景下行人轨迹预测方法,包括:
[0008] 用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征;
[0009] 获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征;
[0010] 利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
[0011] 对所述场景上下文特征进行解码,输出预测目标的未来轨迹。
[0012] 通过采用上述技术方案,以场景向量特征作为输入,能直接学习场景中的关键交互信息。另外,基于多头注意力机制能将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。
[0013] 可选的,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤之前,还包括:
[0014] 基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据;
[0015] 对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段;
[0016] 根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。
[0017] 可选的,所述根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列步骤,具体包括:
[0018] 根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,删除静止目标及长度不足设定长度的轨迹,对不完整的轨迹进行插值补充,得到长度为观测时长的预测目标和周边智能体的轨迹序列。
[0019] 可选的,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤,具体包括:
[0020] 用向量表示各智能体的轨迹序列,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;
[0021] 将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;
[0022] 利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。
[0023] 可选的,所述获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征步骤,具体包括:
[0024] 获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;
[0025] 将所述维特征向量映射到高维空间,获得高维特征向量;
[0026] 将所述高维特征向量输入LSTM网络,输出轨迹时序特征。
[0027] 可选的,所述利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征步骤,具体包括:
[0028] 以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;
[0029] 根据所述关联程度对不同空间区域加权,计算场景上下文特征。
[0030] 可选的,所述对所述场景上下文特征进行解码,输出预测目标的未来轨迹步骤,具体包括:
[0031] 利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;
[0032] 通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。
[0033] 第二方面,本申请提供的一种面向城市场景下行人轨迹预测模型,采用如下的技术方案:
[0034] 一种面向自动驾驶的城市场景下行人轨迹预测模型,包括:
[0035] 空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;
[0036] 轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
[0037] 特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
[0038] 轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹。
[0039] 第三方面,本申请提供的一种计算机可读存储介质,采用如下的技术方案:
[0040] 一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面所述的计算机程序。
[0041] 综上所述,本申请包括以下至少一种有益技术效果:
[0042] 以场景向量特征作为输入,能直接学习场景中的关键交互信息。另外,基于多头注意力机制能将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。

附图说明

[0043] 图1是本申请实施例示出的自动驾驶系统架构。
[0044] 图2是本申请实施例示出的行人轨迹预测方法的流程图。
[0045] 图3是本申请实施例示出的行人轨迹预测方法中轨迹数据预处理的示意图,其中(a)部分是X方向的对比图,(b)部分是Y方向的对比图。
[0046] 图4是本申请实施例示出的行人轨迹预测方法中轨迹数据处理的流程图。
[0047] 图5是本申请实施例示出的行人轨迹预测方法中用于体现步骤400的网络结构图。
[0048] 图6是本申请实施例示出的行人轨迹预测方法中用于体现步骤500的网络结构图。
[0049] 图7是本申请实施例示出的行人轨迹预测方法中用于体现步骤600的网络结构图。
[0050] 图8是本申请实施例示出的行人轨迹预测方法中用于体现步骤700的网络结构图。
[0051] 图9是本申请实施例示出的行人轨迹预测模型的架构图。

具体实施方式

[0052] 下面结合图1‑图9对本申请作进一步详细说明。
[0053] 首先,对本申请实施例涉及的名词进行介绍。
[0054] FC层,是全连接层(Full Connection)的缩写,在整个卷积神经网络中起到“分类器”的作用;全连接层本质是由一个特征空间线性变换到另一个特征空间,其核心计算是矩阵乘。在卷积神经网络中,全连接层通常出现在最后,用于对前面设计的特征做加权和。
[0055] 如图1所示,一个完整的自动驾驶系统主要由感知模块、定位模块、决策规划模块和控制模块组成,感知模块通过摄像头、激光雷达等传感器感知自动驾驶车辆周围的环境,对周边环境因素进行检测并对动态目标进行跟踪。定位模块根据惯性导航系统、GPS和高精地图等确定自动驾驶车辆位姿信息。决策规划模块根据感知和定位结果,对动态目标进行运动预测,通过自动驾驶车辆行为决策来规划出一条高效、无碰撞的路径。最后,底层执行机构根据控制信号实现车辆的横纵向控制。运动预测作为决策规划模块的一部分,连接感知模块和决策规划模块,通过订阅上游感知模块对动态目标的跟踪结果、道路结构信息,综合考量高精地图、智能体间交互和目标意图等信息,预测各类动态目标未来一段时间内可能的运动变化,进而影响自动驾驶车辆的行为决策和路径规划。
[0056] 行人作为交通场景中最为灵活、随机的个体,其运动高度发散,意图难以确定,与其他交通参与者常存在各种空间和时间上的交互,极易受到周边智能体的影响,因此行人轨迹预测需要重点考虑各智能体间的交互。
[0057] 本申请公开了一种面向城市场景下行人轨迹预测方法,同时提取预测目标的轨迹时序特征和智能体间的空间交互特征,对复杂城市道路场景的行人轨迹具有良好的预测效果。
[0058] 作为行人轨迹预测方法的一种实施方式,如图2所示,包括以下步骤:
[0059] 100,基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据。
[0060] 200,对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段。
[0061] 300,根据观测时长最后一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。
[0062] 需要说明的是,利用Argoverse运动预测数据集提供车辆轨迹序列和高精地图数据。具体的,使用与Argo AI自动驾驶技术完全集成的采集车收集据,采集车的主传感器包括2个堆叠的VLP‑32C激光雷达、7个呈环状分布的200万像素摄像头和1个500万像素双目摄像头;Argo AI自动驾驶技术在接近300公里的城市交通场景中跟踪了近1006个小时的物体,提取了324557个5秒的运动预测场景序列,包括路段行驶,交叉口行驶,行人通行等多种场景。Argoverse 运动预测数据集提供了较为丰富的场景和运动信息,同时增加了交叉口等典型人车交互场景下的行人标注。
[0063] 本申请基于上述Argoverse运动预测数据集构建行人轨迹预测模型的训练集和验证集。具体的,根据轨迹预测任务的需求,将Argoverse运动预测数据集中每条数据处理成8s的轨迹片段,包含预测目标P、周边智能体 的轨迹。行人轨迹的观测时长 =3s,预测时长 =5s。
[0064] 结合图3,由于Argoverse原始数据是基于车载传感器的感知结果处理得到,难免会存在一定的误差,本申请采用Savitzky‑Golay平滑滤波器对轨迹序列进行预处理。其中,Savitzky‑Golay平滑滤波器是一种基于最小二乘法拟合的滤波方式。
[0065] 结合图4,为了提取有明显的交互的周边智能体,考虑到算法速度和实际需要,交互范围设为 =30m,根据观测时长 最后一帧的智能体位置,筛选在交互范围R内的周边智能体轨迹,删除静止目标及长度不足0.3 的轨迹,对不完整的轨迹进行插值补充,最终得到长度为 的预测目标P和周边智能体 的轨迹序列数据。
[0066] 基于车辆轨迹序列和高精地图数据处理Argoverse运动预测数据集,改进后的Argoverse运动预测数据集包含的场景信息包括轨迹信息和地图信息,其中,轨迹信息包括运动信息(位置x、y,速度v,航向角 )、尺寸信息(长度L,宽度W,高度H)以及其他信息(目标ID);地图信息包括位置信息(道路点坐标x、y)以及其他信息(是否转弯、是否位于路口以及是否有交通信号灯控制)。
[0067] 400,用向量表示各智能体的空间位置信息,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征。
[0068] 具体的,结合图5,步骤200包括:
[0069] 401,用向量表示各智能体的空间位置信息,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;
[0070] 402,将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;
[0071] 403,利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。
[0072] 需要说明的是,直接用向量表示各智能体的空间位置信息,这种方式能直接学习到有意义的场景特征,有效提取空间中的交互信息。然后利用MLP层将向量特征映射到高维空间,并在时间维度采用最大池化(Pooling),得到与轨迹序列对应的高阶特征向量;并基于图注意力网络对智能体之间的轨迹序列特征进行高阶交互建模,获得场景的空间交互特征 。
[0073] 其中,智能体轨迹序列集合表示为 , 代表预测目标的轨迹序列,代表预测目标周边m个其他智能体的轨迹序列,每条轨迹序列 为不同时刻的向量集合: , , 表示历史轨迹的长度20,向量 中包含丰富的位置和
语义信息,维度为8, 。其中,代表向量 的起点和终点,对
应前后两帧中智能体的位置; 代表智能体的长度和宽度外观属性, 代表归一
化的序列时间戳, 表示向量 与轨迹序列 之间的从属关系,属于同一条轨迹序列的向量具有相同的 。
[0074] 利用MLP层将向量特征映射到高维空间,维度由8上升到64,然后在时间维度采用最大池化,得到与轨迹序列 对应的高阶特征向量 , 。其中, 表示MLP层的权重矩阵, 代表最大池化操作。
[0075] 另外,图注意力网络使用注意力机制和邻接矩阵来描述邻接节点对于目标节点的重要性,与图卷积神经网络GCN相比,通过注意力机制来对邻居节点权重自适应分配,提高了图神经网络的表达能力。利用改进后的图注意力网络GAT_v2在对轨迹序列特征 进行高阶交互时,每一个序列特征 对应于图注意力网络GAT中的一个节点,每条边代表两条轨迹序列之间的关联度。
[0076] 其中,图注意力网络GAT_v2通过改变线性层Linear和激活函数LeakyReLU的计算顺序,克服了传统GAT只能提供静态注意力的不足,本申请利用改进后的图注意力网络GAT_v2在对轨迹序列特征 进行高阶交互:
[0077]
[0078] 其中,表示经过图注意力网络聚合后的轨迹序列特征,维度同样为64, 代表初始化线性变换的权重矩阵,由MLP层实现,用于计算两个特征之间的相似度;和为激活函数,H为图注意力网络的头数,这里可以设为8; 为归一化的注意力分数, 为第h头的注意力分数;、 分别为与结点 相邻的结点 的特征向量, 表示特征向量 第h头的权重矩阵, 、 、 分别表示特征向量 、、 的权重矩阵。
[0079] 对于所有智能体的轨迹序列 对应的高阶特征向量 ,经图注意力网络GAT_v2高阶交互后的轨迹序列特征可以表示为 ,即为预测目标的空间交
互特征 。
[0080] 500,获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征。
[0081] 其中,结合图6,步骤500具体包括:
[0082] 501,获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;
[0083] 502,将所述维特征向量映射到高维空间,获得高维特征向量;
[0084] 503,将所述高维特征向量输入LSTM网络,输出轨迹时序特征。
[0085] 具体的,用位置、速度和航向角组成的多维特征向量表示预测目标的历史轨迹信息,利用LSTM网络的时序编码特性,提取预测目标历史轨迹中的时序特征 。
[0086] 将多维特征向量 作为输入,首先通过一个2层MLP层将多维特征向量 映射到高维空间,得到高维特征向量 ,然后将该高维特征向量输入LSTM网络,输出轨迹时序特征 :
[0087]
[0088] 其中, 为结点i在观测时长t时的x坐标的位置, 为结点i在观测时长t时的y坐标的位置, 为结点i在观测时长t时的速度, 为结点i在观测时长t时的航向角; 和分别代表MLP层和LSTM网络的权重矩阵,h代表LSTM网络的隐藏层状态,维度是64。
[0089] 600,利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征。
[0090] 其中,结合图7,步骤600具体包括:
[0091] 601,以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为查询向量,评估预测目标和周边智能体的关联程度;
[0092] 602,根据所述关联程度对不同空间区域加权,计算场景上下文特征。
[0093] 需要说明的是,现有技术中常使用各类池化函数或者直接拼接来合并特征,这类方法往往缺乏有效的特征融合机制,可能忽略一些重要的交互信息,导致对最终的预测结果造成负面影响。
[0094] 本申请采用多头注意力机制对空间交互特征 和轨迹时序特征 进行交汇融合,以历史轨迹的轨迹时序特征 作为查询向量Q,空间交互特征作为多头注意力机制的键K和值V,计算预测目标与其他智能体之间的交互强弱,并分配不同的关注度,使网络更加关注对预测目标产生较大影响的个体,最终得到场景上下文特征 。
[0095] 需要说明的是,多头注意力机制可以看做是一种软寻址操作:输入信息X作为容器中的存储内容,存储内容由键(Key)值(Value)对表示,对于一个键为Query的查询,需要计算容器中对应的Value。软寻址通过计算Query与所有键的相似度来决定从对应值中取出多少,即由Query与Key的相似性来计算每个Value的权重,对所有Value进行加权求和的结果就是最终的注意力分配系数Attention。
[0096] 以上计算可以归纳为三个过程:
[0097] 第一步:计算Query和Key的相似度 ,也称注意力分数。一般用加性模型、乘法模型、点积操作或余弦相似度实现。
[0098]
[0099] 第二步:将注意力分数用softmax函数进行归一化,突出重要元素的权重 。
[0100]
[0101] 第三步:根据softmax归一化的结果计算Value的加权值。
[0102]
[0103] 在Transformer中使用的注意力机制是Scaled Dot‑Product Attention,计算公式如下:
[0104]
[0105] 其中, 分别代表查询向量Query,键Key和值Value,这里 之间的映射采用常用的点积方式,这种方式能直接建立关系映射,计算速度更快,能够降低模型的复杂度;来表示被选择信息的索引位置,即 表示第 个输入信息;表示第 个输入信息。F为采用乘法模型计算相似度时对应的可学习参数;表示第 个输入信息对应的键;表示第 个输入信息对应的键与Query的相似度; 表示输入信息向量V中第 个信息; 代表分数的调节银子,保证点积结果不至于过大。
[0106] 多头注意力机制将网络分为多个子空间,可以关注不同层次的信息,相较于一般的注意力机制可以有效防止网络过拟合。
[0107] 具体来说,空间交互特征 作为多头注意力机制的K和V,轨迹时序特征 作为查询向量Q,评估预测对象和周边智能体的关联程度,这本质上是一种空间软注意力机制,Attention加权作用在空间尺度上,通过对不同空间区域加权,计算场景上下文特征。其中场景上下文特征 的计算公式如下:
[0108]
[0109] 其中, 代表多头注意力机制; 表示多头注意力机制的权重矩阵, 为空间交互特征, 为轨迹时序特征, 分别表示多个头结
构,h为网络结构中头数4, 、 、 、 均为权重矩阵, 表示拼接操作。
[0110] 700,对所述场景上下文特征进行解码,输出预测目标的未来轨迹。
[0111] 其中,结合图8,步骤700具体包括:
[0112] 701,利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;
[0113] 702,通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。
[0114]  采用 LSTM网络作为解码器对未来轨迹单步预测,t时刻的预测需要LSTM网络中 t‑1时刻的隐藏状态 作为输入;最后通过MLP层对轨迹预测时长 内的隐藏状态序列作线性变换,输出预测目标的未来轨迹 。由于 中的每个轨迹点 服从二元混合高斯分布,由该分布的5个参数 表示,MLP层一共输出
个参数。
[0115]
[0116] 其中,h代表LSTM网络的隐藏层状态,维度为64。 和 分别表示MLP层和LSTM网络的权重矩阵。
[0117] 另外,将本申请与现有的主流模型Social LSTM、Social GAN、Sophie、Social BiGAT以及Social STGCNN进行对比,验证本申请中行人轨迹预测模型的效果。
[0118] 以ADE、FDE和Recall为评价指标,比较本文模型和上述主流模型的预测性能,基于Argoverse数据集的验证结果如表1.1所示。表1.1中,本申请模型的各个指标在目前主流行人轨迹预测模型中均表现优异,预测误差可以保持较低的水准。分别设置Tpred=3s和Tpred=5s研究预测时长对模型预测效果的影响,结果显示,随着Tpred增加,轨迹预测的难度和不确定性更大,所有网络的精度都显著降低。
[0119]
[0120] 因此,本申请的模型输入的是高度抽象的场景向量特征,能直接学习场景中的关键交互信息。另外,基于多头注意力机制的特征融合模块能将空间特征和时序特征有效结合,显著降低轨迹预测的误差。
[0121] 基于上述面向城市场景下行人轨迹预测方法,本实施例还公开了一种面向城市场景下行人迹预测模型。
[0122] 作为行人迹预测模型的一种实施方式,如图9所示,包括:
[0123] 空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;
[0124] 轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
[0125] 特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
[0126] 轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹。
[0127] 需要说明的是,训练模型前需要先定义损失函数,需要设计合适的损失函数来评估真实值和预测值间的接近程度,网络损失越小,模型的预测效果越好。对于回归问题,一般可以选用均方根误差(Root Mean Squared Error, RMSE),绝对误差(Absolute Error, AE)等作为损失函数。对于分类问题,可以用准确率,召回率以及ROC曲线等来衡量模型的性能。
[0128] 由于本申请不直接估计预测目标的未来位置,而是假设预测目标每一帧的预测位置( , )服从二元混合高斯分布,从而估计二元混合高斯分布的参数,其二元混合高斯的概率分布函数为:
[0129]
[0130] 其中, 是二元混合高斯分布的参数, 表示预测轨迹在t时刻的位置, 代表轨迹点 的标准差,反映了每个轨迹点位置的不确定性, 是相关系数,上述5个参数由输出维度为5的FC层对高维特征做线性变换得到; 和 为该预测目标在时刻t的真实轨迹位置。
[0131] 因此,在轨迹预测时长 内,行人轨迹预测问题的概率密度函数为:
[0132]
[0133] 其中, 为预测目标的预测轨迹序列,为轨迹预测时长为t时的预测轨迹,x为场景上下文特征, 表示轨迹预测时长,N为场景中动态目标的数目。
[0134] 一般可以对概率密度函数取负对数得到行人迹预测模型的损失函数:
[0135]
[0136] 其中, 是每帧输出预测轨迹 的二元混合高斯分布的参数。
[0137] 基于改进的Argoverse 数据集对模型进行训练,数据在输入模型前需要做归一化处理。模型在TESLA V100显卡上进行多GPU训练,单块显卡的显存为32G,具体软件及硬件配置见表1.2。训练采用的Adam优化器,优化器的初始学习率设为0.0005,学习率衰减的步长设置为10,训练次数为200轮,批训练的大小设置为64。模型中每个MLP层后都接L1正则化层和激活函数Relu层。
[0138]
[0139] 为验证行人轨迹预测模型各个模块的有效性,本申请基于Argoverse数据集设计了消融实验,实验结果如表1.3所示。平均位移误差(Average Displacement Error,ADE)和最终位移误差(Final Displacement Error,FDE)是轨迹预测任务常用的评价指标。表1.3显示了只有空间交互模块、只有轨迹编码模块和完整结构的消融实验结果,预测时长  设为5s。
[0140]
[0141] 可以看出,只使用轨迹时序特征,即利用LSTM网络进行特征编码和解码时,模型的推理速度较快,但是预测误差较大。基于空间交互模块的实验结果相比LSTM网络有显著提升,理论上可以取得不错的轨迹预测效果。完整结构虽然一定程度上降低了推理速度,但是有最小的ADE和FDE。消融实验结果表明,本文提出的融合场景时空特征的模型预测精度最高,验证了模型各个模块的有效性。
[0142] 本申请实施例还公开了一种计算机可读存储介质,存储有能够被处理器加载并执行如上述中央摆渡车运行控制方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read‑OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0143] 以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。