行人轨迹预测方法、装置、电子设备及存储介质转让专利

申请号 : CN202110882258.9

文献号 : CN113538520B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨天航李雪范圣印

申请人 : 北京易航远智科技有限公司

摘要 :

本公开提供一种行人轨迹预测方法,包括:获取场景的至少一个行人的观测轨迹信息,将各个行人的观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。本公开还提供了一种行人轨迹预测装置、电子设备以及可读存储介质。

权利要求 :

1.一种行人轨迹预测方法,其特征在于,包括:获取场景的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;

基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;

至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹;

其中,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:基于所述场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵,以及基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息;

其中,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,包括:将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs;

分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征;基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征;

其中,分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征,包括:分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度,得到各个行人的与其他各个行人的交互特征向量eact;

其中,基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征,包括:将特征矢量ξobs送入至多个全连接层进行维度变换,生成多头注意力的输入Query、Key和Value,其中Query、Key和Value值分别为特征矢量ξobs的三部分线性表示,以用于挖掘行人位置随时间变化的规律,采用多头注意力机制提取轨迹序列ξobs的时域隐含特征eatt,时域隐含特征eatt表示从多头注意力中提取出的行人空间位置变化的特征表示。

2.根据权利要求1所述的行人轨迹预测方法,其特征在于,获取场景的至少一个行人的观测轨迹信息,包括:

由所述场景的图片和/或视频中获取各个行人的世界坐标系下的位置信息,并生成所述观测轨迹信息;及

提取所述场景中大于或者大于等于预设长度的行人的观测轨迹信息及相应的行人的识别号。

3.根据权利要求1或2所述的行人轨迹预测方法,其特征在于,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,还包括:

将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量。

4.根据权利要求3所述的行人轨迹预测方法,其特征在于,将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs,包括:对各个行人的自我视角下的自我视角观测轨迹信息进行升维处理,使得所述自我视角观测轨迹信息的位置表达由二维升至预设维度D,得到各个行人的表示行人空间位置的特征向量eobs,嵌入位置编码,生成嵌入位置编码后的特征矢量ξobs,其中,特征向量eobs基于全连接层通过以下公式获得:

eobs=φ(Xview;Wg)其中,φ(·)表示全连接层,Wg为全连接层的权重,Xview为各个行人在自我视角下的自己的观测轨迹序列;

其中,嵌入位置编码,生成嵌入位置编码后的特征矢量ξobs包括:将特征向量eobs与特征向量pobs相加,得到所述特征向量ξobs;

其中,特征向量pobs为是不同帧及不同维度的特征向量,通过以下公式获得:其中,PE为二维矩阵,PE(·)表示矩阵中参数的索引,矩阵大小与所述特征向量eobs相同,t表示序列的时间步长d表示D维中的每一个维度。

5.一种行人轨迹预测装置,其特征在于,包括:第一数据处理模块,所述第一数据处理模块获取场景的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;

编码器,所述编码器基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;

解码器,所述解码器至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;

生成器,所述生成器至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及第二数据处理模块,所述第二数据处理模块将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹;

其中,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:基于所述场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵,以及基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息;

其中,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,包括:将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs;

分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征;基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征;

其中,分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征,包括:分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度,得到各个行人的与其他各个行人的交互特征向量eact;

其中,基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征,包括:将特征矢量ξobs送入至多个全连接层进行维度变换,生成多头注意力的输入Query、Key和Value,其中Query、Key和Value值分别为特征矢量ξobs的三部分线性表示,以用于挖掘行人位置随时间变化的规律,采用多头注意力机制提取轨迹序列ξobs的时域隐含特征eatt,时域隐含特征eatt表示从多头注意力中提取出的行人空间位置变化的特征表示。

6.一种行人轨迹预测装置,其特征在于,包括:图像采集装置,所述图像采集装置采集场景的图像和/或视频;

第一数据处理模块,所述第一数据处理模块获取所述场景的图像和/或视频中的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;

编码器,所述编码器基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;

解码器,所述解码器至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;

生成器,所述生成器至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及第二数据处理模块,所述第二数据处理模块将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹;

其中,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:基于所述场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵,以及基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息;

其中,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,包括:将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs;

分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征;基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征;

其中,分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征,包括:分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度,得到各个行人的与其他各个行人的交互特征向量eact;

其中,基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征,包括:将特征矢量ξobs送入至多个全连接层进行维度变换,生成多头注意力的输入Query、Key和Value,其中Query、Key和Value值分别为特征矢量ξobs的三部分线性表示,以用于挖掘行人位置随时间变化的规律,采用多头注意力机制提取轨迹序列ξobs的时域隐含特征eatt,时域隐含特征eatt表示从多头注意力中提取出的行人空间位置变化的特征表示。

7.一种电子设备,其特征在于,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至4中任一项所述的方法。

8.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至4中任一项所述的方法。

说明书 :

行人轨迹预测方法、装置、电子设备及存储介质

技术领域

[0001] 本公开涉及计算机视觉技术领域及自动驾驶领域。本公开尤其涉及一种基于多视角变换的行人轨迹预测方法、装置、电子设备及存储介质。

背景技术

[0002] 轨迹预测任务目前主要应用于自动驾驶任务中,在自动驾驶场景中对其他交通参与者进行轨迹预测,对于实现更高级别的无人驾驶具有重要意义。自动驾驶感知系统性能
的提升,以及深度学习在时间序列模型上的进一步发展,都为轨迹预测任务的研究奠定了
基础。感知系统通过各种传感器获得目标历史位置信息并送入预测模型,模型在各种交通
场景中预测其他目标的未来轨迹。完成更精准的预测,就能利用其预测结果服务于自动驾
驶的控制和决策系统,从而更好的保证车辆和行人安全,提高道路交通的效率。
[0003] 目前,行人轨迹预测方法主要还是通过深度学习方法,如循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)等网络模型进行序列特征的提取,以上方法作为
组件,嵌入到编码器‑解码器的网络结构中,实现未来的轨迹预测。至今行人轨迹预测的研
究还有许多难点亟待解决,模型方法的学习能力和预测精度还有待进一步提升。
[0004] 现有技术中有以下典型的轨迹预测方法。
[0005] 方案一:2016年发表于CVPR会议的论文“Social lstm:Human trajectory prediction in crowded spaces”是一篇使用LSTM进行轨迹预测的经典方法,其构建的基
于数据驱动的模型,每个行人的历史轨迹序列作为LSTM的输入,在LSTM的每次迭代输出过
程中都经过其设计的“社交(Social)池化层”,用于去表征和整合与周围其他行人的交互,
输出的特征矢量作为下一时刻隐状态输入。此方案非常经典,但是LSTM模型参数较多,且在
每次迭代中又加入了处理效率更差的池化层,导致在简单的轨迹信息作为输入的情况下,
池化层难以学习到有用的交互特征,也导致模型在训练、参数更新时代价很高。其对于轨迹
的表示方法也较为单一,只有轨迹序列的简单输入。
[0006] 方案二:2018年发表于CVPR会议的论文“Social gan:Socially acceptable trajectories with generative adversarial networks”采用对抗生成网络的方法来实
现轨迹预测,并且采用了序列模型中常用的编码器‑解码器(Encoder‑Decoder)架构,以
LSTM作为时间序列特征提取的组件,嵌入在生成器和判别器的编码部分,每个场景中的轨
迹序列送入编码器中,提取的轨迹序列特征作为后续特征叠加的一部分。同时通过设计好
的社交池化层对不同行人轨迹之间的交互信息进行表征,这作为特征叠加的另一部分。以
上两部分特征送入解码器中进行轨迹预测,此方案采取的方法结构清晰明确,但是在提取
轨迹特征方面形式较为单一,在加入交互的池化后预测精度反而有所下降,说明其设计的
表征方法捕捉到的行人交互特征不够突出。且解码器在多轨迹生成时由于噪声的参与,生
成的多轨迹可能无法保证稳定性。
[0007] 方案三:2019年发表于CVPR会议的论文:“SR‑LSTM:State Refinement for LSTM towards Pedestrian Trajectory Prediction”采用基于LSTM的状态更新模块,其中轨迹
序列的特征提取和未来轨迹生成还是使用LSTM模块来实现,在序列特征提取之后,方案设
计了一个状态更新模型,它通过对预测目标周围相邻行人的意图估计,并以此为依据共同
迭代的更新了相邻行人的设定状态,通过设计的消息传递机制和社会意识选择机制来提取
行人之间的交互影响。整个方案采取的消息传递和状态更新机制非常新颖,但是状态更新
模块设计的比较复杂,造成模型参数多更新效率较低,可能导致交互的泛化能力不佳。
[0008] 方案四:专利文献CN112766561A提出了一种基于注意力机制和生成对抗网络的轨迹预测方法,序列特征提取的主要部件使用LSTM,其在编码器和解码器中添加了注意力池
化模块,为了刻画行人之间的运动影响,其将行人运动的速度矢量、距离矢量,以及运动矢
量的夹角也纳入考虑,并将以上矢量合并为特征矢量送入注意力模块进行权重分配。该方
案使用注意力机制来获取行人轨迹交互特征是可取的,但是其特征的设计方案,即多个手
工设计的矢量特征,其不同特征之间可能存在信息冗余,模型泛化能力下降。且使用参数较
多的LSTM作为解码器,当存在特征维度过大时,可能会导致计算代价较高。
[0009] 方案一和方案三分别利用设计好的池化层和状态更新模块进行不同行人之间的交互表征,这样设计的交互表征模块比较巧妙,但是在每个迭代过程中的特征矢量都需要
参与更新,导致模型的时间和空间复杂度较高,同时轨迹仅以简单的坐标序列作为单一输
入,模型泛化表征能力很难提高。方案二在方案一的基础上,使用对抗生成网络来进行轨迹
的生成,提高轨迹生成的多样性,简化了社交池化层,并去除了迭代过程中的池化层,提高
了模型的速度和精度。但是该表征交互的方式比较简单,当场景中行人数量过多时,不可避
免的将忽略一部分行人对目标的交互影响。方案四在方案二的基础上,通过手工设计的不
同行人的运动矢量以及矢量夹角来表征行人交互,进一步细化了交互特征,但是由于其多
个特征之间其实存在大量的信息冗余,模型的泛化表征能力难以保证。且方案二和方案四
在多轨迹生成时,无法保证多轨迹生成的稳定性。
[0010] 综上,目前的行人轨迹预测方法主要存在以下问题:
[0011] (1)泛化能力有待提高,在自动驾驶领域,需要更精确的预测能力、场景理解能力以及更快的处理速度,现在的主要方法在场景的理解方面较为单一,都是以世界坐标系下
统一的标准来考量轨迹坐标序列,并以一致的视角来考量轨迹序列信息。提高模型预测能
力,需要更大程度的挖掘历史轨迹信息带来的隐含特征。(2)同时编码器解码器的设计也需
要在维持精度的情况下,尽可能减少参数,从而减少模型的训练开销和推断时间。(3)模型
在多轨迹生成时,由于噪声的参与无法保证轨迹生成的稳定性。

发明内容

[0012] 为了解决上述技术问题中的至少一个,本公开提供一种基于多视角变换的行人轨迹预测方法、装置、电子设备及存储介质。
[0013] 本公开旨在设计一种通用的、泛化能力较强的行人轨迹预测方法,能够在复杂的行人交互场景中完成多轨迹的预测生成。首先针对上述(1)模型的场景理解和泛化能力有
待提高的问题,本公开提出多视角坐标系变换的方法,对于场景中多个行人各自的运动特
征,逐个建立自我视角坐标系,每个行人在其独特的自我视角坐标系下去观测其他行人的
轨迹,能够更大程度挖掘轨迹信息所隐含的特征。针对上述(2)模型复杂度和参数过多的问
题,本公开提出使用多头注意力机制来提取轨迹序列特征,通过多个注意力头来挖掘轨迹
序列在不同隐变量空间下的表征,在保证网络性能的同时大大减少网络参数,减少网络训
练所需代价。最后针对上述(3)对抗生成网络在多轨迹预测生成时缺乏稳定性的问题,多轨
迹生成需要加入噪声,但由于随机性会产生部分不可接受的轨迹,无法体现行人的主要运
动意图。本公开针对此问题,提出在多轨迹预测中,通过对多条生成轨迹的误差分布进行约
束,选取部分轨迹误差Loss叠加计算,在保证轨迹生成多样性的同时,提高生成器预测的稳
定性。
[0014] 本公开的基于多视角变换的行人轨迹预测方法、装置、电子设备及存储介质通过以下技术方案实现。
[0015] 根据本公开的一个方面,提供一种行人轨迹预测方法,包括:
[0016] 获取场景的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;
[0017] 基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0018] 至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及,
[0019] 至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0020] 根据本公开的至少一个实施方式的行人轨迹预测方法,获取场景的至少一个行人的观测轨迹信息,包括:
[0021] 由所述场景的图片和/或视频中获取各个行人的世界坐标系下的位置信息,并生成所述观测轨迹信息;以及,
[0022] 提取所述场景中大于或者大于等于预设长度的行人的观测轨迹信息及相应的行人的识别号。
[0023] 根据本公开的至少一个实施方式的行人轨迹预测方法,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:
[0024] 基于所述场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵;以及,
[0025] 基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息。
[0026] 根据本公开的至少一个实施方式的行人轨迹预测方法,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,包
括:
[0027] 将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs;
[0028] 分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征;以及,
[0029] 基于全连接层以及多头注意力机制提取所述特征矢量ξobs的时域隐含特征eatt,即运动趋势特征。
[0030] 根据本公开的至少一个实施方式的行人轨迹预测方法,基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征,还
包括:
[0031] 将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量。
[0032] 根据本公开的至少一个实施方式的行人轨迹预测方法,将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs,包括:
[0033] 对各个行人的自我视角下的自我视角观测轨迹信息进行升维处理,使得所述自我视角观测轨迹信息的位置表达由二维升至预设维度D,得到各个行人的表示行人空间位置
的特征向量eobs,嵌入位置编码,生成嵌入位置编码后的特征矢量ξobs,其中,特征向量eobs基
于全连接层通过以下公式获得:
[0034] eobs=φ(Xview;Wg)
[0035] 其中,φ(·)表示全连接层,Wg为全连接层的权重,Xview为各个行人在自我视角下的自己的观测轨迹序列;
[0036] 其中,嵌入位置编码,生成嵌入位置编码后的特征矢量ξobs包括:
[0037] 将特征向量eobs与特征向量pobs相加,得到所述特征向量ξobs;
[0038] 其中,特征向量pobs为是不同帧及不同维度的特征向量,通过以下公式获得:
[0039]
[0040]
[0041] 其中,PE为二维矩阵,PE(·)表示矩阵中参数的索引,矩阵大小与所述特征向量eobs相同,t表示序列的时间步长d表示D维中的每一个维度。
[0042] 根据本公开的至少一个实施方式的行人轨迹预测方法,分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征,
包括:
[0043] 分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度D,得到
各个行人的与其他各个行人的交互特征向量eact,所述交互特征向量eact通过以下公式获
得:
[0044] eact=φ(Xview;Wg);
[0045] 其中,Xview为各个行人在自我视角下的其他行人的观测轨迹序列。根据本公开的至少一个实施方式的行人轨迹预测方法,基于全连接层以及多头注意力机制提取所述特征
矢量ξobs的时域隐含特征eatt,包括:
[0046] 将所述特征矢量ξobs送入至多个全连接层进行维度变换,生成多头注意力的输入Query、Key和Value,其中Query、Key和Value值分别
[0047] 为特征矢量ξobs的三部分线性表示,以用于挖掘行人位置随时间变化的规律。
[0048] 根据本公开的至少一个实施方式的行人轨迹预测方法,使用四个全连接层对特征矢量ξobs进行所述维度变换:
[0049]
[0050] 其中,l表示四个自注意力头的全连接层的标号, 表示四个全连接层的权重,下标a为全连接层的标识。
[0051] 根据本公开的至少一个实施方式的行人轨迹预测方法,采用多头注意力机制提取轨迹序列ξobs的时域隐含特征eatt,包括:
[0052] 使用以下公式进行提取:
[0053]
[0054] headl=Attention(Queryl,Keyl,Valuel)l=1,2,3,4
[0055] MultiHead=φ(Concat(head1,head2,...,headl);Wb)
[0056] 其中,softmax为归一化函数,dk为Key的维度,Concat操作用于连接多个矢量,Wb表示φ(·)全连接网络中的权重参数,MultiHead提取出的特征表示即为时域隐含特征eatt。
[0057] 根据本公开的至少一个实施方式的行人轨迹预测方法,将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量,包括:
[0058] 将所述时域隐含特征eatt、交互特征向量eαct以及高斯噪声Z矢量进行Concat操作,得到编码器的最终输出eencoder,即融合特征矢量。
[0059] 根据本公开的至少一个实施方式的行人轨迹预测方法,至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信
息,包括:
[0060] 将所述最终输出eencoder送入解码器,解码器基于eencoder和各个行人已有的预测轨迹特征edecoder,通过迭代的方式输出未来的轨迹序列位置,即各个行人的自我视角下的未
来位置信息。
[0061] 根据本公开的至少一个实施方式的行人轨迹预测方法,将所述最终输出eencoder送入解码器,解码器基于eencoder和各个行人已有的预测轨迹特征edecoder,通过迭代的方式输出
未来的轨迹序列位置,其中,每次迭代包括:
[0062] 对各个行人的已有的预测轨迹序列 进行编码操作,获得编码特征ξpred;
[0063] 基于所述编码特征ξpred获取所述已有的预测轨迹特征edecoder;
[0064] 基于所述eencoder以及当前的edecoder做自注意力机制的特征提取,以获得当前的特征矢量edeatt:
[0065]
[0066] 其中,dencoder为eencoder的维度大小,上角标T表示矩阵转置, 为当前的edecoder;以及,
[0067] 基于当前的edeatt预测新的位置点坐标
[0068] 根据本公开的至少一个实施方式的行人轨迹预测方法,基于当前的edeatt(即)获取新的位置点坐标 通过以下公式获取:
[0069]
[0070] 其中, 为迭代pt帧时刻的预测坐标,Wy为全连接层的参数,下标y为全连接层的标识。
[0071] 根据本公开的至少一个实施方式的行人轨迹预测方法,新的位置点坐标 被存储至 以在下次迭代时重新计算得到edecoder,并进行新的位置预测。
[0072] 根据本公开的至少一个实施方式的行人轨迹预测方法,基于当前的edeatt(即)获取新的位置点坐标 通过以下公式获取:
[0073]
[0074] 其中, 为迭代pt帧时刻的预测坐标,Wy为全连接层的参数,下标y为全连接层的标识。
[0075] 根据本公开的至少一个实施方式的行人轨迹预测方法,新的位置点坐标 被存储至 以在下次迭代时重新计算得到edecoder,并进行新的位置预测。
[0076] 根据本公开的至少一个实施方式的行人轨迹预测方法,在训练过程中使用误差损失函数进行训练。
[0077] 根据本公开的至少一个实施方式的行人轨迹预测方法,至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,包括:
[0078] 在训练过程中,对于每个行人生成k条轨迹,且在计算loss时,使用其中n条轨迹误差 作为误差累计,并更新编码器‑解码器模型的参数:
[0079]
[0080] 根据本公开的至少一个实施方式的行人轨迹预测方法,在训练过程中,对多条轨迹生成后的误差分布进行约束,根据多条轨迹误差分布的均值和标准差来设定阈值,以表
示对轨迹随机性过大的惩罚:
[0081]
[0082]
[0083] 其中, 为生成k条轨迹误差分布的均值, 为分布的标准差。
[0084] 根据本公开的至少一个实施方式的行人轨迹预测方法,所述n条轨迹通过以下方法选择:
[0085] 选取误差值在对应分布 阈值区间内的n条轨迹,舍弃误差值超过所述阈值区间的轨迹,被舍弃的轨迹的误差不进行累计计算,误差值在所述阈值区间的n条
轨迹的误差被累计平均,作为编码器‑解码器模型的误差。
[0086] 根据本公开的另一个方面,提供一种行人轨迹预测装置,包括:
[0087] 第一数据处理模块,所述第一数据处理模块获取场景的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信
息;
[0088] 编码器,所述编码器基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0089] 解码器,所述解码器至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;
[0090] 生成器,所述生成器至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及,
[0091] 第二数据处理模块,所述第二数据处理模块将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0092] 根据本公开的又一个方面,提供一种行人轨迹预测装置,包括:
[0093] 图像采集装置,所述图像采集装置采集场景的图像和/或视频;
[0094] 第一数据处理模块,所述第一数据处理模块获取所述场景的图像和/或视频中的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视
角下的自我视角轨迹信息;
[0095] 编码器,所述编码器基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0096] 解码器,所述解码器至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;
[0097] 生成器,所述生成器至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及,
[0098] 第二数据处理模块,所述第二数据处理模块将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0099] 根据本公开的再一个方面,提供一种电子设备,包括:
[0100] 存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
[0101] 根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

[0102] 附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本
说明书的一部分。
[0103] 图1是本公开的一个实施方式的行人轨迹预测方法的流程示意图。
[0104] 图2是图1中的步骤S110的优选实施方式的处理流程。
[0105] 图3是本公开一个实施方式的世界坐标系与每个行人自我视角坐标系的转换示意图。
[0106] 图4是图1中的步骤S120的优选实施方式的处理流程。
[0107] 图5是本公开一个实施方式的轨迹误差选取的示意图。
[0108] 图6是本公开的一个实施方式的采用处理系统的硬件实现方式的行人轨迹预测装置1000的结构示意图。
[0109] 附图标记说明
[0110] 1000 行人轨迹预测装置
[0111] 1002 第一数据处理模块
[0112] 1004 编码器
[0113] 1006 解码器
[0114] 1008 生成器
[0115] 1010 第二数据处理模块
[0116] 1100 总线
[0117] 1200 处理器
[0118] 1300 存储器
[0119] 1400 其他电路。

具体实施方式

[0120] 下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为
了便于描述,附图中仅示出了与本公开相关的部分。
[0121] 需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0122] 除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则
在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分
离、互换和/或重新布置。
[0123] 在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性
质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏
好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺
寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺
序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。
此外,同样的附图标记表示同样的部件。
[0124] 当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以
存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”
另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或
不具有中间部件。
[0125] 本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包
括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明
存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个
或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使
用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,
它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏
差。
[0126] 下文参考图1至图6对本公开的行人轨迹预测方法及行人轨迹预测装置进行详细说明。
[0127] 图1是本公开的一个实施方式的行人轨迹预测方法的流程示意图。参考图1,行人轨迹预测方法S100包括:
[0128] S110、获取场景的至少一个行人的观测轨迹信息,将各个行人的观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;
[0129] S120、基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0130] S130、至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及,
[0131] S140、至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0132] 其中,场景可以是汽车在自动驾驶过程(也可以是非自动驾驶过程)中,图像采集装置的视野区域内的一个交通场景。图像采集装置可以采集图像和/或视频。图像采集装置
可以是能够被设置于各种车辆的自动驾驶系统的各种类型的图像采集设备。其中,观测轨
迹信息为世界坐标系下的轨迹信息。
[0133] 其中,在步骤S110中,可以首先对各种不同类型的数据集进行预处理,得到场景中满足长度要求的轨迹序列,以及每个时刻位置、识别ID号,根据每个行人的历史观测轨迹,
逐个计算世界坐标系到行人自我视角坐标系的变换矩阵,将每个行人的轨迹坐标转换到自
我坐标系下,得到多个视角下的轨迹序列。在步骤S120中,优选地将每个行人自我视角下的
轨迹坐标作为输入,送入以多头注意力为基础的编码器中,提取出的特征作为运动趋势的
表征,同时在每个行人的自我坐标系下观测其他行人的最后位置坐标,这部分坐标信息通
过全连接层进行编码,提取出的特征作为多视角下的交互特征,随后进行运动趋势特征、多
视角下的交互特征以及噪声进行融合。在步骤S130中,进行融合后的特征整体送入以多头
注意力为基础的解码器中,迭代输出未来的轨迹位置。其中在训练过程中,对训练误差进行
约束,以提高多轨迹生成的稳定性。在步骤S140中,优选地通过生成器一次生成多条轨迹,
并将行人在自我视角坐标系下的轨迹转换回世界坐标系,得到最后的预测结果。
[0134] 根据本公开的优选实施方式的行人轨迹预测方法S100,上述实施方式中,获取场景的至少一个行人的观测轨迹信息,包括:
[0135] S111、由场景的图片和/或视频中获取各个行人的世界坐标系下的位置信息,并生成观测轨迹信息;以及,
[0136] S112、提取场景中大于或者大于等于预设长度的行人的观测轨迹信息及相应的行人的识别号(ID)。
[0137] 其中,上文描述的预设长度可以通过帧长度的方式表示。
[0138] 在步骤S112中,从场景的图片和/或视频中获取的数据集(行人的观测轨迹信息及相应的行人的识别号(ID)优选地满足观测长度和预测长度的观测轨迹信息(观测轨迹序
列)。
[0139] 对于场景C,观测轨迹序列 表示时间步长t=1,…,tobs下的轨迹位置(轨迹坐标),下文描述的模型训练时输入的真实轨迹序列 表示时间步长t
=tobs+1,...,tpred下的轨迹位置,预测的轨迹序用 表示。
[0140] X,Y,分别表示所有场景下行人的轨迹序列。其中上标C表示第C个场景,下标i表示n个行人中的第i个,上标t表示对应的时间帧刻度,obs表示观测序列帧长度,pred表示预
测序列帧长度。
[0141] 在进行模型训练时,训练数据序列长度应至少满足大于或等于obs+pred,而进行预测推断时序列长度至少满足大于或等于obs,并根据场景的不同分别保存行人的识别号
其中ped_id表示每个行人独有的ID号,以便区分不同行人的轨迹信息。
[0142] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,将各个行人的观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:
[0143] S113、基于场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵;以及,
[0144] S114、基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息。
[0145] 通过为场景中观测轨迹信息满足预设长度的行人生成坐标系变化矩阵,将各个行人的观测轨迹信息转换为自我视角轨迹信息,可以生成多条自我视角轨迹信息。
[0146] 根据本公开的一个实施方式,根据场景C中不同行人的历史观测轨迹 计算每个行人从世界坐标系到自我视角坐标系的坐标系变换矩阵(优选为旋转和平移矩阵),图3为
世界坐标系与每个行人自我视角坐标系的转换示意图。
[0147] 优选地,上述旋转和平移矩阵通过以下步骤获取:
[0148] 首先,获取在某场景C中行人i的观测轨迹序列
[0149] 行人自我视角坐标系以观测起始点(行人初始位置)为原点,以行人出发位置到最后观测位置为矢量,作为自我视角坐标系的x轴,另一坐标轴y为垂直于x轴的方向;
[0150] 构建世界坐标系到自我视角坐标系的平移和旋转变换矩阵T:
[0151]
[0152] 其中Δxi和Δyi为场景中第i个行人自我坐标系原点与世界坐标系原点的差值,θi为第i个行人自我视角坐标系与世界坐标系之间的逆时针旋转角度。
[0153] 图3示例性地示出了世界坐标系与每个行人自我视角坐标系的转换示意图。
[0154] 更优选地,Δxi、Δyi及θi通过以下公式获取:
[0155]
[0156]
[0157] 基于上述变换矩阵T,可将场景C中的行人轨迹从世界坐标系分别转换到各自的自我视角坐标系下,如下式:
[0158]
[0159] 用 表示场景C中第i个行人的自我视角坐标系下的观测轨迹序列(t=1,…,obs),用 表示未来真实轨迹坐标(t
=obs+1,…,pred), 则为推断的预测轨迹序列(即未来轨迹序列),同时也保存至
同一场景C中。
[0160] 图2示出了上述步骤S110的优选实施方式的处理流程。
[0161] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,S120、基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特
征,参考图4,包括:
[0162] S121、将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs;
[0163] S122、分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征;以及,
[0164] S123、基于全连接层以及多头注意力机制提取特征矢量ξobs的时域隐含特征eatt,即运动趋势特征。
[0165] 其中,时域隐含特征eatt表示从多头注意力中提取出的行人空间位置变化的特征表示。
[0166] 更优选地,还包括:
[0167] S124、将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量。
[0168] 本实施方式中,基于融合特征矢量生成各个行人的自我视角下的未来位置信息。
[0169] 优选地,在步骤S121中,在训练过程中和预测过程中,每一批输入的轨迹序列(自我视角观测轨迹信息)需要是同一场景中的轨迹,对输入的轨迹序列,首先经过全连接层将
坐标信息从二维扩展到更高维度D,以便在更高的维度充分表示行人空间位置信息。
[0170] 优选地,上述各个实施方式的行人轨迹预测方法S100,优选地,S121、将各个行人的自我视角下的自我视角观测轨迹信息嵌入时间信息,获得特征矢量ξobs,包括:
[0171] 对各个行人的自我视角下的自我视角观测轨迹信息进行升维处理,使得自我视角观测轨迹信息(即输入的观测轨迹序列)的位置表达由二维升至预设维度(D),得到各个行
人的表示行人空间位置的特征向量eobs,嵌入位置编码,生成嵌入位置编码后的特征矢量
ξobs,其中,特征向量eobs基于全连接层通过以下公式获得:
[0172] eobs=φ(Xview;Wg);
[0173] 其中,φ(·)表示全连接层,Wg为全连接层的权重,Xview为各个行人在自我视角下的自己的观测轨迹序列;
[0174] 其中,嵌入位置编码,生成嵌入位置编码后的特征矢量ξobs,包括:
[0175] 将特征向量eobs与特征向量pobs相加,得到特征向量ξobs;
[0176] 其中,特征向量pobs为是不同帧及不同维度的特征向量,通过以下公式获得:
[0177]
[0178]
[0179] 其中,PE为二维矩阵,PE(·)表示矩阵中参数的索引(均为可学习的权重),矩阵大小与特征向量eobs相同,t表示序列的时间步长(即帧位置)d表示D维中的每一个维度。
[0180] 通过本实施方式的上述步骤,得到了各个行人的观测轨迹序列有时间位置编码情况下的空间位置信息表示ξobs。
[0181] 根据本公开的优选实施方式的行人轨迹预测方法S100,其中,S122、分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人
的交互特征,包括:
[0182] 分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度(D),得
到各个行人的与其他各个行人的交互特征向量eact,交互特征向量eact通过以下公式获得:
[0183] eact=φ(XvieW;Wg);
[0184] 其中,Xview为各个行人在自我视角下的其他行人的观测轨迹序列。
[0185] 本实施方式中,优选地,交互特征向量eact的生成方式与上文描述的特征向量eobs的生成方式相同,即采用相同的处理过程生成。
[0186] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,S123、基于全连接层以及多头注意力机制提取特征矢量ξobs的时域隐含特征eatt,包括:
[0187] 将特征矢量ξobs送入至多个全连接层进行维度变换,生成多头注意力的输入Query、Key和Value,其中Query、Key和Value值分别为特征矢量ξobs的三部分线性表示,以用
于挖掘行人位置随时间变化的规律。
[0188] 根据本公开优选的实施方式,使用四个全连接层对特征矢量ξobs进行维度变换:
[0189]
[0190] 其中,l表示四个自注意力头的全连接层的标号, 表示四个全连接层的权重,下标a为全连接层的标识,无其他含义,表明得到的query/key/value的全连接层参数都是Wa。
[0191] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,步骤S123中的采用多头注意力机制提取轨迹序列ξobs的时域隐含特征eatt,包括:
[0192] 使用以下公式进行提取:
[0193]
[0194] headl=Attention(Queryl,Keyl,Valuel)l=1,2,3,4
[0195] MultiHead=φ(ConCat(head1,head2,..,headl);Wb)
[0196] 其中,softmax为归一化函数,dk为Key的维度,Concat操作用于连接多个矢量,Wb表示φ(·)全连接网络中的权重参数,MultiHead提取出的特征表示即为时域隐含特征eatt,
上标T表示矩阵转置。
[0197] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,S124、将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量,包
括:
[0198] 将时域隐含特征eatt、交互特征向量eact以及高斯噪声Z矢量进行Concat操作,得到编码器的最终输出eencoder,即融合特征矢量。
[0199] 其中,高斯噪声Z矢量为实现多轨迹预测时需要通过从高斯分布中采样得到的矢量表示Z。
[0200] 本实施方式通过Concat操作将行人空间位置变化的表示eatt、行人交互影响的表示eact及高斯噪声Z矢量进行融合,能够更为全面的获取场景中行人运动轨迹的规律。
[0201] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,S130、至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未
来位置信息,包括:
[0202] 将编码器的最终输出eencoder送入解码器,通过迭代的方式输出未来的轨迹序列位置,即各个行人的自我视角下的未来位置信息。
[0203] 对于上述各个实施方式的行人轨迹预测方法S100,至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息,
包括:
[0204] 将最终输出eencoder送入解码器,解码器基于eencoder和各个行人已有的预测轨迹特征edecoder,通过迭代的方式输出未来的轨迹序列位置,即各个行人的自我视角下的未来位
置信息。
[0205] 对于上述实施方式的行人轨迹预测方法S100,优选地,将最终输出eencoder送入解码器,解码器基于eencoder和各个行人已有的预测轨迹特征edecoder,通过迭代的方式输出未来
的轨迹序列位置,其中,每次迭代包括:
[0206] 对各个行人的已有的预测轨迹序列 进行编码操作,获得编码特征ξpred;
[0207] 基于编码特征ξpred获取已有的预测轨迹特征edecoder;
[0208] 基于eencoder以及当前的edecoder做自注意力机制的特征提取,以获得当前的特征矢量edeatt:
[0209]
[0210] 其中,dencoder为eencoder的维度大小,上角标T表示矩阵转置, 为当前的edecoder;以及,
[0211] 基于当前的edeatt预测新的位置点坐标
[0212] 对于上述实施方式的行人轨迹预测方法S100,优选地,基于当前的edeatt(即)获取新的位置点坐标 通过以下公式获取:
[0213]
[0214] 其中, 为迭代pt帧时刻的预测坐标,Wy为全连接层的参数,下标y为全连接层的标识,无其他含义。
[0215] 对于上述实施方式的行人轨迹预测方法S100,优选地,新的位置点坐标 被存储至 以在下次迭代时重新计算得到edecoder,并进行新的位置预测。优选地,
在训练过程中,每个时刻(帧时刻)的编码只考虑其之前时刻(帧时刻)的轨迹位置信息,其
余时刻轨迹位置信息设置为零;在预测过程中,则将预测初始时刻(帧时刻)坐标初始化为
零,每次预测新的下一时刻(帧时刻)坐标,同时更新预测序列 和编码特征
[0216] 优选地,新的位置点坐标 被存储至 以在下次迭代时重新计算得到edecoder,并进行新的位置预测。
[0217] 优选地,在训练过程中使用误差损失函数进行训练。
[0218] 优选地,使用以下误差损失函数(标准的对抗生成网络损失函数loss):
[0219]
[0220] 其中,G为生成器,代表生成轨迹过程中的各个内部模块,其中x~Pdata(χ)表示来自真实的数据分布,z~p(z)表示来自生成器生成的数据分布,其中D表示判别器,判别器具体
表示为:
[0221] D(z)=φ(z;Wz)
[0222] 其中,z表示生成的数据,即表示生成器生成的预测轨迹,Wz表示全连接层网络的网络参数。
[0223] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,S140中的至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,包
括:
[0224] 在训练过程中,对于每个行人生成k条轨迹,且在计算loss时,使用其中n条轨迹误差 作为误差累计,并更新编码器‑解码器模型的参数:
[0225]
[0226] 其中,本领域技术人员可以对k和n的数值进行合适的选择,一般地,n小于k。
[0227] 在预测过程中,则只需要通过生成器直接生成轨迹,本领域技术人员可设置生成的轨迹的数量(k条),以完成各个行人的自我视角下的未来轨迹的预测,即得到
[0228] 对于每个行人的未来轨迹 需将其从自我视角坐标系中变换回世界坐标系中以获得最后的输出,即在世界坐标系下的预测轨迹序列
[0229]
[0230] 对于上述各个实施方式的行人轨迹预测方法S100,优选地,在训练过程中,对多条轨迹生成后的误差分布进行约束,根据多条轨迹误差分布的均值和标准差来设定阈值,以
表示对轨迹随机性过大的惩罚:
[0231]
[0232]
[0233] 其中, 为生成k条轨迹误差分布的均值, 为分布的标准差。
[0234] 优选地,上文描述的n条轨迹通过以下方法选择:
[0235] 选取误差值在对应分布 阈值区间内的n条轨迹,舍弃误差值超过阈值区间的轨迹,被舍弃的轨迹的误差不进行累计计算,误差值在阈值区间的n条轨迹的误
差被累计平均,作为编码器‑解码器模型的误差。
[0236] 图5为本公开一个实施方式的轨迹误差选取的示意图。参考图5,示例性地,为k=8时的预测结果,只选取阴影部分的n=4条轨迹计算累计误差。通过上述n条轨迹的选择,保
证了轨迹预测的稳定性。
[0237] 对于上文描述的各个实施方式的行人轨迹预测方法的各个步骤,均可以通过执行计算机程序的方式实现。
[0238] 通过本公开的基于多视角坐标系变换及多头注意力机制的行人轨迹预测方法,对于场景中出现的每个行人,逐个建立其独特的自我视角坐标系。将在世界坐标系下的轨迹
序列,分别转换到多个自我视角坐标系下,模仿行人的自我运动意图和社交意图,并使用多
头注意力机制对多视角坐标系下的轨迹进行序列特征提取,在对抗生成网络架构的基础
上,训练过程中采用多轨迹误差选择性叠加,以保证多轨迹生成时的稳定性,最终构成了一
种完善的、计算效率高、泛化能力突出、稳定性强的行人轨迹预测方法。
[0239] 本公开的行人轨迹预测方法,是一种多视角坐标系变换的轨迹表征方法,基于每个行人的自我运动趋势,逐个建立其独特的自我视角坐标系,轨迹坐标被转换到自我视角
坐标系下,以此来模仿每个行人在运动时以自我为中心的考量,更接近行人行为习惯,能够
在轨迹序列中挖掘出行人自我运动的趋势,提高模型泛化能力和预测精度。
[0240] 进一步地,在每个行人的自我坐标系下观测其他行人的轨迹坐标变化,模仿每个行人在运动时以自我角度来观测其他人的行为,这更加符合实际的社交惯例。提取的特征
作为交互影响的表示,在行人交互表征上更为合理,能够提高轨迹预测精度。
[0241] 本公开的行人轨迹预测方法,在多轨迹生成后,根据生成多轨迹误差的分布,选取误差值在分布规定区间内的轨迹,并将其轨迹误差累加平均,作为模型的损失误差,再进行
反向传播和训练,能够在保证轨迹生成多样性的同时,体现行人主要的运动意图,提升模型
预测的稳定性。
[0242] 本公开中,编码器‑解码器中的时间序列提取模块有多种模块可以使用,例如LSTM、GRU都可作为方案中多头注意力的替代方式,但是在速度上会有一定损失。
[0243] 本公开中,多视角坐标系的建立方式,也可以利用观测轨迹序列信息,计算朝向夹角后,以世界坐标系逆时针旋转或顺时针旋转,来建立多视角的坐标系。
[0244] 本公开还提供了行人轨迹预测装置。
[0245] 根据本公开的一个实施方式,行人轨迹预测装置1000包括:
[0246] 第一数据处理模块1002,第一数据处理模块1002获取场景的至少一个行人的观测轨迹信息,将各个行人的观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信
息;
[0247] 编码器1004,编码器1004基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0248] 解码器1006,解码器1006至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;
[0249] 生成器1008,生成器1008至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及,
[0250] 第二数据处理模块1010,第二数据处理模块1010将自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0251] 其中,行人轨迹预测装置1000可以通过软件架构的方式实现。
[0252] 图6示出了采用处理系统的硬件实现方式的行人轨迹预测装置1000的结构。
[0253] 该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个
或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配
置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、
或者通过某种组合来实现。
[0254] 参考图6,该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个
处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外
围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
[0255] 总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,
Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控
制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型
的总线。
[0256] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开
的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。
例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,
例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口
而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方
法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式
(例如,借助于固件)而被配置为执行上述方法之一。
[0257] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系
统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指
令执行系统、装置或设备而使用。
[0258] 就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部
(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦
除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另
外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通
过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理
来以电子方式获得程序,然后将其存储在存储器中。
[0259] 应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实
现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的
任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑
电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵
列(FPGA)等。
[0260] 本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种可读存储介质中,该程序在
执行时,包括方法实施方式的步骤之一或其组合。
[0261] 此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的
模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果
以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储
介质中。存储介质可以是只读存储器,磁盘或光盘等。
[0262] 根据本公开的又一个实施方式的行人轨迹预测装置1000,包括:
[0263] 图像采集装置,图像采集装置采集场景的图像和/或视频;
[0264] 第一数据处理模块1002,第一数据处理模块1002获取场景的图像和/或视频中的至少一个行人的观测轨迹信息,将各个行人的观测轨迹信息转换为各个行人的自我视角下
的自我视角轨迹信息;
[0265] 编码器1004,编码器1004基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;
[0266] 解码器1006,解码器1006至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;
[0267] 生成器1008,生成器1008至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹;以及,
[0268] 第二数据处理模块1010,第二数据处理模块1010将自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。
[0269] 本实施方式的行人轨迹预测装置1000,可以上述各个实施方式的行人轨迹预测装置1000的基础上,进一步包括图像采集装置。
[0270] 本公开的行人轨迹预测装置(行人轨迹预测方法)可用于安防或自动驾驶的感知模块,通过预测道路交通中行人的未来轨迹,提升车辆的决策规划能力,从而保证道路安全
和效率。
[0271] 本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他
硬件模块执行上述的行人轨迹预测方法。
[0272] 本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的行人轨迹预测方法。
[0273] 在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体
特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书
中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体
特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结
合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方
式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
[0274] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0275] 本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可
以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。