基于多注意力机制的动态图像的光流图生成方法和系统转让专利
申请号 : CN202110850016.1
文献号 : CN113554039B
文献日 : 2022-02-22
发明人 : 刘文印 , 方桂标 , 陈俊洪 , 梁达勇
申请人 : 广东工业大学
摘要 :
权利要求 :
1.基于多注意力机制的动态图像的光流图生成方法,其特征在于,包括如下步骤:提取第一输入图像中每个像素的特性,得到第一稠密特征图,提取第二输入图像中每个像素的特性,得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵,所述多注意力Transformer包含自注意力层和交叉注意力层;
设定初始光流为0,按照预定迭代次数对所述初始光流进行迭代处理,得到当前光流;
基于所述当前光流和所述匹配矩阵,得到残差光流;
对所述残差光流和所述当前光流进行卷积处理,得到光流图,所述光流图用于动态图像中物体运动趋势的预测;
得到所述第一稠密特征图和所述第二稠密特征图的方法包括:使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理,具体的,分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图,分别得到所述第一稠密特征图和所述第二稠密特征图。
2.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述匹配矩阵的方法包括:将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征;
将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
使用所述多注意力Transformer对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征;
使用所述多注意力Transformer对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征;
使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵。
3.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,所述位置编码以正弦格式给定每个像素的位置信息。
4.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,所述Transformer为线性多注意力Transformer。
5.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述残差光流的方法包括:同时对所述当前光流和所述匹配矩阵进行卷积计算,再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据;
对所述卷积GRU输入数据进行卷积操作,得到所述残差光流。
6.根据权利要求5所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述光流图的方法包括:
使用所述残差光流补偿所述当前光流,得到当前光流的下一迭代光流;
对所述下一迭代光流进行迭代处理,得到最终光流;
使用归一化卷积上采样操作对所述最终光流进行恢复,得到所述光流图。
7.基于多注意力机制的动态图像的光流图生成系统,其特征在于,包括:特征提取模块、特征匹配模块和光流更新模块;
所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图,以及从第二输入图像中提取得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵;
所述光流更新模块用于基于初始光流和所述匹配矩阵,得到当前光流和残差光流,根据所述第一稠密特征图、所述残差光流和所述当前光流,得到光流图,所述光流图用于动态图像中物体运动趋势的预测;
所述特征匹配模块包括:展平编码单元、多注意力Transformer单元和可微匹配单元;
所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征,以及将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征,以及对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征,所述多注意力Transformer单元采用线性多注意力Transformer;
所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵;
所述特征提取模块包括残差网络;
所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理,具体的,分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图,分别得到所述第一稠密特征图和所述第二稠密特征图。
说明书 :
基于多注意力机制的动态图像的光流图生成方法和系统
技术领域
背景技术
策略,从而实现准确避障。传统方法通过超声波测距仪、激光雷达、红外传感器等传感器获
取环境中障碍物的距离和分布信息,从而实现避障。虽然传统方法已经取得了很大进展,但
是这些测距避障方式存在避障死角。而基于光流进行避障可有效规避避障死角,避障的可
靠性更高,并且这种方法非常接近人类的视觉认知行为,对视觉信息采集设备要求较低。机
器人在弱纹理、遮挡等复杂环境中作业时如何进行实时光流估计是移动机器人避障领域研
究的重要课题。
行避障任务要求光流预测系统具备实时性、适应能力以及模型泛化能力。而在实际作业场
景中,弱纹理、物体遮挡和光线不足等是阻碍移动机器人获取准确光流的棘手问题。因而结
合局部信息和全局信息对于获取更准确的光流信息具有重要意义。
过于复杂,特别是在特征提取和匹配方面需要多重分支结构和金字塔结构,使得模型训练
和测试时间过长;现有技术普遍采用构建匹配成本量作为特征匹配模块,这种方法的匹配
精度不高,限制了后续光流估计的结果。
发明内容
再通过对原始图像卷积处理,引入当前光流、残差光流概念,与匹配矩阵结合,得到最终的
光流图,克服传统方式中容易遗漏细节信息、结构复杂且精度低的缺陷。
图像中前后连续的两幅图像;
中前后连续的两幅图像;
于动态图像中物体运动趋势的预测。
对应的位置编码,得到第二输入图像一维特征;
Transformer特征;
有效改善现有技术中因分辨率低导致遗漏小物体问题,能够有效识别并处理快速移动的小
物体;提高了动态图像中物体运动趋势预测的准确度;使用残差网络和多注意力
Transformer来进行特征提取与匹配,确保了光流实时预测与识别;使用自注意力和交叉注
意力机制的Transformer来对特征进行匹配,实现局部信息与全局信息的结合,提高了匹配
精度;本申请提高了光流图估计的效率、准确性和鲁棒性,增强了模型的泛化能力,即使处
于极端环境也能实现光流图估计。
附图说明
人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
图像进行处理生成光流图为例展开说明,具体包括如下步骤:
的运动物体。使用残差网络分别提取出I1、I2中每个像素的特征,具体为:分别将I1和I2映射
到分辨率为原始输入图像1/8的稠密特征图,得到第一稠密特征图F1和第二稠密特征图F2。
格式给定每个像素的位置信息;再使用线性多注意力Transformer分别对第一输入图像一
维特征和第二输入图像一维特征进行特征处理,得到第一图像Transformer特征F1’和第二
图像Transformer特征F2’,最后使用双softmax算子匹配第一图像Transformer特征和第二
图像Transformer特征,得到匹配矩阵P。
F1叠加组成卷积GRU的输入,卷积GRU的输出再经过卷积操作得到残差光流Δf,其分辨率为
原来的1/8。
显示了基于I1、I2两幅图像的各种物体的运动趋势,包括各种人物、车辆、及其他相对于无人
驾驶车辆的运动物体的速度大小、方向、轮廓等,从而为自动导航系统提供了周边环境中各
种物体的运动趋势,为下一步导航控制提供了参照数据。
I2中均包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。通过残差网络,分
别将I1和I2映射到分辨率为原始输入图像1/8的稠密特征图,得到第一稠密特征图F1和第二
稠密特征图F2。残差网络由2个卷积层和6个残差单元组成,1/2、1/4和1/8分辨率中各有2个
残差单元,具体参数如图3所示。
围的关键。
中,位置编码以正弦格式给定每个元素的位置信息。将位置编码添加到像素特征,变换后特
征具有位置依赖性,这对于模糊区域的匹配能力很重要。
Transformer现有理论的处理流程如图4所示。在本实施例中,多注意力Transformer单元采
用线性多注意力Transformer,其中包含了N个交错分布的自注意力层和交叉注意力层。线
性Transformer将普通Transformer中注意力层的相似度函数替换为sim(Q,K)=φ(Q)·φ
T
(K) ,其中φ(·)=elu(·)+1,elu(·)为指数线性单元激活函数,Q、K和V分别为注意力层
输入中的查询向量、键向量和值向量,上标T表示矩阵转置,而WQ、WK和WV分别为查询权重矩
阵、键权重矩阵和值权重矩阵,这三个矩阵均由网络学习得到的。其中,对于自注意力层,输
入特征gi和gj是一样的(全为F1或全为F2)。对于交叉注意力层,输入特征gi和gj为F1和F2或F2
和F1。线性Transformer将普通Transformer中的点积注意力替换为线性注意力,使得计算
2
复杂度从O(n)降低到O(n),其中n为Transformer输入向量的长度。多注意力Transformer
提取位置和上下文相关的局部特征,从而将特征变换为易于匹配的特征表示。
特征的得分矩阵S,然后再通过P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i计算得到
匹配矩阵P,上述的i和j分别表示矩阵的i行和第j列,||·||2为欧几里德范数,而softmax
为归一化指数函数。
寸后,再与原始图像I1的第一稠密特征图F1叠加组成卷积GRU的输入,卷积GRU的输出再经过
卷积操作得到残差光流Δf,其分辨率为原来的1/8,具体参数如图5所示。具体来说:首先将
初始光流f0设为0,然后通过原始图像I2中以当前像素点施加当前光流fk的位移后的点为中
心的9×9领域内索引匹配矩阵P的匹配结果,通过迭代上述操作后便可使匹配范围进一步
扩大,进而通过卷积GRU得到残差光流Δf。用残差光流Δf来补偿当前光流fk,即fk+1=fk+Δ
f,最后通过归一化卷积上采样操作将最终光流fm的分辨率恢复到原始大小得到光流f,即
最终的光流图,该光流图中展示了基于I1、I2两幅图像的各种物体的运动趋势,包括各种人
物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等,从而为自动导
航系统提供了周边环境中各种物体的运动趋势,为下一步导航控制提供了参照数据。
构建出稀疏高分辨率网格图,以低分辨率图像和其他辅助数据为输入的权值估计网络生成
低分辨率图像的像素级权值,然后使用前向映射以类似的方式将权重映射到高分辨率网
格,接着由级联的归一化卷积层构成的插值网络接收高分辨率网格图和权重,并生成高分
辨率图像。相较于双线性上采样,归一化卷积上采样的参数更少,且对于运动边界的恢复效
果更好。
的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。