基于多注意力机制的动态图像的光流图生成方法和系统转让专利

申请号 : CN202110850016.1

文献号 : CN113554039B

文献日 : 2022-02-22

本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统，本方法包括分别获取两幅连续图像的稠密特征图F1、F2，对F1、F2进行特征处理得到匹配矩阵，基于F1、初始光流和匹配矩阵得到残差光流，再结合当前光流得到最终的光流图。本系统包括特征提取模块、特征匹配模块和光流更新模块；特征提取模块用于得到稠密特征图；特征匹配模块用于对稠密特征图进行特征匹配处理，得到匹配矩阵；光流更新模块用于根据F1、初始光流、匹配矩阵得到残差光流，再结合当前光流得到光流图。本申请有效降低了因分辨率低导致遗漏小物体信息的错误，有效识别并处理快速移动的小物体，确保实时预测与识别，提高了匹配精度，增强了模型的泛化能力。

1.基于多注意力机制的动态图像的光流图生成方法，其特征在于，包括如下步骤：提取第一输入图像中每个像素的特性，得到第一稠密特征图，提取第二输入图像中每个像素的特性，得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像；

使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵，所述多注意力Transformer包含自注意力层和交叉注意力层；

设定初始光流为0，按照预定迭代次数对所述初始光流进行迭代处理，得到当前光流；

基于所述当前光流和所述匹配矩阵，得到残差光流；

对所述残差光流和所述当前光流进行卷积处理，得到光流图，所述光流图用于动态图像中物体运动趋势的预测；

得到所述第一稠密特征图和所述第二稠密特征图的方法包括：使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理，具体的，分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图，分别得到所述第一稠密特征图和所述第二稠密特征图。

2.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述匹配矩阵的方法包括：将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征；

将所述第二稠密特征图展平为一维向量并添加对应的位置编码，得到第二输入图像一维特征；

使用所述多注意力Transformer对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征；

使用所述多注意力Transformer对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征；

使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵。

3.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，所述位置编码以正弦格式给定每个像素的位置信息。

4.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，所述Transformer为线性多注意力Transformer。

5.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述残差光流的方法包括：同时对所述当前光流和所述匹配矩阵进行卷积计算，再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据；

对所述卷积GRU输入数据进行卷积操作，得到所述残差光流。

6.根据权利要求5所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述光流图的方法包括：

使用所述残差光流补偿所述当前光流，得到当前光流的下一迭代光流；

对所述下一迭代光流进行迭代处理，得到最终光流；

使用归一化卷积上采样操作对所述最终光流进行恢复，得到所述光流图。

7.基于多注意力机制的动态图像的光流图生成系统，其特征在于，包括：特征提取模块、特征匹配模块和光流更新模块；

所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图，以及从第二输入图像中提取得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像；

所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵；

所述光流更新模块用于基于初始光流和所述匹配矩阵，得到当前光流和残差光流，根据所述第一稠密特征图、所述残差光流和所述当前光流，得到光流图，所述光流图用于动态图像中物体运动趋势的预测；

所述特征匹配模块包括：展平编码单元、多注意力Transformer单元和可微匹配单元；

所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征，以及将所述第二稠密特征图展平为一维向量并添加对应的位置编码，得到第二输入图像一维特征；

所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征，以及对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征，所述多注意力Transformer单元采用线性多注意力Transformer；

所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵；

所述特征提取模块包括残差网络；

所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理，具体的，分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图，分别得到所述第一稠密特征图和所述第二稠密特征图。

基于多注意力机制的动态图像的光流图生成方法和系统

技术领域

[0001] 本申请属于动态图像处理领域，具体涉及基于多注意力机制的动态图像的光流图生成方法。

背景技术

[0002] 光流在移动机器人中有广泛应用，例如，光流估计是现实环境中移动机器人实现避障的重要步骤。移动机器人首先获取障碍物的光流，再根据光流中的运动信息调整行驶
策略，从而实现准确避障。传统方法通过超声波测距仪、激光雷达、红外传感器等传感器获
取环境中障碍物的距离和分布信息，从而实现避障。虽然传统方法已经取得了很大进展，但
是这些测距避障方式存在避障死角。而基于光流进行避障可有效规避避障死角，避障的可
靠性更高，并且这种方法非常接近人类的视觉认知行为，对视觉信息采集设备要求较低。机
器人在弱纹理、遮挡等复杂环境中作业时如何进行实时光流估计是移动机器人避障领域研
究的重要课题。

[0003] 光流是运动物体或场景表面像素点在投影平面的二维瞬时速度，因此图像序列对应的光流不仅携带其中运动目标与场景的运动信息，更包含了其结构信息。移动机器人执
行避障任务要求光流预测系统具备实时性、适应能力以及模型泛化能力。而在实际作业场
景中，弱纹理、物体遮挡和光线不足等是阻碍移动机器人获取准确光流的棘手问题。因而结
合局部信息和全局信息对于获取更准确的光流信息具有重要意义。

[0004] 现有技术普遍采用由粗到细的设计，也就是先用低分辨率估算光流，再用高分辨率采样调整，这种方式很可能会遗漏快速移动的小物体的信息；现有技术的网络结构普遍
过于复杂，特别是在特征提取和匹配方面需要多重分支结构和金字塔结构，使得模型训练
和测试时间过长；现有技术普遍采用构建匹配成本量作为特征匹配模块，这种方法的匹配
精度不高，限制了后续光流估计的结果。

发明内容

[0005] 本申请提出了基于多注意力机制的动态图像的光流图生成方法，提取前后连续的两幅原始图像中的每个像素的特征，使用多注意力Transformer进行处理，得到匹配矩阵，
再通过对原始图像卷积处理，引入当前光流、残差光流概念，与匹配矩阵结合，得到最终的
光流图，克服传统方式中容易遗漏细节信息、结构复杂且精度低的缺陷。

[0006] 为实现上述目的，本申请提供了如下方案：

[0007] 基于多注意力机制的动态图像的光流图生成方法，包括如下步骤：

[0008] 提取第一输入图像中每个像素的特性，得到第一稠密特征图，提取第二输入图像中每个像素的特性，得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态
图像中前后连续的两幅图像；

[0009] 使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵；

[0010] 设定初始光流为0，按照预定迭代次数对所述初始光流进行迭代处理，得到当前光流；基于所述当前光流和所述匹配矩阵，得到残差光流；

[0011] 对所述残差光流和所述当前光流进行卷积处理，得到光流图，所述光流图用于动态图像中物体运动趋势的预测。

[0012] 优选的，得到所述第一稠密特征图和所述第二稠密特征图的方法包括：

[0013] 使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理，分别得到所述第一稠密特征图和所述第二稠密特征图。

[0014] 优选的，得到所述匹配矩阵的方法包括：

[0015] 将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征；

[0016] 将所述第二稠密特征图展平为一维向量并添加对应的位置编码，得到第二输入图像一维特征；

[0017] 使用所述多注意力Transformer对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征；

[0018] 使用所述多注意力Transformer对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征；

[0019] 使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵。

[0020] 优选的，所述位置编码以正弦格式给定每个像素的位置信息。

[0021] 优选的，所述Transformer为线性多注意力Transformer。

[0022] 优选的，得到所述残差光流的方法包括：

[0023] 同时对所述当前光流和所述匹配矩阵进行卷积计算，再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据；

[0024] 对所述卷积GRU输入数据进行卷积操作，得到所述残差光流。

[0025] 优选的，得到所述光流图的方法包括：

[0026] 使用所述残差光流补偿所述当前光流，得到当前光流的下一迭代光流；

[0027] 对所述下一迭代光流进行迭代处理，得到最终光流；

[0028] 使用归一化卷积上采样操作对所述最终光流进行恢复，得到所述光流图。

[0029] 本申请还公开了基于多注意力机制的动态图像的光流图生成系统，包括：特征提取模块、特征匹配模块和光流更新模块；

[0030] 所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图，以及从第二输入图像中提取得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态图像
中前后连续的两幅图像；

[0031] 所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵；

[0032] 所述光流更新模块用于基于初始光流和所述匹配矩阵，得到当前光流和残差光流，根据所述第一稠密特征图、所述残差光流和所述当前光流，得到光流图，所述光流图用
于动态图像中物体运动趋势的预测。

[0033] 优选的，所述特征提取模块包括残差网络；

[0034] 所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理，分别得到所述第一稠密特征图和所述第二稠密特征图。

[0035] 优选的，所述特征匹配模块包括：展平编码单元、多注意力Transformer单元和可微匹配单元；

[0036] 所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征，以及将所述第二稠密特征图展平为一维向量并添加
对应的位置编码，得到第二输入图像一维特征；

[0037] 所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征，以及对所述第二输入图像一维特征进行处理，得到第二图像
Transformer特征；

[0038] 所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵。

[0039] 本申请的有益效果为：

[0040] 本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统，针对动态图像中前后连续的两幅原始图像，提取图像中每个像素的特征，以高分辨率迭代更新光流，
有效改善现有技术中因分辨率低导致遗漏小物体问题，能够有效识别并处理快速移动的小
物体；提高了动态图像中物体运动趋势预测的准确度；使用残差网络和多注意力
Transformer来进行特征提取与匹配，确保了光流实时预测与识别；使用自注意力和交叉注
意力机制的Transformer来对特征进行匹配，实现局部信息与全局信息的结合，提高了匹配
精度；本申请提高了光流图估计的效率、准确性和鲁棒性，增强了模型的泛化能力，即使处
于极端环境也能实现光流图估计。

附图说明

[0041] 为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术
人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0042] 图1为本申请实施例基于多注意力机制的动态图像的光流图生成方法流程示意图；

[0043] 图2为本申请实施例基于多注意力机制的动态图像的光流图生成系统结构示意图；

[0044] 图3为本申请实施例中特征提取模块中残差网络的参数示意图；

[0045] 图4为本申请实施例引用的现有Transformer理论的处理流程示意图；

[0046] 图5为本申请实施例中残差光流生成流程示意图及参数设定。

具体实施方式

[0047] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于
本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本申请保护的范围。

[0048] 为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

[0049] 如图1所示，为本申请基于多注意力机制的动态图像的光流图生成方法流程示意图，本实施例以无人驾驶车辆自动导航过程中，通过视频捕获设备获取动态图像后，对动态
图像进行处理生成光流图为例展开说明，具体包括如下步骤：

[0050] S102.通过自动导航系统的视频捕获设备获取动态图像后，任意选取前后连续的两幅原始图像，分别标记I1、I2，图像中包含了诸如人物、车辆、及其他相对于无人驾驶车辆
的运动物体。使用残差网络分别提取出I1、I2中每个像素的特征，具体为：分别将I1和I2映射
到分辨率为原始输入图像1/8的稠密特征图，得到第一稠密特征图F1和第二稠密特征图F2。

[0051] S104.将第一稠密特征图F1和第二稠密特征图F2展平为一维向量，并分别添加对应的位置编码，得到第一输入图像一维特征和第二输入图像一维特征，其中，位置编码以正弦
格式给定每个像素的位置信息；再使用线性多注意力Transformer分别对第一输入图像一
维特征和第二输入图像一维特征进行特征处理，得到第一图像Transformer特征F1’和第二
图像Transformer特征F2’，最后使用双softmax算子匹配第一图像Transformer特征和第二
图像Transformer特征，得到匹配矩阵P。

[0052] S106.从初始光流f0＝0开始，迭代m次后得到光流序列{f1,...,fm}，在第k次迭代中，将当前光流fk和匹配矩阵P分别通过卷积操作映射为相同尺寸后，再与第一稠密特征图
F1叠加组成卷积GRU的输入，卷积GRU的输出再经过卷积操作得到残差光流Δf，其分辨率为
原来的1/8。

[0053] S108.使用残差光流Δf补偿当前光流fk，即fk+1＝fk+Δf，再通过归一化卷积上采样操作将最终光流fm的分辨率恢复到原始大小得到光流f，即为最终的光流图，该光流图中
显示了基于I1、I2两幅图像的各种物体的运动趋势，包括各种人物、车辆、及其他相对于无人
驾驶车辆的运动物体的速度大小、方向、轮廓等，从而为自动导航系统提供了周边环境中各
种物体的运动趋势，为下一步导航控制提供了参照数据。

[0054] 本申请还公开了基于多注意力机制的动态图像的光流图生成系统，其结构如图2所示，包括：特征提取模块、特征匹配模块和光流更新模块。

[0055] 其中，特征提取模块包括残差网络，用于提取两幅原始图像I1、I2的每个像素的特征，I1、I2均来自于视频捕获设备获取的动态图像，且是该动态图像中前后连续的两幅，I1、
I2中均包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。通过残差网络，分
别将I1和I2映射到分辨率为原始输入图像1/8的稠密特征图，得到第一稠密特征图F1和第二
稠密特征图F2。残差网络由2个卷积层和6个残差单元组成，1/2、1/4和1/8分辨率中各有2个
残差单元，具体参数如图3所示。

[0056] 残差网络具有翻译等值性和局部性，适合于特征提取。经过特征提取模块后，残差网络引入的下采样减少了Transformer模块的输入长度，这是保证计算成本处于可承受范
围的关键。

[0057] 特征匹配模块用于对第一稠密特征图F1和第二稠密特征图F2进行特征匹配处理，得到匹配矩阵；具体分为：展平编码单元、多注意力Transformer单元和可微匹配单元；

[0058] 展平编码单元用于将第一稠密特征图F1和第二稠密特征图F2分别展平为一维向量并添加对应的位置编码，得到对应的第一输入图像一维特征和第二输入图像一维特征，其
中，位置编码以正弦格式给定每个元素的位置信息。将位置编码添加到像素特征，变换后特
征具有位置依赖性，这对于模糊区域的匹配能力很重要。

[0059] 多注意力Transformer单元用于对第一输入图像一维特征和第二输入图像一维特征进行处理，分别得到第一图像Transformer特征F1’，以及第二图像Transformer特征F2’。
Transformer现有理论的处理流程如图4所示。在本实施例中，多注意力Transformer单元采
用线性多注意力Transformer，其中包含了N个交错分布的自注意力层和交叉注意力层。线
性Transformer将普通Transformer中注意力层的相似度函数替换为sim(Q,K)＝φ(Q)·φ
T
(K) ，其中φ(·)＝elu(·)+1，elu(·)为指数线性单元激活函数，Q、K和V分别为注意力层
输入中的查询向量、键向量和值向量，上标T表示矩阵转置，而WQ、WK和WV分别为查询权重矩
阵、键权重矩阵和值权重矩阵，这三个矩阵均由网络学习得到的。其中，对于自注意力层，输
入特征gi和gj是一样的(全为F1或全为F2)。对于交叉注意力层，输入特征gi和gj为F1和F2或F2
和F1。线性Transformer将普通Transformer中的点积注意力替换为线性注意力，使得计算
2
复杂度从O(n)降低到O(n)，其中n为Transformer输入向量的长度。多注意力Transformer
提取位置和上下文相关的局部特征，从而将特征变换为易于匹配的特征表示。

[0060] 可微匹配单元使用双softmax算子来匹配变换后特征F1’和F2’，最终得到匹配矩阵P。双softmax算子的运算过程如下：首先通过计算得到变换后
特征的得分矩阵S，然后再通过P(i,j)＝softmax(S(i,·))j·softmax(S(·,j))i计算得到
匹配矩阵P，上述的i和j分别表示矩阵的i行和第j列，||·||2为欧几里德范数，而softmax
为归一化指数函数。

[0061] 设定初始光流f0＝0，光流更新模块从初始光流f0＝0开始迭代m次得到光流序列{f1,...,fm}，在第k次迭代中，将当前光流fk和匹配矩阵P分别通过卷积操作映射为相同尺
寸后，再与原始图像I1的第一稠密特征图F1叠加组成卷积GRU的输入，卷积GRU的输出再经过
卷积操作得到残差光流Δf，其分辨率为原来的1/8，具体参数如图5所示。具体来说：首先将
初始光流f0设为0，然后通过原始图像I2中以当前像素点施加当前光流fk的位移后的点为中
心的9×9领域内索引匹配矩阵P的匹配结果，通过迭代上述操作后便可使匹配范围进一步
扩大，进而通过卷积GRU得到残差光流Δf。用残差光流Δf来补偿当前光流fk，即fk+1＝fk+Δ
f，最后通过归一化卷积上采样操作将最终光流fm的分辨率恢复到原始大小得到光流f，即
最终的光流图，该光流图中展示了基于I1、I2两幅图像的各种物体的运动趋势，包括各种人
物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等，从而为自动导
航系统提供了周边环境中各种物体的运动趋势，为下一步导航控制提供了参照数据。

[0062] 卷积GRU将普通GRU的全连接层用卷积代替。相较于普通GRU，卷积GRU计算量更少更容易收敛。归一化卷积上采样是一种联合上采样方法，首先用前向映射从低分辨率图像
构建出稀疏高分辨率网格图，以低分辨率图像和其他辅助数据为输入的权值估计网络生成
低分辨率图像的像素级权值，然后使用前向映射以类似的方式将权重映射到高分辨率网
格，接着由级联的归一化卷积层构成的插值网络接收高分辨率网格图和权重，并生成高分
辨率图像。相较于双线性上采样，归一化卷积上采样的参数更少，且对于运动边界的恢复效
果更好。

[0063] 以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出
的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

基于多注意力机制的动态图像的光流图生成方法和系统转让专利

申请号 : CN202110850016.1

文献号 : CN113554039B

文献日 : 2022-02-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘文印 , 方桂标 , 陈俊洪 , 梁达勇

申请人 : 广东工业大学

摘要 :

权利要求 :

说明书 :