一种从粗到精的地对空图像配准方法转让专利

申请号 : CN202210844306.X

文献号 : CN114998630B

文献日 : 2022-11-04

本发明公开了一种从粗到精的地对空图像配准方法，包括：S1，获取待配准的图像对；S2，采用模板匹配的方法对图像对进行配准，得到初步配准结果；S3，基于初步配准结果在目标图像中裁剪出感兴趣区域，采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，得到特征点匹配结果；S4，基于特征点匹配结果，采用基于随机抽样一致RANSAC的方法对图像对进行尺度对齐，然后对完成尺度对齐的图像对再次执行S3，得到新的特征点匹配结果；S5，重复执行S4预设次数，得到最终的配准结果。本发明的方法能够针对卫星影像和机载图像，实现不同视角下立体结构图像间的像素级配准，具有通用性。

1.一种从粗到精的地对空图像配准方法，其特征在于，包括：

S1，获取待配准的图像对；其中，所述图像对包括源图像和目标图像；

S2，采用模板匹配的方法对所述图像对进行配准，得到初步配准结果；

S3，基于初步配准结果在目标图像中裁剪出感兴趣区域，采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，得到特征点匹配结果；

S4，基于特征点匹配结果，采用基于RANSAC（RANdom SAmple Consensus，随机抽样一致）的方法对所述图像对进行尺度对齐，然后对完成尺度对齐的图像对再次执行S3，得到新的特征点匹配结果；

S5，重复执行S4预设次数，得到最终的配准结果；

所述源图像为卫星图，所述目标图像为无人机鸟瞰图；

所述源图像和目标图像中包含不同视角下立体结构建筑物的图像信息；

所述采用模板匹配的方法对所述图像对进行配准，包括：

将源图像和目标图像输入到QATM（Quality‑Aware Template Matching，质量感知模板匹配方法）模型中，对图像对中立体结构建筑物的图像信息进行提取并进行相似度度量，最终输出在上感兴趣区域，区域框记为，分别代表框选区域的位置坐标以及高度和宽度；

所述基于初步配准结果在目标图像中裁剪出感兴趣区域，包括：

对于输入的目标图像，利用初步配准得到的区域框信息进行裁剪，以坐标为起始点，为高度和宽度建立裁剪框区域，得到最终的框选区域；

所述采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，包括：将和输入到Superpoint（Self‑Supervised Interest Point Detection and Description，自监督的兴趣点检测和描述）模型中进行特征提取，分别得到两幅图像的特征点信息和描述符信息；分别将提取到的特征点信息和描述符信息输入到Superglue（Learning Feature Matching With Graph Neural Networks, 使用图神经网络学习特征匹配）网络中，得到两幅图的特征点匹配关系矩阵P，将中的所有点坐标加上来映射回原图；其中，P代表了两幅图像和的匹配概率；

基于特征点匹配结果，采用基于RANSAC的方法对所述图像对进行尺度对齐，包括：基于特征点匹配关系矩阵P，使用RANSAC + 单应估计的方法估计最优单应模型；然后使用对做单应变换得到，以完成和的尺度对齐；

所述使用对做单应变换得到，包括：

首先对源图像的目标区域添加对称填充以扩大采样区域，然后使用估计得到的最优单应模型对其做单应变换，并裁剪掉黑色缺失部分；

所述重复执行S4预设次数，得到最终的配准结果，包括：

对和重新提取特征点并匹配，迭代执行S4预设次数，最终得到在上的变换集合，选取作为到的高精度配准结果；其中，表示第N次迭代得到的的单应变换结果，N表示最大迭代次数。

一种从粗到精的地对空图像配准方法

技术领域

[0001] 本发明涉及计算机视觉中的模板匹配和图像配准技术领域，特别涉及一种适用于大视角下的图像变换估计的从粗到精的地对空图像配准方法。

背景技术

[0002] 目前在大外观、视点和距离变化下的图像特征配准一直是该领域的难题。在现有的图像配准技术中，配准方法主要可以分为基于区域的方法和基于特征的方法。基于区域的方法在给定图像变换模型下通过最优化技术搜索得到最优的模型参数，通常非常依赖一个较好的初始值。基于特征的方法一般包括图像特征点检测、图像特征点描述、图像特征点匹配、图像变换模型估计四步。

[0003] 这些方法在有限的外观变化和背景杂波下都能取得不错的效果，例如传统的图像匹配方法包括SIFT（Scale‑invariant feature transform，尺度不变特征变换）、ORB（Oriented Fast and Rotated Brief，定向快速旋转简报）等，对视角变化、仿射变换、噪声都有一定的适应性。但在地对空领域，由于两者成像上的巨大差异，如：气候的差异、太阳角度的变化引起阴影方位的差异、成像角度的差异，加上两者成像的传感器自身的差异，使得相同目标在两幅图像中会表现出很大的光谱信息差异，仅通过特征点描述子的方法很难在一些特定的图像变化下取得较好的效果，而目前还不存在能够处理绝大多数图像变化、适用能力强的特征点检测与描述方法。

发明内容

[0004] 本发明提供了一种从粗到精的地对空图像配准方法，以解决现有技术很难在一些特定的图像变化下取得较好效果的技术问题。

[0005] 为解决上述技术问题，本发明提供了如下技术方案：

[0006] 一种从粗到精的地对空图像配准方法，包括：

[0007] S1，获取待配准的图像对；其中，所述图像对包括源图像和目标图像；

[0008] S2，采用模板匹配的方法对所述图像对进行配准，得到初步配准结果；

[0009] S3，基于初步配准结果在目标图像中裁剪出感兴趣区域，采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，得到特征点匹配结果；

[0010] S4，基于特征点匹配结果，采用基于RANSAC（RANdom SAmple Consensus，随机抽样一致）的方法对所述图像对进行尺度对齐，然后对完成尺度对齐的图像对再次执行S3，得到新的特征点匹配结果；

[0011] S5，重复执行S4预设次数，得到最终的配准结果。

[0012] 进一步地，所述源图像为卫星图，所述目标图像为无人机鸟瞰图；

[0013] 所述源图像和目标图像中包含不同视角下立体结构建筑物的图像信息。

[0014] 进一步地，所述采用模板匹配的方法对所述图像对进行配准，包括：

[0015] 将源图像和目标图像输入到QATM（Quality‑Aware Template Matching，质量感知模板匹配方法）模型中，对图像对中立体结构建筑物的图像信息进行提取并进行相似度度量，最终输出在上感兴趣区域，区域框记为，分别代表框选区域的位置坐标以及高度和宽度。

[0016] 进一步地，所述基于初步配准结果在目标图像中裁剪出感兴趣区域，包括：

[0017] 对于输入的目标图像，利用初步配准得到的区域框信息进行裁剪，以坐标为起始点，为高度和宽度建立裁剪框区域，得到最终的框选区域。

[0018] 进一步地，所述采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，包括：

[0019] 将和输入到Superpoint（Self‑Supervised Interest Point Detection and Description，自监督的兴趣点检测和描述）模型中进行特征提取，分别得到两幅图像的特征点信息和描述符信息；分别将提取到的特征点信息和描述符信息输入到Superglue（Learning Feature Matching With Graph Neural Networks, 使用图神经网络学习特征匹配）网络中，得到两幅图的特征点匹配关系矩阵P，将中的所有点坐标加上来映射回原图；其中，P代表了两幅图像和的匹配概率。

[0020] 进一步地，基于特征点匹配结果，采用基于RANSAC的方法对所述图像对进行尺度对齐，包括：

[0021] 基于特征点匹配关系矩阵P，使用RANSAC + 单应估计的方法估计最优单应模型；然后使用对做单应变换得到，以完成和的尺度对齐。

[0022] 进一步地，所述使用对做单应变换得到，包括：

[0023] 首先对源图像的目标区域添加对称填充以扩大采样区域，然后使用估计得到的最优单应模型对其做单应变换，并裁剪掉黑色缺失部分。

[0024] 进一步地，所述重复执行S4预设次数，得到最终的配准结果，包括：

[0025] 对和重新提取特征点并匹配，迭代执行S4预设次数，最终得到在上的变换集合，选取作为到的高精度配准结果；其中，表示第N次迭代得到的的单应变换结果，N表示最大迭代次数。

[0026] 本发明提供的技术方案带来的有益效果至少包括：

[0027] 本发明提供的从粗到精的地对空图像配准方法，首先利用基于QATM的模板匹配方法对目标区域进行初步定位，然后使用基于Superpoint+Superglue的特征点匹配的方法对目标区域做尺度对齐，最后利用改进的RANSAC算法进一步优化配准结果，实现地对空图像的高精度对齐配准。本发明提供的融合方法能够针对卫星影像和机载图像，实现不同视角下立体结构图像间的像素级配准。

附图说明

[0028] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0029] 图1是本发明实施例提供的图像配准方法的执行流程示意图。

具体实施方式

[0030] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

[0031] 针对地对空匹配中的问题，本实施例提供了一种从粗到精的多特征、多级别、多模型自适应图像配准方法，该方法可以由电子设备实现。该方法采集图像并输入计算机、基于QATM的源图像粗定位、使用深度学习方法对源图像编码并提取特征、处理特征信息做最优匹配、使用RANSAC+单应估计去除误匹配点、利用配准信息对目标区域做尺度对齐、动态更新匹配点，精确优化匹配点。

[0032] 具体地，该方法的执行流程如图1所示，具体包括以下步骤：

[0033] S1，获取待配准的图像对；其中，所述图像对包括源图像和目标图像；

[0034] 具体地，在本实施例中，源图像为卫星图，目标图像为无人机鸟瞰图；且源图像和目标图像中包含不同视角下立体结构建筑物的图像信息。

[0035] S2，采用模板匹配的方法对所述图像对进行配准，得到初步配准结果；

[0036] 需要说明的是，本实施例使用的模板匹配方法为QATM模板匹配，QATM模板匹配方法可以通过VGG（VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络, “VGG”代表了牛津大学的Oxford Visual Geometry Group）特征提取网络对图像对中立体结构建筑物的图像信息进行提取，将模板特征与预先设定的固定大小的候选窗口R的特征进行相似度度量，选择固定大小的相似度最高的目标区域作为匹配结果。

[0037] 具体地，在本实施例中，上述S2的执行过程如下：

[0038] 将源图像和目标图像输入到QATM模型中，对图像对中立体结构建筑物的图像信息进行提取并进行相似度度量，最终输出在上感兴趣区域，区域框记为，分别代表框选区域的位置坐标以及高度和宽度。

[0039] 通过上述步骤可使用模板匹配方法实现图像特定区域的粗定位。

[0040] S3，基于初步配准结果在目标图像中裁剪出感兴趣区域，采用深度学习的方法对源图像和裁剪出的感兴趣区域提取特征点并匹配，得到特征点匹配结果；

[0041] 具体地，在本实施例中，上述S3的执行过程如下：

[0042] S31，图像特征信息提取。

[0043] 将和输入到Superpoint(Self‑Supervised Interest Point Detection and Description，自监督的兴趣点检测和描述) 模型中进行特征提取，分别得到两幅图像的特征点信息和描述符信息；具体方式为：

[0044] S311，对图像的目标区域进行编码，具体方式为：对于输入的目标图像，利用初步配准得到的区域框信息进行裁剪，以坐标为起始点，为高度和宽度建立裁剪框区域，得到最终的框选区域。然后输入到构建好的Encode层中，其作用是对图片降维，提取特征，编码器由卷积层、池化层和非线性激活函数组成，我们将低维输出中的像素称为“单元”，使用三个最大池层，其中编码器中的三个非重叠最大池操作产生像素单元，将输入为的图像映射到中间张量（具有更小的空间尺度和更大的通道深度）；和分别表示输出图像的高和宽，代表卷积过后的特征图的高和宽，F代表通道数，。

[0045] S312，特征点提取，具体方式为：设计一个解码器，对图片的每个像素都计算一个概率，这个概率表示的就是其为特征点的可能性大小，这一步把寻找兴趣点的回归问题变成了分类问题，兴趣点探测头计算并输出大小为张量；

[0046] S313，描述符提取，具体方式为：计算并输出大小为的张量，先学习半稠密的描述子（不使用稠密的方式是为了减少计算量和内存），然后进行双三次插值算法（bicubic interpolation）得到完整描述子，最后再使用L2标准化（L2‑normalizes）得到单位长度的描述；D表示中间变量的通道数。

[0047] S32，图像特征点匹配。

[0048] 分别将提取到的特征点信息和描述符信息输入到Superglue(Learning Feature Matching With Graph Neural Networks, 使用图神经网络学习特征匹配)网络中，得到两幅图的特征点匹配关系矩阵P，将中的所有点坐标加上来映射回原图；其中，P代表了两幅图像和的匹配概率。具体方式为：

[0049] S321，融合特征点位置信息和描述信息，具体方式为：对于获取的特征点和描述子，以5个多层感知器（全连接）为核心，将关键点位置信息转换为可以与描述符直接相加的256维数据，使图形网络能够在以后对外观和位置进行联合推理
（其中，表示特征点位置信息，为特征点描述符信息；MLP(Multilayer Perception，多层感知机)）；然后使用交替的自我和交叉注意层来创建更强大的特征表示f，；（其中：表示当前关键点与所
有邻接点的聚合，，当为奇数时，为，为偶数时，为，
表示为图像A上第i个元素在第层的中间表达式）；

[0050] S322，对融合后的信息计算最优匹配，具体方式为：对上一步得到的特征和计算得分矩阵，A中的M个特征点和B中的N个特征点的乘积，，我们加上一列
dustbin来处理某些不匹配点，将问题转化为最优传输问题，我们需要找到一种映射关系矩阵P，使得最大，其中，和是原始特征经历了L次的self/cross‑
attention后得到的输出，对两者求内积得到；这里使用Sinkhorn算法求解(用来解决最优传输问题)，最后给定真值标签，最小化分配矩阵P的负对数似然函数。

[0051] S4，基于特征点匹配结果，采用基于RANSAC的方法对所述图像对进行尺度对齐，然后对完成尺度对齐的图像对再次执行S3，得到新的特征点匹配结果；

[0052] 需要说明的是，RANSAC算法的执行过程如下：

[0053] 1.随机从数据集中抽出4个样本数据(此4个样本之间不能共线)，计算出变换矩阵H，记为模型M；

[0054] 2. 计算数据集中所有数据与模型M的投影误差，若误差小于阈值，则加入内点集I，误差计算公式如下所示；其中，代表第i对样本在目标图像的坐标，代表第i对样本在源图像的坐标，代表变换矩阵H第i行第j列的元素，公式计算了投影点和目标图像真实点之间的欧氏距离和：

[0055]

[0056] 3.如果当前内点集I元素个数大于最优内点集，则更新，同时更新迭代次数；

[0057] 4. 如果迭代次数大于K则退出，否则迭代次数加1并重复上述步骤，K在迭代过程中是不断更新而不是固定不变的，K一般通过下式定义：

[0058]

[0059] 其中，p为置信度，一般取0.995，w为内点的比例，m为计算模型所需要的最少样本数，其值为4。

[0060] 基于上述，在本实施例中，上述S4中实现尺度对齐的执行过程如下：

[0061] 基于特征点匹配关系矩阵P，使用单应估计的方法估计最优单应模型，这里直接调用库中的函数实现；然后使用对做单应变换得到，具体为：首先对源图像的目标区域添加对称填充以扩大采样区域，然后使用估计得到的最优单应模型对其做单应变换，并裁剪掉黑色缺失部分。这一步是为了对和做尺度对齐，减小两幅图的视点上的差异。

[0062] S5，重复执行S4预设次数，得到最终的配准结果。

[0063] 具体地，在本实施例中，上述S5的执行过程如下：

[0064] 对和重新提取特征点并匹配，迭代执行S4预设次数，最终得到在上的变换集合，选取作为到的高精度配准结果；其中，表示第N次迭代得到的的单应变换结果，N表示最大迭代次数。

[0065] 需要说明的是，通过将对齐后的图像，再次输入到本实施例构建的图像匹配框架中，动态更新匹配点数，在动态更新的过程中，两幅图最终会逐渐收敛到相似的视角和尺度，单应矩阵也会慢慢最终收敛到一个定值，当匹配点性能的提升小于设定的阈值Y时，停止迭代，输出两幅图像的精确配准模型。如此通过执行S4至S5即可使用基于RANSAC的方法对匹配后的图像做高精度配准。

[0066] 本实施例首先利用模板匹配方法对目标区域进行初步定位和尺度对齐，然后引导后续的高精度的特征点匹配，最后利用改进的RANSAC算法进一步优化配准结果，实现地对空图像的高精度对齐配准。本实施例的方法能够针对卫星影像和机载图像，实现不同视角下立体结构图像间的像素级配准。同时，该方法具有通用性，可用于各种成像差异，视点，角度差异较大的图像对间的匹配。

[0067] 此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

[0068] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0069] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0070] 还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0071] 最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

一种从粗到精的地对空图像配准方法转让专利

申请号 : CN202210844306.X

文献号 : CN114998630B

文献日 : 2022-11-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘红敏 , 毕海旭 , 王星 , 樊彬 , 曾慧

申请人 : 北京科技大学

摘要 :

权利要求 :

说明书 :