一种尺度自适应的模板匹配方法转让专利

申请号 : CN202210720448.5

文献号 : CN114821128B

文献日 : 2022-09-09

本发明公开了一种尺度自适应的模板匹配方法，包括：获取不同角度的同一场景的两幅图像，在其中一幅中手工框取感兴趣图像块作为模板图像，另一幅作为搜索图像；将模板图像和搜索图像输入特征提取网络，获取对应的特征图FT和FIS；计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图；产生自适应多尺度候选框；生成均值滤波后的相似性度量图；在搜索图像中选取出候选图像块；获取任一候选图像块和模板的特征描述；计算模板的特征描述符与任一候选图像块的特征描述符的相似性；将相似性最大的特征描述符所对应的候选图像块作为模板图像最终的匹配结果。本发明可自适应产生目标框，且适用于视角变化较大的立体结构的图像匹配问题。

1.一种尺度自适应的模板匹配方法，其特征在于，包括：

从不同角度拍摄同一场景两幅不同图像并输入计算机，在其中一幅图像中手工框取感兴趣图像块，作为模板图像，将另一幅图像作为搜索图像；

将所述模板图像和所述搜索图像分别输入到预设的特征提取网络中，以获取所述模板图像对应的特征图FT以及所述搜索图像对应的特征图FIS；

对FT和FIS分别进行归一化操作，得到归一化后的FT和FIS；

计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图；

产生自适应多尺度候选框；

基于所述多尺度候选框，指定窗口大小，生成均值滤波后的相似性度量图；

基于均值滤波后的相似性度量图中最大值所在的位置以及指定窗口大小，在所述搜索图像中选取出候选图像块；

对于任一候选图像块，将其输入预设的特征描述网络中，获取其特征描述符；并且将所述模板图像输入所述特征描述网络中，获取模板的特征描述符；

计算模板的特征描述符与任一候选图像块的特征描述符的相似性；将相似性最大的特征描述符所对应的候选图像块作为所述模板图像最终的匹配结果；

所述产生自适应多尺度候选框，包括：设置一组不同的长宽比，并根据所述模板图像与所述搜索图像的大小设置不同的尺度，将和两者的组合乘积作为多尺度候选框的集合M。

2.如权利要求1所述的尺度自适应的模板匹配方法，其特征在于，所述对FT和FIS分别进行归一化操作，包括：针对待进行归一化的特征图，对相应特征计算出对应的均值和方差；

采取的方式对待进行归一化的特征图进行归一化操作。

3.如权利要求1所述的尺度自适应的模板匹配方法，其特征在于，所述计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图，包括：在FT和FIS中逐像素计算各点余弦相似性，计算得到所述模板图像对所述搜索图像的相似性及所述搜索图像对所述模板图像的相似性：其中，为可调节参数，为FIS中某点对FT中各个点的相似性，为FT中某点对FIS中各个点的相似性；表示FT中像素点，表示FIS中像素点；

从而得到相似性度量图。

4.如权利要求1所述的尺度自适应的模板匹配方法，其特征在于，所述基于所述多尺度候选框，指定窗口大小，生成均值滤波后的相似性度量图，包括：指定长度为，宽度为的窗口，对于均值滤波后的相似性度量图中的任一像素，其取值大小为；

其中，为均值函数；，表示窗口的个

数；x，y分别为待处理的均值滤波后的相似性度量图中的任一像素的横纵坐标值。

5.如权利要求4所述的尺度自适应的模板匹配方法，其特征在于，所述基于均值滤波后的相似性度量图中最大值所在的位置以及指定窗口大小，在所述搜索图像中选取出候选图像块，包括：在均值滤波后的相似性度量图中，记其最大值所在的位置为，取所述搜索图像中以为中心、长度为、宽度为的图像块为候选图像块；其中，分别为均值滤波后的相似性度量图中最大值所在位置的横纵坐标值。

6.如权利要求1所述的尺度自适应的模板匹配方法，其特征在于，所述特征描述网络将候选图像块映射为预设维度的特征向量作为特征描述符；计算模板的特征描述符与任一候选图像块的特征描述符的相似性时采用余弦度量计算。

7.如权利要求1 6任一项所述的尺度自适应的模板匹配方法，其特征在于，所述预设的~特征提取网络为VGG19网络的变体；进行特征提取时，将VGG19网络的block1输出y1与block3的输出y3进行特征融合：其中，表示对两个特征图进行特征融合，获得融合后的特征图；分别表示模板分支的VGG19网络的block1输出与block3的输出；分别表示搜索图像分支的VGG19网络的block1输出与block3的输出。

一种尺度自适应的模板匹配方法

技术领域

[0001] 本发明涉及计算机视觉中的图像模板匹配技术领域，特别涉及一种适用于大视角变换下立体结构模板匹配的尺度自适应的模板匹配方法。

背景技术

[0002] 模板匹配技术是计算机视觉应用中最常用的技术之一，在视频跟踪，图像拼接，目标检测，字符识别，三维重建等方面均有重要应用。

[0003] 经典的模板匹配方法通常使用SSD或NCC来计算模板与底层图像之间的相似度得分。与基于图像内容的特征匹配方法不同，模板匹配具有自身的局限性，主要表现在它只能进行平行移动。当图像视角差距较大，或目标物体非刚性时，传统方法往往不能实现较好的匹配。此外，由于存在遮挡和颜色变化等其他因素，传统方法更容易失效。

[0004] 人们提出了许多方法来克服这些现实生活中应用模板匹配的困难。Dekel等人引入了最近邻度量方法，该方法关注最近邻匹配，以去除潜在的和由背景像素引起的错误匹配。Talmi等人考虑了模板的形变，利用了搜索图像中模板与潜在匹配区域之间神经网络特征匹配的多样性，引入了可变形多样性相似度。Kat等人引入了基于共现的模板匹配来量化搜索图像中模板与潜在匹配区域之间的差异。Cheng等人利用深度神经网络提取图像特征在像素空间上进行相似性匹配度量。这些方法确实提高了模板匹配的性能。但均无法实现模板匹配框的自适应性，且难以实现视角差异大的图像对的匹配。

发明内容

[0005] 本发明提供了一种尺度自适应的模板匹配方法，以解决现有模板匹配中存在的目标框无法自适应生成的技术问题。

[0006] 为解决上述技术问题，本发明提供了如下技术方案：

[0007] 一种尺度自适应的模板匹配方法，该方法可以自适应产生目标框，且适用于视角变化较大的立体结构的图像匹配问题，其包括以下步骤：

[0008] 从不同角度拍摄同一场景两幅不同图像并输入计算机，在其中一幅图像中手工框取感兴趣图像块，作为模板图像，将另一幅图像作为搜索图像；

[0009] 将所述模板图像和所述搜索图像分别输入到预设的特征提取网络中，以获取所述模板图像对应的特征图FT以及所述搜索图像对应的特征图FIS；

[0010] 对FT和FIS分别进行归一化操作，得到归一化后的FT和FIS；

[0011] 计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图；

[0012] 产生自适应多尺度候选框；

[0013] 基于所述多尺度候选框，指定窗口大小，生成均值滤波后的相似性度量图；

[0014] 基于均值滤波后的相似性度量图中最大值所在的位置以及指定窗口大小，在所述搜索图像中选取出候选图像块；

[0015] 对于任一候选图像块，将其输入预设的特征描述网络中，获取其特征描述符；并且将所述模板图像输入所述特征描述网络中，获取模板的特征描述符；

[0016] 计算模板的特征描述符与任一候选图像块的特征描述符的相似性；将相似性最大的特征描述符所对应的候选图像块作为所述模板图像最终的匹配结果。

[0017] 进一步地，所述对FT和FIS分别进行归一化操作，包括：

[0018] 针对待进行归一化的特征图，对相应特征计算出对应的均值和方差；

[0019] 采取的方式对待进行归一化的特征图进行归一化操作。

[0020] 进一步地，所述计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图，包括：

[0021] 在FT和FIS中逐像素计算各点余弦相似性，计算得到所述模板图像对所述搜索图像的相似性及所述搜索图像对所述模板图像的相似性：

[0022]

[0023] 其中，为可调节参数，为FIS中某点对FT中各个点的相似性，为FT中某点对FIS中各个点的相似性；表示FT中像素点，表示FIS中像素点；

[0024] 从而得到相似性度量图。

[0025] 进一步地，所述产生自适应多尺度候选框，包括：

[0026] 设置一组不同的长宽比，并根据所述模板图像与所述搜索图像的大小设置不同的尺度，将和两者的组合乘积作为多尺度候选框的集合M。

[0027] 进一步地，所述基于所述多尺度候选框，指定窗口大小，生成均值滤波后的相似性度量图，包括：

[0028] 指定长度为，宽度为的窗口，对于均值滤波后的相似性度量图中的任一像素，其取值大小为；

[0029] 其中，为均值函数；，表示窗口的个数。

[0030] 进一步地，所述基于均值滤波后的相似性度量图中最大值所在的位置以及指定窗口大小，在所述搜索图像中选取出候选图像块，包括：

[0031] 在均值滤波后的相似性度量图中，记其最大值所在的位置为，取所述搜索图像中以为中心、长度为、宽度为的图像块为候选图像块。

[0032] 进一步地，所述特征描述网络将候选图像块映射为一定维度的特征向量作为特征描述符；计算模板的特征描述符与任一候选图像块的特征描述符的相似性时采用余弦度量计算。

[0033] 进一步地，所述预设的特征提取网络为VGG19网络的变体；进行特征提取时，将VGG19网络的block1输出y1与block3的输出y3进行特征融合：

[0034]

[0035] 其中，表示对两个特征图进行特征融合，获得融合后的特征图；分别表示模板分支的VGG19网络的block1输出与block3的输出；分别表示搜索图像分支的VGG19网络的block1输出与block3的输出。

[0036] 本发明提供的技术方案带来的有益效果至少包括：

[0037] 本发明的技术方案首先利用深度神经网络对两幅图像进行特征提取，计算相似性获取热图，然后利用多尺度方法计算各个候选区域与模板区域的相似性，得到最终模板匹配结果。本发明提供的方法不仅能够实现对视角变化较大的立体结构的模板匹配，而且候选框自适应生成，适用性高于原有模板匹配方法；同时，该方法提高了模板匹配方法的鲁棒性，可用于现实生活中的其他应用。

附图说明

[0038] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0039] 图1是本发明实施例提供的尺度自适应的模板匹配方法的执行流程示意图。

[0040] 图2是本发明实施例提供的尺度自适应的模板匹配方法的总体模型示意图。

具体实施方式

[0041] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

[0042] 针对现有模板匹配中存在的目标框无法自适应生成的问题，本实施例提供了一种尺度自适应的模板匹配方法，该方法可以自适应产生目标框，且适用于视角变化较大的立体结构的图像匹配问题，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该方法包括：采集图像并输入计算机、确定感兴趣区域、VGG网络特征提取、特征归一化、计算对应像素点特征相似性、计算QATM相似性并获取热图、生成多尺度候选框、生成候选区域、生成候选区域特征向量、计算各特征向量与模板向量相似性、选取相似性最高的候选区域作为最终匹配区域。具体地，该方法的总体模型如图2所示，该方法的执行流程如图1所示，包括以下步骤：

[0043] S1，从不同角度拍摄同一场景两幅不同图像并输入计算机，其中一幅图像为模板所在的图像，记作IT，另一幅为搜索图像，记作IS；

[0044] S2，在IT中手工框取感兴趣图像块，作为模板图像T；

[0045] S3，将模板图像T和搜索图像IS分别输入到预设的特征提取网络中，以获取模板图像对应的特征图FT以及搜索图像对应的特征图FIS；

[0046] 其中，模板图像T、搜索图像IS的大小分别为，利用VGG网络对模板图像T、搜索图像IS进行特
征提取，分别获取对应的特征图FT和FIS，大小分别为
，其中为通道数。

[0047] 具体地，本实施例采用的特征提取网络为VGG19网络的变体；进行特征提取时，将VGG19网络的block1输出y1与block3的输出y3进行特征融合：

[0048]

[0049] 其中，表示对两个特征图进行特征融合，获得融合后的特征图；分别表示模板分支的VGG19网络的block1输出与block3的输出；分别表示搜索图像分支的VGG19网络的block1输出与block3的输出。

[0050] S4，对FT和FIS分别进行归一化操作，得到归一化后的FT和FIS；

[0051] 具体地，在本实施例中，归一化方式如下：

[0052] 针对待进行归一化的特征图，对相应特征计算出对应的均值和方差；

[0053] 采取的方式对待进行归一化的特征图进行归一化操作。

[0054] S5，计算归一化后的FT和FIS各像素之间的相似性，获取相似性度量图；

[0055] 具体地，在本实施例中，获取相似性度量图E的方式如下：

[0056] 在FT和FIS中逐像素计算各点余弦相似性，计算得到模板图像T对搜索图像IS的相似性及搜索图像IS对模板图像T的相似性：

[0057]

[0058] 其中，为可调节参数，为FIS中某点对FT中各个点的相似性，为FT中某点对FIS中各个点的相似性；表示FT中像素点，表示FIS中像素点；

[0059] 从而得到相似性度量图。

[0060] S6，产生自适应多尺度候选框；

[0061] 具体地，在本实施例中，上述S6具体为：设置一组不同的长宽比，并根据模板图像T与搜索图像IS的大小设置不同的尺度，将和两者的组合乘积作为多尺度候选框的集合M。指定窗口大小。

[0062] S7，基于多尺度候选框，指定窗口大小，生成均值滤波后的相似性度量图；

[0063] 具体地，在本实施例中，指定长度为，宽度为的窗口，对于均值滤波后的相似性度量图Gi中的任一像素，其取值大小为；其中，为均
值函数；，表示窗口的个数。

[0064] S8，基于均值滤波后的相似性度量图中最大值所在的位置以及指定窗口大小，在所述搜索图像中选取出候选图像块；

[0065] 具体地，在本实施例中，候选图像块的选取方式为：在均值滤波后的相似性度量图Gi中，记其最大值所在的位置为，取搜索图像IS中以为中心、长度为、宽度为的图像块为候选图像块。

[0066] S9，对于任一候选图像块，将其输入预设的特征描述网络中，获取其特征描述符；并且将模板图像输入特征描述网络中，获取模板的特征描述符；

[0067] 具体地，在本实施例中，候选图像块以表示，，的特征描述符以表示；模板的特征描述符以表示。

[0068] S10，计算模板的特征描述符与任一候选图像块的特征描述符的相似性；将相似性最大的特征描述符所对应的候选图像块作为模板图像最终的匹配结果。

[0069] 其中，所述特征描述网络将候选图像块映射为一定维度的特征向量作为特征描述符；计算模板的特征描述符与任一候选图像块的特征描述符的相似性时可采用余弦度量计算。

[0070] 本实施例的方法首先利用深度神经网络对两幅图像进行特征提取，计算相似性获取热图，然后利用多尺度方法计算各个候选区域与模板区域的相似性，得到最终模板匹配结果。本发明提供的方法不仅能够实现对视角变化较大的立体结构的模板匹配，而且候选框自适应生成，适用性高于原有模板匹配方法；同时，该方法提高了模板匹配方法的鲁棒性，可用于现实生活中的其他应用。

[0071] 此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

[0072] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0073] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0074] 还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0075] 最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

一种尺度自适应的模板匹配方法转让专利

申请号 : CN202210720448.5

文献号 : CN114821128B

文献日 : 2022-09-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘红敏 , 蔡越峰 , 王星 , 樊彬 , 曾慧

申请人 : 北京科技大学 , 北京机电工程研究所

摘要 :

权利要求 :

说明书 :