一种基于上下文深度语义信息的图像检索方法转让专利

申请号 : CN201710935929.7

文献号 : CN107832335B

文献日 : 2019-12-17

本发明公开的一种基于上下文深度语义信息的图像检索方法，主要解决现有图像检索方法由于缺乏上下文环境信息而造成的准确率低的问题。实现步骤为：①使用自适应极化栅栏法确定图像关键点；②对卷积神经网络进行预训练和微调，构建包含区域分析层、迭代量化层的极化卷积神经网络；③提取关键点的上下文深度语义特征，并将其存入索引表，完成线下索引；④计算查询图像与数据库中每幅图像的相似度；⑤根据相似度从高到低的顺序输出检索结果。本发明使用上下文深度语义特征实现了图像关键点从区域到全局环境的匹配，提出的自适应极化栅栏法和构建的区域分析层符合全天空极光图像的成像特点，检索准确率高，可用于鱼眼镜头成像的大规模图像的精确检索。

1.一种基于上下文深度语义信息的图像检索方法，其特征在于，所述方法包括如下步骤：(1)对输入的全天空极光图像数据库，利用自适应极化栅栏法确定全天空极光图像的k个关键点；

(2)预先对卷积神经网络进行预训练和微调，再构建区域分析层、迭代量化层，将所述卷积神经网络升级为极化卷积神经网络，所述极化卷积神经网络包括五个卷积层、一个全连接层、一个区域分析层、一个迭代量化层；

(3)对输入的所述全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域，并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上；

(4)所述区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作，分别得到五个特征向量，分别级联五个特征向量及全连接层输出的特征向量，得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征(5)所述迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理，并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g，得到每个关键点的上下文深度语义特征

(6)将每个关键点的上下文深度语义特征存入倒排索引

表，完成线下索引；

(7)对于输入的一幅查询图像Q，提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征fd＝[fb-cnn-rs,fb-cnn-rl,fb-cnn-g]的匹配函数；

(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度；

(9)按照相似度取值从高到低的顺序对所述全天空极光图像数据库中图像进行排序，相似度取值最高的图像被认为是与查询图像最相似，输出排序结果完成线上查询。

2.根据权利要求1所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(1)中利用自适应极化栅栏法确定全天空极光图像的k个关键点，包括如下步骤：(1a)设定自适应极化栅栏法的参数，所述参数至少包括：参考径向间隔Δρ、参考角度间隔Δθ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w；

(1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j)：

其中，C为全天空极光图像的半径长度；ρ(i)为径向坐标，ρ(0)为径向坐标的初始值，i为径向指数，其取值为从1到G的有序整数，G为径向指数取值的最大值，径向坐标ρ(i)需要小于图像的半径长度C；v为控制径向坐标分布的参数，ivΔρ为径向间隔，当v为0时，径向间隔ivΔρ相同；当v取正值时，随着i的增大，径向间隔ivΔρ越大；当v取负值时，随着i的增大，径向间隔ivΔρ越小；θ(j)为角度坐标θ(j)，θ(0)为角度坐标的初始值，j为角度指数，其取值为从1到H的有序整数，H为角度指数取值的最大值，角度坐标θ(j)需要小于2π；w为控制角度坐标分布的正参数，Δθ/iw为角度间隔，当w为0时，角度间隔Δθ/iw相同；当w为1时，角度w w间隔Δθ/i 反比于径向指数i；当w大于1时，随着i的增大，角度间隔Δθ/i 越小；当w小于1时，随着i的增大，角度间隔Δθ/iw越大；

(1c)使用极化坐标系确定图像关键点的位置：

其中，x(i,j)为关键点的横坐标，y(i,j)为关键点的纵坐标，每幅全天空极光图像共得到k个关键点。

3.根据权利要求1所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(2)预先对卷积神经网络进行预训练和微调，再构建区域分析层、迭代量化层，将所述卷积神经网络升级为极化卷积神经网络，包括如下步骤：(2a)使用ImageNet数据库对现有卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数，所述卷积神经网络包括：五个卷积层、三个全连接层；

(2b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换数据扩增操作，生成新的图像，将所述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练所述卷积神经网络，对所述卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数；

(2c)构建一个区域分析层，将其加入到所述卷积神经网络；

(2d)构建一个迭代量化层，用其替代所述卷积神经网络中最后两个全连接层。

4.根据权利要求3所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(3)对输入的所述全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域，并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上，包括如下步骤：(3a)对输入的原全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域；

(3b)所述极化卷积神经网络对输入的每幅图像，其每个卷积层各输出一个特征图组，第l个卷积层输出的特征图组由ml幅特征图组成，其中，l＝1,2,3,4,5，m1＝96，m2＝256，m3＝384，m4＝384，m5＝256；

(3c)分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。

5.根据权利要求4所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(4)区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作，分别得到五个特征向量，分别级联五个特征向量及全连接层输出的特征向量，得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征，包括如下步骤：(4a)所述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作，即选取第l个卷积层输出的每幅特征图的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到m1+m2+m3+m4+m5＝1376维特征向量，其中，l＝1,2,3,4,5；

(4b)将第五卷积层输出的特征图组输入全连接层，得到4096维特征向量，将其级联在cnn-g步骤(4a)所得1376维特征向量之后，得到5472维全局CNN特征f ；

(4c)所述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作，即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到一个m1+m2+m3+m4+m5＝1376维特征向量；

(4d)将所述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后，得到该关键点的5472维的小尺度区域CNN特征(4e)遍历k个关键点的小尺度区域，得到k个小尺度区域CNN特征，遍历所述原全天空极光图像数据库中的N幅图像，得到kN个小尺度区域CNN特征；

(4f)对关键点的大尺度区域，进行类似于步骤(4c)到步骤(4e)的操作，即所述区域分析层对该关键点的大尺度区域进行最大池化操作，得到五个特征向量，级联该五个特征向量及所述全连接层输出的特征向量，得到该关键点的5472维的大尺度区域CNN特征 k个关键点、N幅图像，共得到kN个大尺度区域CNN特征。

6.根据权利要求5所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(6)将每个关键点的上下文深度语义特征存入倒排索引表，完成线下索引，包括如下步骤：

(6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W＝{W1,W2,…,WM}，每个视觉单词Wm(m＝1,…,M)为聚类中心，根据每个小尺度区域CNN特征与各个聚类中心之间的距离，将该小尺度区域CNN特征量化到距离最近的聚类中心；

(6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点，确定该聚类中心对应的所有关键点，即该视觉单词对应的所有关键点；

(6c)构建一个倒排索引表E＝{E1,E2,…,EM}，其中，第m个索引单元Em存储第m个视觉单词Wm信息，m＝1,…,M；

(6d)构建一个辅助索引表其中，第n个索引单元大小为

len字节，用于存储第n幅图像二值化后的全局CNN特征fb-cnn-g，n＝1,…,N；

(6e)对第m个视觉单词Wm对应的一个关键点，开辟4个字节存储所属图像的Image ID信息，并将其作为全局指针链接步骤(6d)中对应的索引单元，开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征(6f)遍历第m个视觉单词Wm对应的所有关键点，执行步骤(6e)，完成倒排索引表E中第m个索引单元Em的内容存储；

(6g)遍历所有视觉单词，完成倒排索引表E的所有索引单元的内容存储，完成线下索引。

7.根据权利要求6所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(7)对于输入的一幅查询图像Q，提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数

其中，为与fd之间的汉明距离，h越小，匹配函数取值越大，关键点匹配

度越高，为求与fd之间汉明距离的函数，Th为距离阈值；q(·)为量化函数，表示特征量化到某个视觉单词，exp(·)为指数函数，σ为其控制参数。

8.根据权利要求7所述的一种基于上下文深度语义信息的图像检索方法，其特征在于，所述步骤(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度，包括如下步骤：计算所述查询图像Q与所述全天空极光图像数据库中第n幅图像In的相似度SS(Q,In)：其中，idf＝N/Nm表示逆向文件频率，N为原全天空极光图像数据库中图像数量，Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l2范数，tm表示第m个视觉单词在第n幅图像中出现的词频。

一种基于上下文深度语义信息的图像检索方法

技术领域

[0001] 本发明属于图像处理技术领域，涉及深度学习算法和图像检索技术，可用于大规模极光图像的精确检索。

背景技术

[0002] 太阳风携带的高能带电粒子高速撞击地球磁场，沿着“漏斗”状的地磁力线沉降进入南北两极地区，激发电离层中大气粒子后产生的自然发光现象就是极光。为了深入研究极光现象，各国科学家们通过地面观测站和太空遥感卫星等平台采集了海量极光图像数据。然而，受天气变化和云雾干扰等影响，爆炸式增加的极光图像数据中包含了大量无效数据。为了在不受无效数据干扰的前提下研究某种特定日地空间事件，科学家们需要从海量数据中挑选出感兴趣的极光图像数据，即大规模极光图像检索。现实中，依靠科学家们肉眼筛选和分类的人工检索方式容易出现由视觉疲劳引起的主观误差，其检索速度也难以满足海量数据的处理需求。因此，建立自动的图像检索系统，实现大规模极光图像中有效数据的筛选和关键数据的分析，可以帮助空间物理学家在有限时间内获取太阳风与地球磁场活动的大量信息，为日地空间安全提供可靠的技术保障。

[0003] 为了实现自动的极光图像检索，图像处理和模式识别技术被广泛使用。例如，Sivic等人在文献“J.Sivic and A.Zisserman,Video google:A text retrieval approach to object matching in videos,in Proc.IEEE Int.Conf.Comput.Vis.,2003,pp.1470-1477.”中提出的词袋模型法(Bag of Features,BoF)，该方法将局部特征进行聚类生成语义词典，利用倒排索引实现图像检索；Jeguo等人在文献“H.Jegou,M.Douze,and C.Schmid,Hamming embedding and weak geometric consistency for large scale image search,in Proc.Eur.Conf.Comput.Vis.,2008,pp.304-317.”中提出的汉明嵌入法(Hamming Embedding,HE)，该方法将局部特征之间的汉明距离存入索引表，提高了图像检索的精度；Jeguo等人在文献“H.Jegou,M.Douze,C.Schmid,and P.Perez,Aggregating local descriptors into a compact image representation,in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2010,pp.3304-3311.”中提出的局部特征聚合向量法(Vector of Locally Aggregated Descriptors,VLAD)，该方法将局部特征聚合并降维生成全局特征，提高了图像检索的效率；Yang等人在文献“X.Yang,X.Gao,Q.Tian,Polar embedding for aurora image retrieval,IEEE Trans.Image Process.24(11)(2015)3332-3344.”中提出的极向嵌入法(Polar Embedding,PE)，该方法结合极光图像成像特点，利用极化栅格对图像关键点进行不均匀采样，通过提取每个关键点的尺度不变特征(Scale-Invariant Feature Transform,SIFT)和局部二值模式特征(Local Binary Patterns,LBP)，实现了极光图像的实时检索。

[0004] 然而，上述方法采用的是人工设计的“浅层”特征，这些特征由于缺乏数据学习过程和语义认知信息而辨识度较差。近期，深度学习技术通过海量数据学习图像内容，实现了对人脑认知机理的模拟。其中，卷积神经网络(Convolutional Neural Network,CNN)被广泛应用于图像检索领域。例如，Gong等人在文献“Y.Gong,L.Wang,R.Guo,and S.Lazebnik,Multi-scale orderless pooling of deep convolutional activation features,in Proc.Eur.Conf.Comput.Vis.,2014,pp.392-407.”中提出的多尺度无序池化法(Multi-scale Orderless Pooling,MOP)，该方法将卷积神经网络第六层的输出作为特征，同时聚合多个尺度下的特征完成图像检索；Tolias等人在文献“G.Tolias,R.Sicre,H.Jegou,Particular object retrieval with integral max-pooling of CNN activations,in Proc.Int.Conf.Learn.Represent.,2016,pp.1-12.”中提出的卷积最大激活法(Maximum Activation of Convolutions,MAC)，该方法对卷积神经网络各个卷积层输出的特征图组作最大池化处理，然后将输出的激活响应级联作为特征，实现了高精度的图像检索。

[0005] 然而，现有图像检索方法仍然存在很多不足：第一，现有方法仅提取关键点的单一尺度特征，缺乏对图像上下文信息的理解，导致检索的准确率较低；第二，现有方法使用矩形栅格法选取关键点，该方式没有考虑极光图像中由地面鱼眼镜头造成的球形畸变现象，导致返回的检索结果不理想。

发明内容

[0006] 本发明针对上述图像检索方法的不足，提出一种基于上下文深度语义信息的图像检索方法，以提高极光图像检索的准确率。该方法根据鱼眼镜头成像原理，设计自适应极化栅栏法确定图像关键点；在卷积神经网络中添加区域分析层来提取每幅图像每个关键点的全局CNN特征、小尺度区域CNN特征、大尺度区域CNN特征，用于构建上下文深度语义特征；使用迭代量化层替代卷积神经网络中最后两个全连接层，用于特征的二值化，以加快检索速度。

[0007] 为实现上述技术目的，本发明采用如下技术方案予以实现。

[0008] 一种基于上下文深度语义信息的图像检索方法包括以下步骤：

[0009] (1)对输入的全天空极光图像数据库，利用自适应极化栅栏法确定全天空极光图像的k个关键点。

[0010] (2)预先对卷积神经网络进行预训练和微调，再构建区域分析层、迭代量化层，将所述卷积神经网络升级为极化卷积神经网络，所述极化卷积神经网络包括五个卷积层、一个全连接层、一个区域分析层、一个迭代量化层。

[0011] (3)对输入的所述全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域，并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。

[0012] (4)所述区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作，分别得到五个特征向量，分别级联五个特征向量及全连接层输出的特征向量，得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征

[0013] (5)所述迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理，并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g，得到每个关键点的上下文深度语义特征

[0014] (6)将每个关键点的上下文深度语义特征存入倒排索引表，完成线下索引。

[0015] (7)对于输入的一幅查询图像Q，提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数。

[0016] (8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度。

[0017] (9)按照相似度取值从高到低的顺序对所述全天空极光图像数据库中图像进行排序，相似度取值最高的图像被认为是与查询图像最相似，输出排序结果完成线上查询。

[0018] 在一些实施例中，步骤(1)中利用自适应极化栅栏法确定全天空极光图像的k个关键点，包括如下步骤：

[0019] (1a)设定自适应极化栅栏法的参数，所述参数至少包括：参考径向间隔△ρ、参考角度间隔△θ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w。

[0020] (1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j)：

[0021]

[0022] 其中，C为全天空极光图像的半径长度；ρ(i)为径向坐标，ρ(0)为径向坐标的初始值，i为径向指数，其取值为从1到G的有序整数，G为径向指数取值的最大值，径向坐标ρ(i)需要小于图像的半径长度C；v为控制径向坐标分布的参数，iv△ρ为径向间隔，当v为0时，径向间隔iv△ρ相同；当v取正值时，随着i的增大，径向间隔iv△ρ越大；当v取负值时，随着i的增大，径向间隔iv△ρ越小；θ(j)为角度坐标θ(j)，θ(0)为角度坐标的初始值，j为角度指数，其取值为从1到H的有序整数，H为角度指数取值的最大值，角度坐标θ(j)需要小于2π；w为控制角度坐标分布的正参数，△θ/iw为角度间隔，当w为0时，角度间隔△θ/iw相同；当w为1时，角度间隔△θ/iw反比于径向指数i；当w大于1时，随着i的增大，角度间隔△θ/iw越小；当w小于1时，随着i的增大，角度间隔△θ/iw越大。

[0023] (1c)使用极化坐标系确定图像关键点的位置：

[0024]

[0025] 其中，x(i,j)为关键点的横坐标，y(i,j)为关键点的纵坐标，每幅全天空极光图像共得到k个关键点。

[0026] 在一些实施例中，步骤(2)预先对卷积神经网络进行预训练和微调，再构建区域分析层、迭代量化层，将所述卷积神经网络升级为极化卷积神经网络，包括如下步骤：

[0027] (2a)使用ImageNet数据库对现有卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数，所述卷积神经网络包括：五个卷积层、三个全连接层。

[0028] (2b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作，生成新的图像，将所述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练所述卷积神经网络，对所述卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数。

[0029] (2c)构建一个区域分析层，将其加入到所述卷积神经网络。

[0030] (2d)构建一个迭代量化层，用其替代所述卷积神经网络中最后两个全连接层。

[0031] 在一些实施例中，步骤(3)对输入的所述全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域，并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上，包括如下步骤：

[0032] (3a)对输入的原全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域。

[0033] (3b)所述极化卷积神经网络对输入的每幅图像，其每个卷积层各输出一个特征图组，第l个卷积层输出的特征图组由ml幅特征图组成，其中，l＝1,2,3,4,5，m1＝96，m2＝256，m3＝384，m4＝384，m5＝256。

[0034] (3c)分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。

[0035] 在一些实施例中，步骤(4)区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作，分别得到五个特征向量，分别级联五个特征向量及全连接层输出的特征向量，得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征，包括如下步骤：

[0036] (4a)所述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作，即选取第l个卷积层输出的每幅特征图的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到1376(m1+m2+m3+m4+m5)维特征向量，其中，l＝1,2,3,4,5。

[0037] (4b)将第五卷积层输出的特征图组输入全连接层，得到4096维特征向量，将其级联在步骤(4a)所得1376维特征向量之后，得到5472维全局CNN特征fcnn-g。

[0038] (4c)所述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作，即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到一个1376(m1+m2+m3+m4+m5)维特征向量。

[0039] (4d)将所述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后，得到该关键点的5472维的小尺度区域CNN特征

[0040] (4e)遍历k个关键点的小尺度区域，得到k个小尺度区域CNN特征，遍历所述原全天空极光图像数据库中的N幅图像，得到kN个小尺度区域CNN特征。

[0041] (4f)对关键点的大尺度区域，进行类似于步骤(4c)到步骤(4e)的操作，即所述区域分析层对该关键点的大尺度区域进行最大池化操作，得到五个特征向量，级联该五个特征向量及所述全连接层输出的特征向量，得到该关键点的5472维的大尺度区域CNN特征k个关键点、N幅图像，共得到kN个大尺度区域CNN特征。

[0042] 在一些实施例中，步骤(6)将每个关键点的上下文深度语义特征存入倒排索引表，完成线下索引，包括如下步骤：

[0043] (6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W＝{W1,W2,…,WM}，每个视觉单词Wm(m＝1,…,M)为聚类中心，根据每个小尺度区域CNN特征与各个聚类中心之间的距离，将该小尺度区域CNN特征量化到距离最近的聚类中心。

[0044] (6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点，确定该聚类中心对应的所有关键点，即该视觉单词对应的所有关键点。

[0045] (6c)构建一个倒排索引表E＝{E1,E2,…,EM}，其中，第m个索引单元Em存储第m个视觉单词Wm信息，m＝1,…,M。

[0046] (6d)构建一个辅助索引表其中，第n个索引单元大小为len字节，用于存储第n幅图像二值化后的全局CNN特征fb-cnn-g，n＝1,…,N。

[0047] (6e)对第m个视觉单词Wm对应的一个关键点，开辟4个字节存储所属图像(Image ID)信息，并将其作为全局指针链接步骤(6d)中对应的索引单元，开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征[0048] (6f)遍历第m个视觉单词Wm对应的所有关键点，执行步骤(6e)，完成倒排索引表E中第m个索引单元Em的内容存储。

[0049] (6g)遍历所有视觉单词，完成倒排索引表E的所有索引单元的内容存储，完成线下索引。

[0050] 在一些实施例中，步骤(7)对于输入的一幅查询图像Q，提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数

[0051]

[0052] 其中，为与fd之间的汉明距离，h越小，匹配函数取值越大，关键点匹配度越高，为求与fd之间汉明距离的函数，Th为距离阈值；q(·)为量化函数，表示特征量化到某个视觉单词，exp(·)为指数函数，σ为其控制参数。

[0053] 在一些实施例中，步骤(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度，包括如下步骤：

[0054] 计算所述查询图像Q与所述全天空极光图像数据库中第n幅图像In的相似度SS(Q,In)：

[0055]

[0056] 其中，idf＝N/Nm表示逆向文件频率，N为原全天空极光图像数据库中图像数量，Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l2范数，tm表示第m个视觉单词在第n幅图像中出现的词频。

[0057] 本发明与现有图像检索方法相比，具有以下优点：

[0058] 1)传统方法仅提取图像关键点上的局部特征，忽略了关键点周围的环境信息，导致了较高的虚警率，本发明结合上下文语义信息，在关键点周围提取不同尺度上强辨识度的“深度”特征，提高了图像检索的准确率。

[0059] 2)传统方法的矩形栅栏方式仅适用于普通镜头下的图像，本发明根据鱼眼镜头成像原理，设计了自适应极化栅栏法选取关键点，更符合全天空极光图像的球形畸变特性。

[0060] 3)传统方法将整幅图像通过卷积神经网络的全连接层或卷积层的输出作为特征，表述尺度单一并且特征维数较高，本发明构建区域分析层和迭代量化层来改进卷积神经网络，同时融合所有卷积层和全连接层的信息，得到了具有多尺度描述能力的二值化特征，在节省索引内存消耗的同时提高了检索精度。

附图说明

[0061] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的、技术过程和优点将会变得更明显：

[0062] 图1是本发明一种基于上下文深度语义信息的图像检索方法的一个流程图；

[0063] 图2是本发明一种基于上下文深度语义信息的图像检索方法的又一个流程图；

[0064] 图3是本发明中不同参数下自适应极化栅栏法确定的图像关键点的分布图；

[0065] 图4a是现有卷积神经网络结构的示意图；

[0066] 图4b是本发明中极化卷积神经网络结构的示意图；

[0067] 图5a是一幅查询图像；

[0068] 图5b是本发明与现有方法对图5a的检索结果比较。

具体实施方式

[0069] 参考图1，示出了本发明基于上下文深度语义信息的图像检索方法的一个流程图100，具体步骤如下：

[0070] 步骤101，对输入的全天空极光图像数据库，使用自适应极化栅栏法确定全天空极光图像的k个关键点。

[0071] 全天空极光图像数据库D＝{I1,I2,…,IN}为极化卷积神经网络的输入，其中，In(n＝1,…,N)为上述全天空极光图像数据库中的第n幅图像，N为上述全天空极光图像数据库中图像的总个数。

[0072] 使用自适应极化栅栏法确定全天空极光图像的k个关键点，包括如下步骤：

[0073] (1a)设定自适应极化栅栏法的参数，所述参数至少包括：参考径向间隔△ρ、参考角度间隔△θ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w。

[0074] (1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j)：

[0075]

[0076] 其中，C为全天空极光图像的半径长度；ρ(i)为径向坐标，ρ(0)为径向坐标的初始值，i为径向指数，其取值为从1到G的有序整数，G为径向指数取值的最大值，径向坐标ρ(i)需要小于图像的半径长度C；v为控制径向坐标分布的参数，iv△ρ为径向间隔，当v为0时，径向间隔iv△ρ相同；当v取正值时，随着i的增大，径向间隔iv△ρ越大；当v取负值时，随着i的v增大，径向间隔i △ρ越小；θ(j)为角度坐标θ(j)，θ(0)为角度坐标的初始值，j为角度指数，其取值为从1到H的有序整数，H为角度指数取值的最大值，角度坐标θ(j)需要小于2π；w为控制角度坐标分布的正参数，△θ/iw为角度间隔，当w为0时，角度间隔△θ/iw相同；当w为1时，角度间隔△θ/iw反比于径向指数i；当w大于1时，随着i的增大，角度间隔△θ/iw越小；当w小w
于1时，随着i的增大，角度间隔△θ/i越大。

[0077] (1c)使用极化坐标系确定图像关键点的位置：

[0078]

[0079] 其中，x(i,j)为关键点的横坐标，y(i,j)为关键点的纵坐标，每幅全天空极光图像共得到k个关键点。

[0080] 参考图3，图3是不同参数下自适应极化栅栏法确定的图像关键点的分布图。参考径向间隔为256/6，参考角度间隔为π/3。由图可知，当v为0时，关键点的径向间隔相同；当v等于0.5时，随着径向指数i的增大，关键点的径向间隔越大；当v等于-0.5时，随着径向指数i的增大，关键点的径向间隔越小；当w等于1时，关键点的角度间隔反比于径向指数i；当w为0时，关键点的角度间隔相同；当w等于2时，随着i的增大，关键点的角度间隔越小。当v、w取值不同时，k的取值也不同。

[0081] 当自适应极化栅栏法的参数确定时，上述全天空极光图像数据库中的N幅图像拥有位置相同的k个关键点，即每幅图像的k个关键点的分布是一样的。

[0082] 步骤102，预先对卷积神经网络进行预训练和微调，再构建区域分析层、迭代量化层，将上述卷积神经网络升级为极化卷积神经网络。

[0083] (2a)使用ImageNet数据库对现有卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数，所述卷积神经网络包括：五个卷积层、三个全连接层。

[0084] 参考图4a，示出了现有卷积神经网络结构的示意图。每一层的输出为下一层的输入，卷积层通过不同卷积操作生成多幅特征图，全连接层用来将卷积层输出的多幅特征图组合生成单一的特征向量。以第一卷积层为例，说明其中的参数，11×11表示该卷积层的卷积核大小，55×55为该卷积层输出的每幅特征图的大小，96为通道数目，即第一卷积层使用11×11的卷积核进行滤波等操作，得到了96个大小为55×55的特征图。全连接层的圆圈表示一个节点，每个节点连接上一个卷积层或全连接层的所有节点。以第一全连接层为例，说明其中的参数，4096表示第一全连接层节点的个数，图中只标出了其中几个节点。

[0085] 每个卷积层输出一个特征图组，第l个卷积层输出的特征图组由ml幅特征图组成，其中，l＝1,2,3,4,5，m1＝96，m2＝256，m3＝384，m4＝384，m5＝256。

[0086] (2b)预先对上述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作，生成新的图像，将所述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练所述卷积神经网络，对所述卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数。

[0087] (2c)构建一个区域分析层，将其加入到上述卷积神经网络。

[0088] 参考图4b，每个卷积层输出的特征图组是上述区域分析层的输入。

[0089] (2d)构建一个迭代量化层，用其替代上述卷积神经网络中最后两个全连接层。

[0090] 步骤103，对输入的全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域，并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。

[0091] (3a)对输入的原全天空极光图像数据库中的每幅图像，分别以k个关键点为中心，确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域。

[0092] (3b)极化卷积神经网络对输入的每幅图像，其每个卷积层各输出一个特征图组，第l个卷积层输出的特征图组由ml幅特征图组成，其中，l＝1,2,3,4,5，m1＝96，m2＝256，m3＝384，m4＝384，m5＝256。

[0093] (3c)分别将上述k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。

[0094] 输入极化卷积神经网络一幅全天空极光图像，每个卷积层输出一组特征图，因特征图的大小和输入的全天空极光图像的大小不一样，所以这里有一个映射，把输入的全天空极光图像上的k个小尺度区域和k个大尺度区的位置缩放到特征图上。

[0095] 步骤104，区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作，分别得到五个特征向量，分别级联五个特征向量及全连接层输出的特征向量，得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征

[0096] (4a)上述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作，即选取第l个卷积层输出的每幅特征图的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到1376(m1+m2+m3+m4+m5)维特征向量，其中，l＝1,2,3,4,5，m1＝96，m2＝256，m3＝384，m4＝384，m5＝256。

[0097] (4b)将第五卷积层输出的特征图组输入全连接层，得到4096维特征向量，将其级联在步骤(4a)所得1376维特征向量之后，得到5472维全局CNN特征fcnn-g。

[0098] 对特征图进行最大池化操作得到的特征向量可以表征整幅图像，所以全局CNN特征可以表征整幅图像，因每幅图像上都分布着k个关键点，所以同一幅图像上的k个关键点拥有相同的全局CNN特征，且该全局CNN特征可以表征整幅图像。

[0099] (4c)上述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作，即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出，得到一个ml维特征向量，五个卷积层共得五个特征向量，级联该五个特征向量，得到一个1376(m1+m2+m3+m4+m5)维特征向量。

[0100] (4d)将上述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后，得到该关键点的5472维的小尺度区域CNN特征

[0101] (4e)遍历k个关键点的小尺度区域，得到k个小尺度区域CNN特征，遍历原全天空极光图像数据库中的N幅图像，得到kN个小尺度区域CNN特征。

[0102] (4f)对关键点的大尺度区域，进行类似于步骤(4c)到步骤(4e)的操作，即区域分析层对该关键点的大尺度区域进行最大池化操作，得到五个特征向量，级联该五个特征向量及上述全连接层输出的特征向量，得到该关键点的5472维的大尺度区域CNN特征 k个关键点、N幅图像，共得到kN个大尺度区域CNN特征。

[0103] 关键点的小尺度区域CNN特征、大尺度区域CNN特征分别从不同尺度上表征了图像的局部信息。

[0104] 步骤105，迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理，并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g，得到每个关键点的上下文深度语义特征

[0105] 迭代量化层使用迭代量化法对输入的每个关键点的小尺度区域CNN特征大cnn-g尺度区域CNN特征全局CNN特征f 进行二值化处理。

[0106] 迭代量化法的目的是将特征向量进行二值化处理，同时保证二值化后的量化误差较小。具体来说，就是将特征向量降低维度后，寻找最优旋转矩阵，能够将降维后的特征向量映射到一个二进制超立方体的顶点上，保证二进制编码的量化误差最小。

[0107] 二值化后的每个关键点的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g的长度都为len字节。

[0108] 步骤106，将每个关键点的上下文深度语义特征存入倒排索引表，完成线下索引。

[0109] (6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W＝{W1,W2,…,WM}，每个视觉单词Wm(m＝1,…,M)为聚类中心，根据每个小尺度区域CNN特征与各个聚类中心之间的距离，将该小尺度区域CNN特征量化到距离最近的聚类中心。

[0110] 将kN个小尺度区域CNN特征看作对象，先随机选取M个对象作为聚类的初始的聚类中心。然后计算每个对象与各个聚类中心之间的欧氏距离，将该对象分配给取值最小的欧氏距离对应的聚类，该聚类包括聚类中心以及分配给它的对象。当全部对象都被分配后，重新计算每个聚类的平均值作为更新后的聚类中心。然后根据所有对象与更新后的聚类中心的欧氏距离重新分配所有对象，确定更新后的聚类。这个过程将不断重复直到满足终止条件：更新前的聚类中心和更新后的聚类中心相同。

[0111] 每个聚类中心为一个视觉单词，所有视觉单词组成视觉字典W＝{W1,W2,…,WM}，M为视觉字典中视觉单词的总个数，Wm(m＝1,…,M)为视觉字典中第m个视觉单词。

[0112] (6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点，确定该聚类中心对应的所有关键点，即该视觉单词对应的所有关键点。

[0113] (6c)构建一个倒排索引表E＝{E1,E2,…,EM}，其中，第m个索引单元Em存储第m个视觉单词Wm信息，m＝1,…,M。

[0114] (6d)构建一个辅助索引表其中，第n个索引单元大b-cnn-g
小为len字节，用于存储第n幅图像二值化后的全局CNN特征f ，n＝1,…,N。

[0115] (6e)对第m个视觉单词Wm对应的一个关键点，开辟4个字节存储所属图像(Image ID)信息，并将其作为全局指针链接步骤(6d)中对应的索引单元，开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征[0116] (6f)遍历第m个视觉单词Wm对应的所有关键点，执行步骤(6e)，完成倒排索引表E中第m个索引单元Em的内容存储；

[0117] (6g)遍历所有视觉单词，完成倒排索引表E的所有索引单元的内容存储，完成线下索引。

[0118] 步骤107，对于输入的一幅查询图像Q，提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数。

[0119] 对于输入的查询图像Q，首先，按照步骤101确定该查询图像的k个关键点，然后，按照步骤103至步骤105提取该查询图像的每个关键点的上下文深度语义特征

[0120] 计算该查询图像的每个关键点的上下文深度语义特征与线下索引保存的每个关键点的上下文深度语义特征的匹配函数

[0121]

[0122] 其中，为与fd之间的汉明距离，h越小，匹配函数取值越大，关键点匹配度越高，为求与fd之间汉明距离的函数，Th为距离阈值；q(·)为量化函数，表示特征量化到某个视觉单词，exp(·)为指数函数，σ为其控制参数。

[0123] 步骤108，计算查询图像Q与原全天空极光图像数据库中每幅图像的相似度。

[0124] 计算该查询图像Q与原全天空极光图像数据库中第n幅图像In的相似度SS(Q,In)：

[0125]

[0126] 其中，idf＝N/Nm表示逆向文件频率，N为原全天空极光图像数据库中图像数量，Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l2范数，tm表示第m个视觉单词在第n幅图像中出现的词频，表示是属于查询图像Q的关键点的上下文深度语义特征，fd∈In表示fd是属于原全天空极光图像数据库中第n幅图像的关键点的上下文深度语义特征。

[0127] 步骤109，按照相似度取值从高到低的顺序对原全天空极光图像数据库中图像进行排序，相似度取值最高的图像被认为是与查询图像最相似，输出排序结果完成线上查询。

[0128] 图2是本发明的一种基于上下文深度语义信息的图像检索方法的又一个流程图，该流程图比较详细的列出本发明的一种基于上下文深度语义信息的图像检索方法。

[0129] 本发明的效果可通过以下仿真实验进一步说明：

[0130] 实验1：极光图像检索准确率比较

[0131] 实验条件：实验用到的全天空极光图像数据库共包含1,003,428幅图像。为了方便研究检索效果随图像数量的变化，本发明将数据库划分为图像数量逐渐增加的8K、14K、100K、500K和1M共5个数据库。

[0132] 实验内容：比较本发明与现有六种图像检索方法的检索准确率。现有方法为背景技术中提及的BoF、HE、VLAD、PE、MOP和MAC，其中，BoF被当作基准方法，HE、VLAD和PE为基于SIFT特征的方法，MOP和MAC为基于CNN特征的方法。

[0133] 表1.本发明与现有六种图像检索方法的检索准确率(％)比较

[0134]

[0135] 表1为本发明与现有六种图像检索方法的检索准确率比较，从中可以看出：①最高的检索准确率在小样本集8K上取得，随着图像数量的增加，检索准确率逐渐下降；②在基于SIFT特征的方法里，PE取得了较好的检索准确率；③基于CNN特征的方法的检索准确率普遍高于基于SIFT特征的方法，这种优势随着图像数量的增加而增大；④本发明取得了最高的检索准确率，随着图像数量的增加，检索准确率下降幅度最小，验证了本发明检索结果的准确性、对数据库大小的鲁棒性和实现大规模图像检索的可行性。

[0136] 实验2：极光图像检索结果示例

[0137] 实验条件：实验用到全天空极光图像数据库中所有图像。

[0138] 实验内容：输入如图5a的查询图像，比较本发明与实验1中六种现有方法返回的检索图像结果。

[0139] 图5b为本发明与现有方法对图5a的检索结果比较，由于所有方法返回的前13个图像都为正确示例，图5b仅显示排序为14到20的检索图像，其中错误结果用虚线框出。从比较结果可以看出：现有方法会出现与查询图像相差较大的结果，而本发明的返回结果都与查询图像相似，从而验证了本发明的有效性。

[0140] 综上，本发明对全天空极光图像进行基于上下文深度语义信息的图像检索，相比于现有图像检索方法，提高了检索准确率，可应用于鱼眼镜头成像的大规模图像的精确检索。

一种基于上下文深度语义信息的图像检索方法转让专利

申请号 : CN201710935929.7

文献号 : CN107832335B

文献日 : 2019-12-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杨曦 , 杨东 , 王楠楠 , 高新波 , 宋彬

申请人 : 西安电子科技大学

摘要 :

权利要求 :

说明书 :