一种基于门机制的图像特征提取方法、装置和系统转让专利

申请号 : CN201910547952.8

文献号 : CN110276397B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨茂柯赵厚龙李祥泰

申请人 : 深动科技(北京)有限公司

摘要 :

一种基于门机制的图像处理的方法、装置和系统,其中该方法至少包括以下步骤:S10,获得神经网络的每一层的特征X对应的门G;S20,对神经网络每一层的特征X,利用门G增强其有用的信息,同时计算该特征X具有无用信息的区域;S30,对每一层特征X中具有无用信息的区域,采用其它层特征的有用信息进行补充;S40,将神经网络所有层的特征进行全连接。通过门机制可以筛选有用的信息抑制无用的信息,全连接的方式可以使所有的特征进行两两之间的信息交流从而使所有的特征都具用不同层次的信息。因此在做最后的特征融合的时候可以从不同层次的特征获取足够多的有用信息而不必担心引入了无效甚至有害信息。

权利要求 :

1.一种基于门机制的图像特征提取方法,至少包括以下步骤:S10,获得神经网络的每一层提取的图像的特征X对应的门G;

S20,对神经网络的每一层提取的图像的特征X,利用门G增强其有用的信息,同时计算该特征X具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用的判断函数;

S30,对每一层提取的图像的特征X中具有无用信息的区域,采用其它层特征的有用信息进行补充;

S40,将神经网络所有层的特征进行全连接。

2.根据权利要求1所述的方法,其中,步骤S10包括,通过门函数Sigmoid获得神经网络的每一层提取的图像的特征X对应的门G。

3.根据权利要求1或2所述的方法,其中,步骤S20包括,通过X*G来提取特征中的有用信息,并抑制特征中的无用信息。

4.根据权利要求1或2所述的方法,其中,步骤S20包括,对于L层神经网络中每一层提取的图像的特征Xn,利用Xn*(1+Gn)来增强其有用的信息,其中,Gn为通过门函数Sigmoid获得的特征Xn对应的门控特征,n为小于等于L的正整数。

5.根据权利要求1或2所述的方法,其中,步骤S20包括,对于L层神经网络中每一层提取的图像的特征Xn,通过Xn*(1-Gn)来得到特征Xn具有无用信息的区域,其中,Gn为通过门函数Sigmoid获得的特征Xn对应的门控特征,n为小于等于L的正整数。

6.根据权利要求4所述的方法,其中,步骤S20还包括,对于L层神经网络中每一层提取的图像的特征Xn,通过Xn*(1-Gn)来得到特征Xn具有无用信息的区域,其中,Gn为通过门函数Sigmoid获得的特征Xn对应的门控特征,n为小于等于L的正整数。

7.根据权利要求1或2或6所述的方法,其中,步骤S30包括,对于神经网络中不同层提取的图像的L个特征X1 , X2 ,… XL ,通过门函数Sigmoid获得其分别对应的L个门控特征G1 , G2 ,… GL ,对于L层神经网络中每一层提取的图像的特征Xn中具有无用信息的区域,采用其它层特征的有用信息进行补充后的信息为:(X1*G1+X2*G2 … +Xn-1*Gn-1+Xn+1*Gn+1 … +XL*GL)*(1-Gn) ,其中,n为小于等于L的正整数。

8.根据权利要求7所述的方法,其中,步骤S30还包括,对于神经网络中不同层提取的图像的L个特征X1 , X2 ,… XL ,通过门函数Sigmoid获得其分别对应的L个门控特征G1 , G2 ,… GL ,对于L层神经网络中每一层提取的图像的特征Xn,利用门机制获得的有用的信息表示为:Xn *(1+Gn)+(X1*G1+X2*G2+Xn-1*Gn-1+Xn+1*Gn+1 … +XL*GL)*(1-Gn) ,其中,n为小于等于L的正整数。

9.根据权利要求1或2或6或8所述的方法,其中,步骤S40包括,将L层神经网络中所有层提取的图像的特征都执行步骤S20-S30的操作后,将所有层的特征都用来自其他层的有用的信息进行补充。

10.一种基于门机制的图像特征提取装置,包括:门获得模块,用于获得神经网络的每一层提取的图像的特征对应的门;

增强模块,用于对神经网络的每一层提取的图像的特征,利用门增强其有用的信息,并用于计算该特征具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用的判断函数;

补充模块,用于对每一层提取的图像的特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;

全连接模块,用于将神经网络所有层的特征进行全连接。

11.一种基于门机制的图像特征提取系统,包括存储器和处理器,存储器存储指令;处理器单元用于根据存储在存储器中的指令,执行如下步骤:S10,获得神经网络的每一层提取的图像的特征对应的门;

S20,对神经网络每一层提取的图像的特征,利用门增强其有用的信息,同时计算该特征具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用的判断函数;

S30,对每一层提取的图像特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;

S40,将神经网络所有层的特征进行全连接。

说明书 :

一种基于门机制的图像特征提取方法、装置和系统

所属技术领域

[0001] 本发明涉及机器视觉技术领域,特别是涉及一种基于门机制的图像特征提取的方法、装置和系统。

背景技术

[0002] 在深度学习中,图像分割的目标是对于在图像中的每一个像素进行分类,这就需要具有高分辨率、高层次语义信息的特征。现有的卷积神经网络在做图像分割时为了获得
高层次的语义特征需要有足够大的感受野,而获得大感受野的最简单的方法就是不断的进
行下采样,这就造成了当特征具有较高层次的语义信息时它的分辨率会变的很低,与此同
时在卷积神经网络的较浅层具有高分辨率的低层次特征,但是其语义信息比较弱。因此,通
常为了获得高分辨率、高层次语义信息的特征,需要将不同层次的特征融合起来。
[0003] 特征融合常用的方法是将特征从高层次到低层次逐层进行融合,然后直接做预测或者将所有不同层次的特征融合到一起之后再做预测,与此相对应的代表性的工作是U-
Net和FPN(特征金字塔网络)。由于不同层次的特征的关注点不同,比较浅层次的特征关注
细节信息而高层次的特征关注语义信息,不同信息之间有比较大的差别。U-Net和FPN这两
种技术都是将特征不加选择的融合到一起,导致无用信息的引入从而损失原有的有用信
息。因此,将所有的信息加以选择的引入到所有的特征中对于最后的预测会十分有利。

发明内容

[0004] 本发明主要解决的就是深度学习中的特征选择以及特征融合问题。现有的技术都是将特征从高层次到低层次不加选择直接融合,而本发明的改进点在于先用门机制将特征
中有用的信息提取出来,然后再以全连接的方式将有用的信息在不同的特征之间进行分发
补充以达到特征融合的目的,最后再将所有的特征融合到一起做预测。门机制可以负责筛
选有用的信息抑制无用的信息,全连接的方式可以使所有的特征进行两两之间的信息交流
从而使所有的特征都具有不同层次的信息。因此在做最后的特征融合的时候可以从不同层
次的特征获取足够多的有用信息而不必担心引入了无效甚至有害的信息。
[0005] 本发明的目的在于提供一种基于门机制的图像特征提取方法、装置和系统,具体技术方案如下:
[0006] 第一方面,本发明实施例提供了一种基于门机制的图像特征提取方法,包括:
[0007] S10,获得神经网络的每一层提取的图像的特征对应的门;
[0008] S20,对神经网络的每一层提取的图像的特征,利用门增强其有用的信息,同时计算该特征具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用的判断函数;
[0009] S30,对每一层提取的图像的特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0010] S40,将神经网络所有层的特征进行全连接。
[0011] 第二方面,本发明实施例提供了一种基于门机制的图像特征提取装置,包括:
[0012] 门获得模块,用于获得神经网络的每一层提取的图像的特征对应的门;
[0013] 增强模块,用于对神经网络的每一层提取的图像的特征,利用门增强其有用的信息,并用于计算该特征具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用
的判断函数;
[0014] 补充模块,用于对每一层提取的图像特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0015] 全连接模块,用于将神经网络所有层的特征进行全连接。
[0016] 第三方面,本发明还提供了一种基于门机制的图像特征提取系统,包括存储器和处理器,存储器存储指令;处理器单元用于根据存储在存储器中的指令,执行如下步骤:
[0017] S10,获得神经网络的每一层提取的图像的特征对应的门;
[0018] S20,对神经网络的每一层提取的图像的特征,利用门增强其有用的信息,同时计算该特征具有无用信息的区域;其中,利用门函数Sigmoid作为特征是否有用的判断函数;
[0019] S30,对每一层提取的图像的特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0020] S40,将神经网络所有层的特征进行全连接。
[0021] 基于本申请的技术方案,先通过用门机制将特征中有用的信息提取出来,然后再以全连接的方式将有用的信息在不同的特征之间进行分发补充以达到特征融合的目的,最
后再将所有的特征融合到一起做预测。门机制可以负责筛选有用的信息抑制无用的信息,
全连接的方式可以使所有的特征进行两两之间的信息交流从而使所有的特征都具用不同
层次的信息。因此在做最后的特征融合的时候可以从不同层次的特征获取足够多的有用信
息而不必担心引入了无效甚至有害信息。

附图说明

[0022] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的
附图。
[0023] 图1为本发明实施例的图像处理方法的流程图;
[0024] 图2为本发明实施例的获得每层特征的有用信息的具体算法流程。

具体实施方式

[0025] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0026] 为解决深度学习中的特征选择以及特征融合问题,本申请实施例提供了一种基于门机制的图像处理方法和装置。基于门机制,可以筛选有用的信息抑制无用的信息;而全连
接的方式可以使所有的特征进行两两之间的信息交流从而使所有的特征都具用不同层次
的信息。因此,本发明实施例先通过门机制将有用的信息提取出来,然后再以全连接的方式
将有用的信息在不同的特征之间进行分发补充以达到特征融合的目的,最后再将所有的特
征融合到一起进行预测。
[0027] 下面首先对本发明实施例所提供的一种基于门机制的图像处理方法进行介绍。
[0028] 需要说明的是,本发明实施例所提供的一种基于门机制的图像处理方法被一种图像处理装置所执行,其中,该图像处理装置可以为相关技术中独立的图像处理软件,也可以
为图像处理软件中的功能插件;另外,该图像处理装置可以应用于电子设备中,该电子设备
为终端设备和/或服务器。
[0029] 如图1所示,本发明实施例提供了一种基于门机制的图像处理方法,包括如下步骤:
[0030] S10,获得神经网络的每一层的特征对应的门。
[0031] 在一个实施例中,可以通过门函数Sigmoid来获得神经网络每一层的特征X对应的门控特征G。首先,介绍门函数Sigmoid。门函数Sigmoid是一个有界可微的实数函数,定义如
下:
[0032]
[0033] Sigmoid函数的输出范围为(0,1),输出可以表示概率、置信度等。为了降低无用信息对特征融合的影响,在进行特征融合时要尽可能的减少无用信息,就需要在特征融合前
先判断特征中的信息是否有用,在本申请实施例中选择利用门函数Sigmoid作为特征是否
有用的判断函数。具体实现方式为将特征X作为函数Sigmoid的输入,该函数的输出,即门G
是一个值域在(0,1)之间的门控特征,该门控特征G即表示了输入特征X的置信度,当置信度
越高时,可以认为该特征X中的信息越有用。
[0034] 通过这种方式,对于神经网络中不同层次的L个特征X1,X2,…XL,可以通过门函数Sigmoid获得其分别对应的L个门控特征G1,G2,…GL。
[0035] S20,对神经网络每一层的特征,利用门增强其有用的信息,同时计算该特征具有无用信息的区域;
[0036] G是将每一层的特征X输入门函数Sigmoid后得到的门控特征,同时G∈(0,1),本申请中通过X*G来提取特征中的有用信息,并抑制特征中的无用信息。其中,每一层特征中的
有用信息可以用来补充其他层的特征。
[0037] 具体来说,X*G是利用门控特征G对特征X进行加权。由于门控特征G与特征X在空间上是一一对应的,在门控特征G中数值比较低的点,其在特征X中对应点的置信度也就较低,
即对应点的信息是无用的,使用X*G可以使该点的数值进一步减小,即抑制无用信息;而在
门控特征G中数值比较高的点,其在特征X中对应点的置信度也就较高,即对应点的信息是
有用的,使用X*G则不会使该点的数值减小过多。因此,使用X*G可以提取特征中的有用信息
抑制特征中的无用信息。
[0038] 对于第n(n为小于等于L的正整数)层特征Xn来说,首先需要加强自己本身的有用信息,即采用Xn+Gn的加权方式进行计算。由于经过加权后可能造成信息丢失,在本实施例中
使用残差连接的方式来补偿信息丢失,即采用Xn+(1+Gn)的加权方式进行计算。也就是说,对
于每个特征Xn,利用Xn+(1+Gn)来增强其有用的信息。
[0039] 同时,每层的特征Xn根据其门Gn将有用信息发送给其它层,每层特征都与其它层特征相连接,以在各层之间互相补充有用的信息。#
[0040] 对于第n(n为小于等于L的正整数)层特征Xn来说,加强自己本身的有用信息后,还可以补充其无用的信息。而要补充特征Xn中无用的信息,就要先获得其具有无用信息的区
域。在本实施例中,可以通过Xn+(1-Gn)来得到特征Xn具有无用信息的区域。
[0041] S30,对每一层特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0042] 本实施例中可以采用所有其它层的特征中的有用信息来对该层特征Xn中具有无用信息的区域进行补充,以得到该具有无用信息的区域的有用信息的增强。
[0043] 首先,为了不使其它层特征中的无用信息对本层的特征造成干扰,也将它们进行了加权,即采用Xn*Gn的方式进行加权。而且需要补充的是Xn中无用信息区域的信息,所以其
它层特征传递过来的信息都又经过了1-Gn的加权,使得信息补充到需要补充的区域。即特
征Xn中无用信息区域经过增强后的信息为:
[0044] (X1*G1+Xz*Gz+Xn-1*Gn-1+Xn+1*Gn+1…XL*GL)*(1-Gn)
[0045] 也就是说,对于每层提取到的特征Xn来说,通过本实施例的方式,利用门机制获得的有用的信息可表示为:
[0046] Xn*(1+Gn)+(X1*G1+X2*G2+Xn1*Gn1+Xn|1*Gn|1…+XL*GL)*(1-Gn)
[0047] 图2示出了根据本发明实施例的基于门机制获得有用的信息的具体算法流程。
[0048] 通过上述方式,对每一层的特征Xn,可以增强其有用的信息,并抑制无用的信息。
[0049] S40,将神经网络所有层的特征进行全连接。
[0050] 将所有层的特征都执行步骤S20-S30的操作,也就是将所有层的特征都用来自其他层的有用的信息进行补充,即将所有层的特征进行全连接。以全连接的方式将有用的信
息在不同层的特征之间进行分发补充以达到特征融合的目的,最后再将所有的特征融合到
一起做预测。
[0051] 对于一层的特征Xn来说,收集其它层的特征中的有用信息给自己,同时也将自己的有用信息传递给其它层的特征,使得有用信息在各层之间得到充分交流。
[0052] 全连接的方式可以使所有层的特征进行两两之间的信息交流从而使所有层的特征都具用不同层次的信息。因此在做最后的特征融合的时候可以从不同层次的特征获取足
够多的有用信息而不必担心引入了无效甚至有害信息。
[0053] 因此,本申请利用门机制可以保留有用的信息、抑制无用的信息,同时获得需要补充信息的区域,并通过全连接的方式将信息进行两两之间的交流,可以从不同层次的特征
获取足够多的有用信息而不必担心引入了无效甚至有害信息,从而利用每个特征本身的有
用信息去补充其它的特征,使得每个特征都具用不同层次的信息,达到特征融合的目的。
[0054] 相应于上述方法实施例,本发明实施例还提供了一种图像处理装置,包括:
[0055] 门获得模块,用于获得神经网络的每一层的特征对应的门;
[0056] 增强模块,用于对神经网络的每一层的特征,利用门增强其有用的信息,并用于计算该特征具有无用信息的区域;
[0057] 补充模块,用于对每一层特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0058] 全连接模块,用于将神经网络所有层的特征进行全连接。
[0059] 本发明还提供了一种基于门机制的图像处理系统,包括存储器和处理器。
[0060] 其中,存储器用于存储应用、指令、模块和数据,处理单元通过运行存储在存储单元中的应用、指令、模块和数据,从而执行客户端的各种功能应用(例如本发明的图像分割
装置)以及数据处理。存储单元主要包括应用存储区和数据存储区,其中,应用存储区存储
操作系统、应用软件(比如声音播放软件、图像播放软件)等;数据存储区存储客户端的使用
所创建的数据(比如音频数据、视频数据、电话本)等。存储器包括高速随机存取存储器,还
可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储
器件。
[0061] 处理单元是客户端的控制中心,用于执行存储在存储单元内的应用软件和/或模块,以及调用存储在存储器内的数据,执行客户端的各种功能和处理数据。
[0062] 另外,客户端还可以包括摄像头、麦克风、蓝牙模块、传感器、电源等,在此不再赘述。
[0063] 在本发明实施例中,存储器存储指令;处理器单元用于根据存储在存储器中的指令,执行如下步骤:
[0064] S10,获得神经网络的每一层的特征对应的门;
[0065] S20,对神经网络每一层的特征,利用门增强其有用的信息,同时计算该特征具有无用信息的区域;
[0066] S30,对每一层特征中具有无用信息的区域,采用其它层特征的有用信息进行补充;
[0067] S40,将神经网络所有层的特征进行全连接。
[0068] 综上所述,本申请技术方案利用门机制可以保留有用的信息、抑制无用的信息,同时获得需要补充信息的区域,并通过全连接的方式将信息进行两两之间的交流,可以从不
同层次的特征获取足够多的有用信息而不必担心引入了无效甚至有害信息,从而利用每个
特征本身的有用信息去补充其它的特征,使得每个特征都具用不同层次的信息,达到特征
融合的目的。
[0069] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的各模块、各指令的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0070] 在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅
仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结
合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的
相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通
信连接,可以是电性,机械或其它的形式。
[0071] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0072] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全
部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-
OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储
程序代码的介质。
[0073] 以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前
述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些
修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。