一种基于多模态深度学习的图像标注方法转让专利

申请号 : CN201510198325.X

文献号 : CN105184303B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱松豪孙成建师哲

申请人 : 南京邮电大学

摘要 :

本发明公开了一种基于多模态深度学习的图像标注方法,该方法包括以下步骤:首先,利用无标签图像训练深度神经网络;其次,采用反向传播优化各个单模态;最后,采用在线学习的幂梯度算法优化不同模态间的权重。本发明在应用卷积神经网络技术优化深层神经网络的参数,提高标注精度。公共数据集的实验表明,本发明可以有效地提高图像标注的性能。

权利要求 :

1.一种基于多模态深度学习的图像标注方法,其特征在于,所述方法包括如下步骤:步骤1:利用无标签的图像样本集,预训练深度神经网络的节点权重,深度神经网络采用八层的卷积神经网络,其中前五层为卷积层,其余三层为全连接层;全连接层的输出作为Softmax分类器的输入,Softmax分类器生成1000个标识的类别;预训练与微调阶段均使用多项式逻辑回归的目标函数;

所述卷积层的第一层、第二层、第五层均为归一化层,且为保持不变性,所有归一化层均使用最大池技术;在所有卷积层和全连接层中,均使用线性调整单元作为非线性激活函数;

所用卷积神经网络中,所有输入图像大小统一为256×256;接下来,分别将前两个卷积滤波器设为7×7和5×5,步长为2,使用这种类型滤波器是为获取所有频段信息,使用小步长是为避免产生对下一层网络有影响的“死特征”;然后,将卷积层的后三层依次连接,且设置滤波器大小3×3,步长为1;最后,每个全连接层的输出尺寸为4096,在预训练阶段,将前两个全连接层的信号丢失率设为0.6;

步骤2:采用反向传播算法,优化各个单模态的权重,反向传播算法包括:①单模态预训练:

利用无标注训练集进行卷积神经网络的预训练,实现图像目标的中间表示,同时初始化网络,包括:首先,利用对比差异,训练输入层与第一卷积层间的节点权值W1;然后,将第一卷积层节点的条件概率作为第二卷积层的输入:p(Γ|xj)=S(W1,xj)        (1)其中xj为第j个特征矢量,Γ为标注信息,S()为如下式所示的相似性函数:然后,第一卷积层和第二卷积层结合起来训练节点权重W2;利用相同的方法,训练其余的3层卷积层和3层全连接层的节点权重;

②单模态微调阶段:

在单模态微调阶段,利用反向传播标注误差优化节点权重,从模式识别角度来看,多标注学习视为多任务学习;卷积神经网络的总体标注误差视为每个标注误差的总和,以第l个标注误差描述节点权重优化过程,包括:首先,对图像x而言,其在第j个特征模式下xj,含有第l个标注Γl的概率用下式的后验概率表示:其中L表示标注数量;

然后,最小化预测概率与参考概率间的KL差异;假定每幅图像有多个标注,用矢量表示y∈R1c,其中yl=1表示图像x的标注集中含有这第l个标注,而yl=0表示图像x的标注集中不含有这第l个标注,qil表示图像xi与标注l间的概率,则将这第l个标注正确分配给图像的误差为:所有标注的分配误差为:

最后,依次利用反向传播更新其它两层全连接层与五层卷积层的节点权重;

步骤3:采用在线学习的幂梯度算法,优化模态组合间的权重;

对多模态深度网络而言,另一个重要任务是学习多模态间的最佳组合权重α=(α1,α2,…,αn,…,αN),其中将αn初始设置成1/N;采用在线学习的幂梯度算法优化多模态的权重组合,包括:其中KL(.)表示KL差分,h(α)表示合页损失函数:其中St为:

+ - + - T

St=(S1(x,Γ)-S1(x,Γ),...,SN(x,Γ)-SN(x,Γ))    (8)其中标注Γ+与Γ-更能反应图像内容;

在αt处对函数h(α)进行一阶泰勒展开式,以简化优化问题,因此等式(8)可写为一阶泰勒展开形式:若Γ+与Γ-未按顺序正确排列,即对节点权重α的值进行自动化更新。

2.根据权利要求1所述基于多模态深度学习的图像标注方法,其特征在于,所述基于多模态深度学习的图像标注方法应用于卷积神经网络。

说明书 :

一种基于多模态深度学习的图像标注方法

技术领域

[0001] 本发明涉及一种图像标注方法,尤其涉及基于多模态深度学习的图像标注方法,属于图像处理技术领域。

背景技术

[0002] 近年来,随着图像数量的剧增,人们迫切地需要实现图像内容的高效标注,以实现大规模图像的有效检索与管理。
[0003] 从模式识别的角度来看,将图像标注问题视为根据内容给图像分配一组标签,其中如何选取表征图像内容的合适特征,将在很大程度上影响标注性能。由于众所周知的语义鸿沟问题,现有技术进行图像语义标注时很难达到令人满意的结果。近年来,Hinton等人提出利用深度神经网络,从训练集中有效地训练特征。不同类型的深度神经网络,已成功应用于各种语言及信息检索。这些方法通过深度结构、深度学习从训练数据中发现隐藏的数据结构及有效的表征特征,提高了系统性能。

发明内容

[0004] 本发明目的在于提供了一种基于多模态深度学习的图像标注方法,该方法应用于卷积神经网络技术,优化了深层神经网络参数,提高了标注精度。该方法总结单模态学习的基础上,实现多模态的学习,其中既包括研究表征图像的底层特征,如颜色、形状或纹理等,也包括度量图像与标注间相似性函数,如线性相似性、余弦相似性以及径向距离等。
[0005] 本发明解决其技术问题所采取的技术方案是:本发明提供了一种基于多模态深度学习的图像标注方法,该方法包括以下步骤:
[0006] 步骤1:利用无标签的图像样本集,预训练深度神经网络的节点权重。
[0007] 步骤2:采用反向传播算法,优化各个单模态的权重。
[0008] 步骤3:采用在线学习的幂梯度算法,优化模态组合间的权重。
[0009] 本发明步骤1所述的深度神经网络是采用八层的卷积神经网络,其中前五层为卷积层,其余三层为全连接层;全连接层的输出作为Softmax分类器的输入,Softmax分类器生成1000个标识的类别;预训练与微调阶段均使用多项式逻辑回归的目标函数。
[0010] 在上述本发明的卷积层中,第一层、第二层、第五层均为归一化层,且为保持不变性,所有归一化层均使用最大池技术。另外,在所有卷积层和全连接层中,均使用线性调整单元作为非线性激活函数;
[0011] 本发明上述所用卷积神经网络中,所有输入图像大小统一为256×256大小;接下来,分别将前两个卷积滤波器设为7×7和5×5,步长为2,使用这种类型滤波器是为获取所有频段信息,使用小步长是为避免产生对下一层网络有影响的“死特征”;然后,将卷积层的后三层依次连接,且设置滤波器大小3×3,步长为1;最后,每个全连接层的输出尺寸为4096。在预训练阶段,将前两个全连接层的信号丢失率设为0.6。
[0012] 本发明步骤2所述的反向传播优化各个单模态步骤,包括:
[0013] ①单模态预训练:
[0014] 利用无标注训练集进行卷积神经网络的预训练,实现图像目标的中间表示,同时初始化网络。具体过程描述如下:首先,利用对比差异,训练输入层与第一卷积层间的节点权值W1;然后,将第一卷积层节点的条件概率作为第二卷积层的输入:
[0015] p(Γ|xj)=S(W1,xj)   (1)
[0016] 其中xj为第j个特征矢量,Γ为标注信息,S()为如下式所示的相似性函数:
[0017]
[0018] 然后,第一卷积层和第二卷积层结合起来训练节点权重W2;利用相同的方法,训练其余的3层卷积层和3层全连接层的节点权重;
[0019] ②单模态微调阶段:
[0020] 在单模态微调阶段,利用反向传播标注误差优化节点权重。从模式识别角度来看,多标注学习可视为多任务学习。因此,卷积神经网络的总体标注误差可视为每个标注误差的总和。下面以第l个标注误差为例说明节点权重优化过程;
[0021] 首先,对图像x而言,其在第j个特征模式下xj,含有第l个标注Γl的概率可用下式的后验概率表示:
[0022]
[0023] 其中L表示标注数量。
[0024] 然后,最小化预测概率与参考概率间的KL差异。假定每幅图像有多个标注,用矢量表示y∈R1×c,其中yl=1表示图像x的标注集中含有这第l个标注,而yl=0表示图像x的标注集中不含有这第l个标注。qil表示图像xi与标注l间的概率,则将这第l个标注正确分配给图像的误差为:
[0025]
[0026] 所有标注的分配误差为:
[0027]
[0028] 最后,依次利用反向传播更新其它两层全连接层与五层卷积层的节点权重。
[0029] 包括:
[0030] 对多模态深度网络而言,另一个重要任务是学习多模态间的最佳组合权重α=(α1,α2,…,αn,…,αN),其中将αn初始设置成1/N。本发明采用在线学习的幂梯度算法优化多模态的权重组合:
[0031]
[0032] 其中KL(.)表示KL差分,h(α)表示合页损失函数:
[0033]
[0034] 其中St为:
[0035] St=(S1(x,Γ+)-S1(x,Γ-),...,SN(x,Γ+)-SN(x,Γ-))T   (8)
[0036] 其中标注Γ+与Γ-更能反应图像内容。
[0037] 在αt处对函数h(α)进行一阶泰勒展开式,以简化优化问题,因此等式(8)可写为一阶泰勒展开形式:
[0038]
[0039] 若Γ+与Γ-未按顺序正确排列,即对节点权重α的值进行自动化更新。
[0040] 有益效果:
[0041] 1、本发明优化了深层神经网络参数,提高了标注精度。
[0042] 2、本发明更好地实现了基于深度神经网络学习模型的图像标注有效性。
[0043] 3、本发明能够有效地提高图像标注的性能。

附图说明

[0044] 图1为本发明的方法流程图。
[0045] 图2为本发明的深度神经网络模型。
[0046] 图3为本发明的自然场景图形库的示例图像。
[0047] 图4为本发明的NUS-WIDE图像库的图像。
[0048] 图5为本发明的IAPRTC-12图像数据库的示例图像。
[0049] 图6为本发明的三种公共图像库中,不同模态权重组合的结果示意图。

具体实施方式

[0050] 下面结合说明书附图对本发明创造作进一步的详细说明。
[0051] 如图1所示,本发明提供了一种基于多模态深度学习的图像标注方法,该方法包括:首先,利用无标签图像训练深度神经网络;其次,采用反向传播优化各个单模态;最后,采用在线学习的幂梯度算法优化不同模态间的权重。
[0052] 本发明中的深度神经网络是采用卷积神经网络,其模型结构如图2所示。本发明通过一系列实验,评估本发明提出的基于多模态深度学习图像标注算法的性能。
[0053] 步骤1:介绍用于评估算法性能的数据集。
[0054] 实验采用三个公共图像数据集,包括如图3所示的自然场景图像库,如图4所示的NUS-WIDE图像库,及如图5所示的IAPRTC-12图像库。这三个图像库的详细信息描述如下:
[0055] 自然场景图像库包含2000幅图像,所有这些图像包含以下5种标注:沙漠,高山,大海,夕阳和树木。超过20%的图像含有一个以上标注,每幅图像标注的平均值为1.3。图3给出两幅来自自然场景图形库的示例图像,其中图3(a)的标注为夕阳与大海,图3(b)的标注为高山与树木。
[0056] NUS-WIDE图像库包含30,000种图像,这些图像标注含有小船、汽车、旗帜、马、天空、太阳、塔、飞机、斑马等在内的31种标注。图4给出两幅来自NUS-WIDE图像库的图像,其中图4(a)的标注含有天空与飞机,而图4(b)的标注含有大海与夕阳。
[0057] IAPRTC-12图像数据库包含20,000幅图像,291种标注,每幅图像的平均标注数为5.7。图5给出了两幅来自于IAPRTC-12图像数据库的示例图像。图5(a)的标注含有棕色,人脸,头发,男人和女人,而图5(b)的标注含有船舶、湖泊、天空、树木。
[0058] 步骤2:给出表征图像的视觉特征与学习得到的最优参数。
[0059] 特征选择对系统性能有着很大的影响。本发明选取以下全局特征和局部特征作为图像表征的描述符:
[0060] 全局特征:(1)128维HSV颜色直方图和225维LAB颜色矩,(2)37维边缘方向直方图,(3)36维金字塔小波纹理,(4)59维局部二元模式特征描述符,(5)960维GIST特征描述符。
[0061] 局部特征:采用两种不同的取样方法和三种不同的局部描述符来提取局部纹理特征,具体过程包括如下描述:首先,进行密集采样和哈里斯角点检测;然后,提取SIFT特征、CSIFT特征、RGBSIFT特征,构建k均值聚类的1000类别的码本;接下来,采用二级空间金字塔模式,构建每幅图像的5000维矢量;最后,使用TF-IDF权重方法生成最终的视觉词袋。在整个实验中,所有特征向量都标准化在[0,1]范围内。
[0062] 对每组查询-标注对,上述公式(4)中给出了3种相似性度量,且通过交叉验证选择边缘参数μ。交叉验证后,余弦相似度测量中的μ值为0.18;线性相似度测量中的μ值为1;RBF相似性度量中的σ值为2,μ值为0.18。
[0063] 步骤3:通过对比实验,测试本发明所提算法的性能。
[0064] 算法对比
[0065] 本发明对比实验在以下三种图像分类方法间进行:
[0066] 基于惰性学习算法:首先,对于每个测试图像,在训练图像库中寻找K个最相似的图像;然后,统计K个最相似图像的特性;最后,依据最大后验概率分配测试图像的标注。
[0067] 基于深度表示与编码算法:利用分层模型学习图像像素级的表示,实现图像标注[0068] 本发明方法:通过深层神经网络实现图像标注。
[0069] 模态权重
[0070] 本发明所述方法中,不同模态的组合权重α对系统性能有着很大的影响。图5给出三种公共图像库中,不同模态权重组合的结果。图6(a):自然图像库下的不同模态组合权重。图6(b):NUS-WIDE图像下的不同模态组合权重。图6(c):IAPRTC-12图像下的不同模态组合权重。
[0071] 从图6所示的结果中可以很容易地看到,不同模态间的比例并没有显著差异。这就意味着每种模态对不同图像类别或多或少有些帮助,这主要是因为这三种图像库包含许多不同类别的自然场景图像,这也同时进一步验证了获得不同模态最优组合的重要性。
[0072] 性能对比
[0073] 表1给出了几种使用不同方法的多标号图像注释技术的实验对比结果。
[0074] 表1:实验对比结果。
[0075]
[0076] 从表1所示结果可以看出,本发明所提方法的NDCG@w性能优于其它两种现有的方法,这验证基于深度神经网络学习模型的图像标注有效性。