一种基于深度哈希编码的短视频多标签快速分类方法转让专利

申请号 : CN202110042475.7

文献号 : CN112732976B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 井佩光张凯李亚鑫苏育挺

申请人 : 天津大学

摘要 :

本发明公开了一种基于深度哈希编码的短视频多标签快速分类方法,包括:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行內积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。

权利要求 :

1.一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述方法包括:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;

由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与原有的标签矩阵构成的交叉熵损失函数作为第二目标函数;

将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;

将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果;

其中,

在给定各个视角特征时对其潜在表示进行最大似然建模:(V)

其中,p(X |H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率;

其中, 是控制从潜在表示H到特征矩阵 的网络参数,包括为第v个视角下的权重参数, 为第v个视角下的偏差参数,∝为正比符号,为重构损失;

最大化对数似然函数等价于最小化重构损失 构成多视角子空间(v)

重构学习项U ,作为第一目标函数,为:(v)

其中, 为矩阵U 的每一列,hn为每个样本的潜在表示,a(·)为激活函数,(v) (v)

分别为子空间编码网络的权重和偏置,U 为编码网络的输出,X 为各个视角下的样本矩2

阵,V为视角的数量,v代表不同视角的序号,||.||F代表F范数的平方;

所述第二目标函数为:

其中,Wg为图卷积网络的参数,Y为给定的标签矩阵, 为预测矩阵,C为视角个数,N为样本个数,σ为sigmoid激活函数;

所述第三目标函数为:

(h)

其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z 为(g)

潜在表示H的哈希编码,Z 为标签表示的哈希编码。

2.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:

以平均期望准确率作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终平均期望准确率收敛,得到最终的参数矩阵 Wg,潜在表示矩阵H,哈希编(h) (g)

码矩阵Z ,Z 。

3.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述整体网络为:用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;

用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;

用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。

说明书 :

一种基于深度哈希编码的短视频多标签快速分类方法

技术领域

[0001] 本发明涉及社交媒体环境下的短视频快速分类领域,尤其涉及一种基于深度哈希编码的短视频多标签快速分类方法。

背景技术

[0002] 新世纪以来,随着智能手机及其他终端设备的普及和移动互联网的兴起,多媒体信息处理领域获得了越来越多的关注。当今,生活节奏的加快,人们更倾向于浏览短小的视
频,短视频也正快速地融入到人们生活中的方方面面。
[0003] 从以往的一个电影或者电视剧的长视频信息,到如今人们更倾向于利用碎片化的时间,浏览各个社交平台发布和分享短视频信息。如何能够更加有效地挖掘和管理短视频
为用户提供更加精准的服务变得越来越重要,短视频智能分析成为一个极具有前景的研究
方向。
[0004] 尽管移动互联网时代的发展使得短视频数据量变得越来越庞大,但得益于近年硬件设备的发展和算力的提高,以机器学习尤其是深度学习为代表的人工智能技术开始加速
发展。在此背景下,利用深度学习对海量的短视频进行智能分析和处理成为了一种必然趋
势。

发明内容

[0005] 本发明致力于解决短视频所面临的多标签分类问题,由于一个短视频具有多个模态,并且往往是多个标签,如何有效地进行多模态的融合和多标签的分类面临挑战;同时短
视频的数据量巨大,如何能够高效快速的进行分类也至关重要,本发明基于此,提出了基于
深度哈希的短视频多标签快速分类方法,详见下文描述:
[0006] 一种基于深度哈希编码的短视频多标签快速分类方法,所述方法包括:
[0007] 将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
[0008] 由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
[0009] 将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
[0010] 将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
[0011] 其中,所述将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构具体为:在给定各个视角特征时对其潜在表示进行最大似然建模:
[0012]
[0013] 其中, 是控制从潜在表示H到特征矩阵 的网络参数,包括为第v个视角下的权重参数, 为第v个视角下的偏差参数,∝为正比符号,
为重构损失;
[0014] 最大化对数似然函数等价于最小化重构损失 构成多视角子(v)
空间重构学习项U 为:
[0015] 其中, 为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,(v) (v)
分别为子空间编码网络的权重和偏置,U 为编码网络的输出,X 为各个视角下
2
的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F代表F范数的平方。
[0016] 进一步地,所述第三目标函数为:
[0017]
[0018] 其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h) (g)
为潜在表示H的哈希编码,Z 为标签表示的哈希编码。
[0019] 其中,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:
[0020] 以平均期望准确率作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终平均期望准确率收敛,得到最终的参数矩阵 Wg,潜在表示矩阵H,哈
(h) (g)
希编码矩阵Z ,Z 。
[0021] 进一步地,所述整体网络为:
[0022] 用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
[0023] 用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
[0024] 用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
[0025] 本发明提供的技术方案的有益效果是:
[0026] 1、本发明通过利用子空间学习的原理,找到了对原始视频特征进行重构的公共潜在表示,结合最大似然函数的相关知识,学习每个样本完备的潜在表示;
[0027] 2、本发明通过构建标签之间的有向图和相关矩阵,通过图卷积网络来更新节点之间的信息,最终得到目标的多标签表示;
[0028] 3、本发明通过获得样本空间和标签空间的哈希编码,从而能够做到快速分类,提升效率和资源的利用率。将以上多种思想结合在一起以实现最优的分类效果,尤其适合多
标签短视频的快速分类。

附图说明

[0029] 图1为一种基于深度哈希编码的短视频多标签快速分类方法的流程图。

具体实施方式

[0030] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0031] 实施例1
[0032] 本发明实施例提供了一种基于深度哈希编码的短视频多标签快速分类方法,参见图1,该方法包括以下步骤:
[0033] 101:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
[0034] 102:由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
[0035] 103:将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
[0036] 104:将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
[0037] 其中,整体网络包括:用于对原始空间进行重构的子空间编码网络,具体采用MLP模型(多层感知机),注意其输入是随机初始化的潜在表示H;用于获取标签表示的图卷积网
络,首先采用Glove(手套)模型获取标签的Word Embedding(词向量),将其作为图卷积网络
的输入,网络为两层的人工神经网络;用于离散二值化的深度哈希编码网络,此部分直接采
用符号函数获取特征表示和标签表示的哈希编码。
[0038] 在步骤101之前,该方法还包括:
[0039] 从视频数据集中提取视觉(vision)和音频(audio)两种不同特征,并对二者进行相应归一化处理,最终构成2048维度的特征表示,将2048维度的特征表示进行整合得到特
征矩阵 。
[0040] 综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,结合图卷积网络的相关知识,学习短视频各个标签之间的关系,进行內
积后获得分类结果,从而获得可用于多标签分类的网络模型,基于该模型对实际的短视频
多标签进行快速分类。
[0041] 实施例2
[0042] 下面结合计算公式、图1、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
[0043] 201:将视频等间隔抽取15帧,随后分别使用VGG19(即Oxford的Visual Geometry Group组提出的深度学习网络)模型和MFCC(梅尔倒谱系数)模型提取其视觉(vision)和音
频(audio)两种不同特征,二者的特征维数同为2048维,并对这些特征进行归一化处理,将
所有视频的15帧特征整合成1*2048维,最后将视频数据集分成训练集,验证集和测试集,每
个集合的视频整合在一起构成了特征矩阵
[0044] 202:确定特征矩阵 的完备潜在表示H,假设各个视角是条件独立的,在给定潜在表示H时对特征矩阵进行似然建模:
[0045]
[0046] 其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率。
[0047] 在给定各个视角特征时对其潜在表示进行最大似然建模:
[0048]
[0049] 其中, 是控制从潜在表示H到特征矩阵 的网络参数,其包括为第v个视角下的权重参数, 为第v个视角下的偏差参数,∝为正
比符号,其中 为重构损失,将上式写成对数形式,然后最大化对数似然函数
等价于最小化重构损失,所以其可推导为:
[0050]
[0051] 其中,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代2 (v)
表不同视角的序号,||.||F代表F范数的平方。由此整体构成多视角子空间重构学习项,U
具体为:
[0052] 其中, 为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,分别为子空间编码网络的权重和偏置。
[0053] 203:利用图卷积网络学习标签之间的相关性,构建多标签表示;
[0054] 首先提取标签特征描述H(l)和对应的相关矩阵A,然后更新标签图,其更新规则如下:
[0055]
[0056] 其中, 是度矩阵, 是规范化后的邻接矩阵, 是第l层的转换矩阵(该三个参数为图卷积网络中的技术术语,本发明实施例对此不作赘述),σ(·)为非线性激活函数,在
实验中,第一层的网络输入为 经过图卷积网络的更新,最后一层网络的输出为
即训练得到的标签表示, 为实数集,d为中间层的特征维度,D为输出层的特征
维度,C为标签个数。
[0057] 将特征矩阵 的潜在表示H和标签表示G进行內积的结果作为预测的标签矩阵,对于第n个样本,其预测得分为: T为对矩阵进行转置运算。
[0058] 将其与原有的标签矩阵Y构成交叉熵损失函数,得到如下公式(即第二目标函数):
[0059]
[0060] 其中,Wg为图卷积网络的参数,Y为给定的标签矩阵,为预测矩阵,C为视角个数,N为样本个数,σ为sigmoid激活函数;由此整体构成损失函数项(即第二目标函数)。
[0061] 204:符号函数sign(·)的定义为如下公式:
[0062] 利用符号函数获得潜在表示H和标签表示G的离散值,优化以下公式:
[0063] 可以得到Z(h)=sign(H),Z(g)=sign(G),即潜在表示H和标签表示G的哈希编码,因为H和G可以保持标签矩阵的相似性,所以其哈希编码也保持了标签矩阵的相似性。
[0064] 为了使哈希编码的每一位保持平衡和防止过拟合,在公式后面添加正则化平衡项,即可得到如下公式(第三目标函数):
[0065]
[0066] 其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h) (g)
为潜在表示H的哈希编码,Z 为标签表示的哈希编码。由此整体构成哈希编码和正则化
平衡项。
[0067] 205:将公式的目标项整合到一起,得到如下总目标函数:
[0068]
[0069] 其中,γ,η为自定义平衡参数,D为二值编码的特征维数。
[0070] 206:对整个模型的总目标函数进行每一次运算,得到每一次迭代的参数矩阵(h) (g)
Wg,潜在表示矩阵H,哈希编码矩阵Z ,Z ,以平均期望准确率(mAP)作为最终的评价
标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终mAP收敛,即可得到最终
(h) (g)
的参数矩阵 Wg,潜在表示矩阵H,哈希编码矩阵Z ,Z 。
[0071] 207:在分类测试中,利用训练好的子空间编码网络获得测试集的潜在表示H,结合图卷积网络获取到的标签表示G,再分别获得两者的哈希编码,两者相乘即可得到最终的预
测标签矩阵 如果Yij=1,则代表第i个样本含有第j个标签,相反,如果Yij=‑1,则代表第
i个样本不含有第j个标签,准确率使用mAP作为评价指标,为测试本方案的快速分类性能,
统计测试开始和结束的时间差,在准确率和效率之间寻求平衡,获取最优的效果。
[0072] 综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,并且其潜在表示是公共且完备的,可以重构出每个视角的特征,结合图
卷积网络的相关知识,学习不同标签之间的相关性,最终获得标签表示,通过将潜在表示和
标签表示进行哈希编码,获得其离散表示,可以对多标签短视频做到快速分类,提升了效率
和资源利用率。本发明实施例将多种思想结合在一起以实现最优的效果,尤其适合多标签
视频的快速分类,最终得到了最后的分类结果。
[0073] 实施例3
[0074] 下面给出对本发明实施例的一种视频分类方法的测试实验:
[0075] 本发明实施例的检测性能通过平均期望准确率(mAP)来衡量,定义如下:
[0076]
[0077]
[0078]
[0079] 其中,P为单次预测正确率,AP表示n次预测的平均准确率,mAP表示m类不同的视频的AP的平均值。
[0080] 为了评估本方法的算法性能,本发明实施例使用来自美拍的125367余个短视频数据作为数据集,它总共包含113447个单标签视频数据,11002个双标签视频数据,918个三标
签视频数据,整体数据集按照8:2:2的比例分别分为训练集,验证集和测试集,本方法输出
结果为预测的标签矩阵,最终评价标准为期望平均准确率(即mAP),即预测正确的平均概
率,此指标越高越好。
[0081] 本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
[0082] 本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0083] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。