一种基于多层超图模型的多视频目标协同分割方法转让专利

申请号 : CN201810998162.7

文献号 : CN109191485B

文献日 : 2020-05-22

本发明公开了一种基于多层超图模型的多视频目标协同分割方法，属于计算机视觉领域，本发明针对视频中包含较多非相关帧的视频，引入全卷积神经网络得到的分割结果作为超边构造的语义特征，在视频的每一帧生成若干潜在目标区域，利用视频内和视频间的相关关系，得到可靠目标区域，作为高层特征并构造高层目标模型；利用外观、光流以及显著性检测方法，提取视频帧的相关特征作为低层特征，并构造低层目标模型。利用低层模型和高层模型共同构造超图，最后利用超图分割算法，实现视频目标分割，提升了分割准确率。

1.一种基于多层超图模型的多视频目标协同分割方法，其特征在于，包括如下步骤：步骤1：超图结点表示：

1)利用过分割算法对视频的每一帧进行处理，得到的超像素作为超图的结点；

2)对拉普拉斯矩阵进行特征值分解，将相同属性超图的结点聚类到同一个超边中；相同属性超图的结点之间的相似度分别由高层目标模型和低层目标模型计算得到；

步骤2：高层目标模型构造超边：

1)利用基于类别独立的潜在目标区域生成方法，在视频的每一帧生成若干个潜在目标区域；对每一个潜在目标区域设置分数，其目标分数O(rm)利用运动、外观和语义信息计算得到；

2)根据潜在目标区域目标分数O(rm)对每一视频帧的潜在目标区域排序，挑选前M个潜在目标区域融合得到一个备选目标区域；

3)利用k-means聚类算法，将同一类视频中所有视频帧的潜在目标区域进行聚类，得到两组集合，即可靠集合Qb和不可靠集合Qu；

4)利用可靠集合Qb中包含的备选目标区域分别对应的前M个潜在目标区域作为正样本，其余潜在目标区域作为负样本，训练一个线性SVM分类器，其中潜在目标区域的特征提取利用Resnet的fc7层特征；

5)利用SVM分类器对所有的原始潜在目标区域进行测试，得到每一个原始潜在目标区域rm的分类分数Oc(rm)；利用该分类分数，重新优化视频目标分数O(rm)←O(rm)+Oc(rm)；

6)根据优化后的视频目标分数，对于每一视频帧，重新挑选前M个潜在目标区域，融合得到可靠目标区域，作为超边构造的高层特征；

步骤3：低层目标模型构造超边：

1)利用外观特征构造超边：首先获取视频帧中每个超像素的Lab值，计算每个超像素的外观特征Pc；基于所述外观特征Pc，定义超图的任意两个结点p和q之间的相似度矩阵；

2)利用运动特征构造超边：一个超像素的运动由超像素的运动强度Pu和运动角度Pd表示，为Pm＝(Pu,Pd)，由一个超像素中包含的所有像素的运动平均值得到；基于运动特征，定义超图的任意两个结点p和q之间的相似度矩阵；

3)利用显著性特征构造超边：任意超像素的显著性值Ps，由该超像素所包含的所有像素的平均显著性值计算得到；基于显著性特征，定义超图的任意两个结点p和q之间的相似度矩阵；

步骤4：超边权重：

根据超边的权重越大，表示超边内的结点相似程度越高，且与其它超边包含的结点相似程度越低的特点，定义超边e的权重w(e)；

步骤5：超图分割：

1)将超图的所有结点分别划分至前景目标集合或背景集合中，即为超图的标准二划分；类似于标准割，超图的标准二划分的最小化问题是一个NP完全问题，它可以松弛化为实值优化问题；采用谱分析的近似算法，定义超图的拉普拉斯矩阵；

2)超图拉普拉斯矩阵的最小非零特征值对应的特征向量即为该实值优化问题的最优解，超图的二划分结果即为最终目标分割的结果。

2.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤1中，拉普拉斯矩阵如下：L＝D-1/2(D-A)D-1/2

式中，A(p,q)表示两个结点p和q之间的相似度；D表示对角矩阵D(p,p)＝∑qA(p,q)。

3.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤2-1)中，潜在目标区域目标分数如下：O(rm)＝Oa(rm)+Om(rm)+Os(rm)

其中，rm表示潜在目标区域；Oa(rm)表示rm的外观分数；Om(rm)表示rm的运动分数；Os(rm)表示rm的语义分数，由训练后的全卷积神经网络计算得到。

4.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤3-1)中，每个超像素的外观特征Pc如下：其中，Ns表示超像素中包含像素的个数；cj表示超像素中第j个像素的颜色Lab值；

超图的任意两个结点p和q之间的相似度矩阵Ac(p,q)如下：c

其中，Pc(p)表示结点p的外观特征；Pc(q)表示结点q的外观特征；σ为||Pc(p)-Pc(q)||2的标准差。

5.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤3-2)中，超像素的运动强度Pu和运动角度Pd如下：其中，Ns表示超像素中包含像素的个数；ωj表示超像素中第j个像素的权重大小；uj,dj分别表示第j个像素运动强度和运动角度；

超图的任意两个结点p和q之间的相似度矩阵Am(p,q)如下：其中，Pm(p)表示结点p的运动特征；Pm(q)表示结点q的运动特征；σm表示||Pm(p)-Pm(q)||2的标准差。

6.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤3-3)中，超像素的显著性值Ps如下：式中，Ns表示超像素中包含像素的个数；sj表示超像素中第j个像素的显著性值；

超图的任意两个结点p和q之间的相似度矩阵As(p,q)如下：其中，Ps(p)表示结点p的显著性特征；Ps(q)表示结点q的显著性特征；σs表示||Ps(p)-Ps(q)||2的标准差。

7.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤4中，超边e的权重为：式中：c′表示归一化系数；A(p,q)表示结点p和q之间的相似度矩阵。

8.根据权利要求1所述的一种基于多层超图模型的多视频目标协同分割方法，其特征在于，所述步骤5-1)中，超图的拉普拉斯矩阵为：式中，I表示单位矩阵；Dv、De分别表示结点度数和超边度数的对角矩阵；H表示超图的邻接矩阵；W表示超边权重的对角矩阵。

一种基于多层超图模型的多视频目标协同分割方法

技术领域

[0001] 本发明属于计算机视觉领域，涉及一种基于多层超图模型的多视频目标协同分割方法。

背景技术

[0002] 视频分割技术作为视频处理的关键步骤，对视频处理的效果有很大影响。目前现有的视频分割技术普遍存在以下几个问题：(1)大多数分割方法均基于简单图模型，简单图仅仅保留两个像素或分块间的相关关系，而在许多现实问题中，结点之间的关系十分复杂，利用简单图来表征分割问题势必会导致信息的丢失。(2)基于目标区域的分割方法通常在每一个视频帧内仅选择单个潜在目标区域作为特征信息，一旦该潜在目标区域不准确，必然导致分割结果出现较大误差。(3)目前提出的方法均建立在所有视频的每一帧中均包含前景目标的基础上。而这一假设在现实场景中很难实现，目标往往在不确定时刻会被遮挡或超出视野范围，而对于包含较多噪声帧(非相关帧)的视频，此类方法会受到较大影响，大大降低了分割准确性。

发明内容

[0003] 本发明主要针对现有方法存在的视频特征信息不完整、目标区域选择不准确、不能处理噪声视频等问题，提出了基于多层超图模型的视频目标分割算法，有效保存结点之间的复杂关系，完整地描述客观世界中数据间的多重关系及特征信息，针对视频中包含较多非相关帧的视频，可以更有效的分割视频中的目标，提高了分割准确率。

[0004] 本发明是通过下述技术方案来实现的。

[0005] 一种基于多层超图模型的多视频目标协同分割方法，该方法针对包含较多非相关帧的视频集，引入全卷积神经网络作为高级语义特征，在视频的每一帧生成若干潜在目标区域，利用视频内和视频间的相关关系，得到可靠目标区域，作为高层特征并构造高层目标模型；利用外观、运动及显著性等低层特征构造低层目标模型，共同构造超图，之后利用超图分割算法，实现视频目标分割。该方法与现有方法进行对比实验分析，在XJTU-Stevens和Noisy-ViCoSeg两个公开数据集上验证分割算法的准确性和有效性。

[0006] 本发明一种基于多层超图模型的多视频目标协同分割方法，包括如下步骤：

[0007] 步骤1：超图结点表示：

[0008] 1)利用过分割算法对视频的每一帧进行处理，得到的超像素作为超图的结点；

[0009] 2)对拉普拉斯矩阵进行特征值分解，将相同属性超图的结点聚类到同一个超边中；分别由高层目标模型和低层目标模型计算得到；

[0010] 步骤2：高层目标模型构造超边：

[0011] 1)利用基于类别独立的潜在目标区域生成方法，在视频的每一帧生成若干个潜在目标区域；对每一个潜在目标区域设置分数，其目标分数O(rm)利用运动、外观和语义信息计算得到；

[0012] 2)根据潜在目标区域目标分数O(rm)对每一视频帧的潜在目标区域排序，挑选前M个潜在目标区域融合得到一个备选目标区域；

[0013] 3)利用k-means聚类算法，将同一类视频中所有视频帧的潜在目标区域进行聚类，得到两组集合，可靠集合Qb和不可靠集合Qu；

[0014] 4)利用可靠集合Qb中包含的备选目标区域分别对应的前M个潜在目标区域作为正样本，其余潜在目标区域作为负样本，训练一个线性SVM分类器，其中潜在目标区域的特征提取利用Resnet的fc7层特征；

[0015] 5)利用SVM分类器对于所有的原始潜在目标区域进行测试，得到每一个原始潜在目标区域rm的分类分数Oc(rm)；利用该分类分数，重新优化视频目标分数O(rm)←O(rm)+Oc(rm)；

[0016] 6)根据优化后的视频目标分数，对于每一视频帧，重新挑选前M个潜在目标区域，融合得到可靠目标区域，作为超边构造的高层特征；

[0017] 步骤3：低层目标模型构造超边：

[0018] 1)利用外观特征构造超边：首先获取视频帧中每个超像素的Lab值，计算每个超像素的外观特征Pc；基于所述外观特征Pc，定义超图的任意两个结点p和q之间的相似度矩阵；

[0019] 2)利用运动特征构造超边：一个超像素的运动由超像素的运动强度Pu和运动角度Pd表示，为Pm＝(Pu,Pd)，由一个超像素中包含的所有像素的运动平均值得到；基于运动特征，定义超图的任意两个结点p和q之间的相似度矩阵；

[0020] 3)利用显著性特征构造超边：任意超像素的显著性值Ps，由该超像素所包含的所有像素的平均显著性值计算得到；基于显著性特征，定义超图的任意两个结点p和q之间的相似度矩阵；

[0021] 步骤4：超边权重：

[0022] 超边的权重越大，表示超边内的结点相似程度越高，且与其它超边包含的结点相似程度越低。根据权重的以上特点，定义超边e的权重w(e)；

[0023] 步骤5：超图分割：

[0024] 1)将超图的所有结点分别划分至前景目标集合或背景集合中，即为超图的标准二划分；类似于标准割，超图的标准二划分的最小化问题是一个NP完全问题，它可以松弛化为实值优化问题；采用谱分析的近似算法，定义超图的拉普拉斯矩阵；

[0025] 2)超图拉普拉斯矩阵的最小非零特征值对应的特征向量即为该实值优化问题的最优解，超图的二划分结果即为最终目标分割的结果。

[0026] 与现有技术相比，本发明的有益效果是：

[0027] 本发明是一种基于多层超图模型的多视频目标协同分割方法，针对目前视频分割方法中存在的特征信息不完整、目标区域选择不准确、不能处理噪声视频等问题，引入多层超图模型，自动分割出视频中包含的目标，提高了分割准确率。

附图说明

[0028] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

[0029] 图1(a)、图1(b)分别为本发明的验证数据集实例，其中：图1(a)是XJTU-Stevens数据集示例图，图1(b)是Noisy-ViCoSeg数据集示例图；

[0030] 图2为本发明分割方法流程图；

[0031] 图3为超图结构示意图；

[0032] 图4为两个视频不同帧的运动(光流)特征示例图；

[0033] 图5为一个视频其中三帧的显著性特征示例。

具体实施方式

[0034] 下面将结合附图以及具体实施例来详细说明本发明，在此本发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

[0035] 如附图1(a)、图1(b)所示，图1(a)、图1(b)分别是验证本发明方法可行性的数据集：图1(a)是XJTU-Stevens数据集的部分相关和不相关帧的示例。视频相关帧被标记为(√)，非相关帧被标记为(×)。相关帧展示了对应的像素级的分割掩码。每一类视频下方为相关数据，以airplane为例，11(4/7)表示视频集包含11个视频，其中4个视频仅包含相关帧，7个视频包含非相关帧；“1763(1702/61)”表示视频集中所有视频帧的个数为1763，其中相关帧和非相关帧分别为1702和61。图1(b)是Noisy-ViCoseg数据集的部分视频帧示例，其中红色叉表示噪声帧，帧内不包含目标；绿色勾号表示相关帧，帧内包含目标。

[0036] 参见图2，为本发明所述的基于多层超图模型的多视频目标协同分割方法的方法流程图，步骤如下：

[0037] 步骤1：超图结点表示：

[0038] 1)利用过分割算法对视频的每一帧进行处理，得到的区域块(超像素)作为超图的结点；

[0039] 2)利用拉普拉斯矩阵L＝D-1/2(D-A)D-1/2的特征值分解，将相同属性的结点聚类到同一个超边中。其中A(p,q)表示两个结点p和q之间的相似度，分别由高层目标模型和低层目标模型计算得到。

[0040] 步骤2：高层目标模型构造超边：

[0041] 1)利用基于类别独立的潜在目标区域生成方法，在视频的每一帧生成若干个潜在目标区域。对每一个潜在目标区域设置分数，其目标分数利用运动、外观信息计算得到：

[0042] O(rm)＝Oa(rm)+Om(rm)+Os(rm)

[0043] 其中，rm表示潜在目标区域；Oa(rm)表示rm的外观分数；Om(rm)表示rm的运动分数；Os(rm)表示rm的语义分数，由训练后的全卷积神经网络计算得到。

[0044] 2)根据潜在目标区域目标分数O(rm)对每一视频帧的潜在目标区域排序，挑选前M个潜在目标区域融合得到一个备选目标区域；

[0045] 3)利用k-means聚类算法，将同一类视频中所有视频帧的潜在目标区域进行聚类，得到两组集合，可靠集合Qb和不可靠集合Qu；

[0046] 4)利用可靠集合Qb中包含的备选目标区域分别对应的前M个潜在目标区域作为正样本，其余潜在目标区域作为负样本，训练一个线性SVM分类器，其中潜在目标区域的特征提取利用Resnet的fc7层特征；

[0047] 5)利用SVM分类器对于所有的原始潜在目标区域进行测试，得到每一个原始潜在目标区域rm的分类分数Oc(rm)。利用该分类分数，重新优化视频目标分数O(rm)←O(rm)+Oc(rm)；

[0048] 6)根据优化后的视频目标分数，对于每一视频帧，重新挑选前M个潜在目标区域，融合得到可靠目标区域，作为超边构造的高层特征；

[0049] 步骤3：低层目标模型构造超边：

[0050] 1)利用外观特征构造超边：首先获取视频帧中每个超像素的Lab值，计算每个超像素的外观特征Pc为：

[0051]

[0052] 其中，Ns表示超像素中包含像素的个数；cj表示超像素中第j个像素颜色Lab值。

[0053] 基于外观特征，超图的任意两个结点(超像素)p和q之间的相似度矩阵

[0054] Ac(p,q)定义如下：

[0055]

[0056] 其中，Pc(p)表示结点p的外观特征；Pc(q)表示结点q的外观特征；σc为||Pc(p)-Pc(q)||2的标准差。

[0057] 2)利用运动特征构造超边：视频的运动特征示例如图4所示；一个超像素的运动由超像素的运动强度Pu和运动角度Pd表示，为Pm＝(Pu,Pd)，由一个超像素中包含的所有像素的运动平均值得到：

[0058]

[0059] 其中，Ns表示超像素中包含像素的个数；ωj表示超像素中第j个像素的权重大小；uj,dj分别表示第j个像素运动强度和运动角度。

[0060] 基于运动特征，超图的任意两个结点(超像素)p和q之间的相似度矩阵Am(p,q)定义如下：

[0061]

[0062] 其中，Pm(p)表示结点p的运动特征；Pm(q)表示结点q的运动特征；σm表示||Pm(p)-Pm(q)||2的标准差。

[0063] 3)利用显著性特征构造超边：视频的显著性特征如图5所示；任意超像素的显著性值Ps，由该超像素所包含的所有像素的平均显著性值计算得到：

[0064]

[0065] 式中，Ns表示超像素中包含像素的个数；sj表示超像素中第j个像素的显著性值；

[0066] 基于显著性特征，超图的任意两个结点(超像素)p和q之间的相似度矩阵As(p,q)定义为：

[0067]

[0068] 其中，Ps(p)表示结点p的显著性特征；Ps(q)表示结点q的显著性特征；σs表示||Ps(p)-Ps(q)||2的标准差。

[0069] 步骤4：超边权重：

[0070] 超边的权重越大，表示超边内的结点相似程度越高，且与其它超边包含的结点相似程度越低。根据权重的以上特点，定义超边e的权重：

[0071]

[0072] 其中，c表示归一化系数；A(p,q)表示结点p和q之间的相似度矩阵。

[0073] 步骤5：超图分割：

[0074] 1)将超图的所有结点分别划分至前景目标集合或背景集合中，即为超图的标准二划分；类似于标准割，超图的标准二划分的最小化问题是一个NP完全问题，它可以松弛化为实值优化问题；采用谱分析的近似算法，定义超图的拉普拉斯矩阵为：

[0075]

[0076] 式中，I表示单位矩阵；Dv、De分别表示结点度数和超边度数的对角矩阵；H表示超图的邻接矩阵；W表示超边权重的对角矩阵。

[0077] 2)超图拉普拉斯矩阵的最小非零特征值对应的特征向量即为该实值优化问题的最优解，超图的二划分结果即为最终目标分割的结果。

[0078] 图3是超图结构的示例图，其中X＝{x1,x2,...,xn}表示超图的顶点，超图的超边分别是：E1＝{x1,x2,x3}，E2＝{x1,x4}，E3＝{x4,x5,x6}，E4＝{x3,x5,x7}，E5＝{x7,x8}，E6＝{x9}。

[0079] 表1a、1b分别是分割方法的实验结果，表1a为在XJTU-Stevens数据集下该方法的实验结果，表1b为在Noisy-ViCoSeg数据集下该方法的实验结果。

[0080] 表1a 在XJTU-Stevens数据集下该方法的实验结果

[0081]

[0082] 表1b 在Noisy-ViCoSeg数据集下该方法的实验结果

[0083]

[0084] 从表1a和表1b中可以看出，与VOS、FOS、BVS、MVC以及VOC五种方法进行对比，本发明基于多层超图模型的多视频目标协同分割方法的分割准确率有了较大的提高。

[0085] 需要说明的是：以上所述仅为本发明的优选实施例，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，凡在本发明的精神、原则和宗旨之内，在本领域的普通技术人员所具备的知识范围内，其对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行同等替换，均应包含在本发明的保护范围之内。

一种基于多层超图模型的多视频目标协同分割方法转让专利

申请号 : CN201810998162.7

文献号 : CN109191485B

文献日 : 2020-05-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吕欣 , 王乐 , 郑南宁

申请人 : 西安交通大学

摘要 :

权利要求 :

说明书 :