半监督视频目标分割方法及装置转让专利

申请号 : CN202110838594.3

文献号 : CN113436199B

文献日 : 2022-02-22

本发明公开了一种半监督视频目标分割方法及装置，该方法包括：获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；将待查询帧图像输入至第二编码器提取特征，得到图像特征；将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测，得到待查询帧图像对应的预测分割结果。本发明提供的方案，基于预测分割结果的循环一致性进行半监督训练，在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下，能高效地进行训练，基于此所进行的视频目标分割仍然具有较高的预测精度，从而无需人工一一进行标注，节省了时间成本，同时提高了分割效率。

1.一种半监督视频目标分割方法，包括：获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；

将所述模板帧图像及所述模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；

将所述待查询帧图像输入至第二编码器提取特征，得到图像特征；

将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测，得到所述待查询帧图像对应的预测分割结果；

其中，所述将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测，得到所述待查询帧图像对应的预测分割结果进一步包括：将所述复合特征与所述图像特征进行相乘运算，得到特征矩阵；

对所述特征矩阵在列方向进行第一归一化处理，将第一归一化处理的结果与所述复合特征进行相乘运算，得到聚合特征；

对所述聚合特征进行1*1卷积处理，对1*1卷积处理的结果进行第二归一化处理，得到概率图；

将所述概率图与所述聚合特征进行相乘运算，将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测，得到所述待查询帧图像对应的预测分割结果，其中，概率图的各位置取值范围为[0,1]。

2.根据权利要求1所述的方法，其中，将所述复合特征与图像特征进行相乘运算，得到特征矩阵进一步包括：

对所述复合特征进行1*1卷积处理，得到HW×C的复合特征图；

将图像特征展开生成C×HW的图像特征图；

将HW×C的复合特征图与C×HW的图像特征图进行相乘运算，得到HW×HW的特征矩阵，其中，C表示图像通道数量，H表示图像的长、W表示图像的宽。

3.根据权利要求1或2所述的方法，其中，预测模块对连接后的特征进行以下处理：对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及第二归一化处理，得到所述待查询帧图像对应的预测分割结果。

4.根据权利要求1或2所述的方法，其中，所述模板帧图像及所述模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签；

所述待查询帧图像为第一帧图像之后的第t帧图像，其中，t≥2。

5.根据权利要求1或2所述的方法，其中，时序推断模块的训练方法如下：获取多对样本静态图像标签数据对，其中，每对样本静态图像标签数据对包含：样本静态图像及对应的样本静态图像分割标签；

针对任一样本静态图像标签数据对，对该样本静态图像标签数据对进行两次空间变换处理，得到第一样本静态图像标签数据对和第二样本静态图像标签数据对；

基于第一损失函数，利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练；其中，第一样本静态图像标签数据对和第二样本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对；

获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像，其中，样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图像；

基于第二损失函数，利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练，得到训练好的时序推断模块。

6.根据权利要求5所述的方法，其中，所述基于第一损失函数，利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练进一步包括：

将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签；将第二样本静态图像标签数据对中的样本静态图像确定为样本查询帧图像；

将所述样本模板帧图像及所述样本模板帧图像分割标签输入至第一编码器提取特征，得到第一样本复合特征；

将所述样本查询帧图像输入至第二编码器提取特征，得到第一样本图像特征；

利用所述第一样本复合特征及所述第一样本图像特征对时序推断模块进行第一半监督训练，得到所述样本查询帧图像对应的第一预测分割结果；

将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征，得到第二样本复合特征；

将所述样本模板帧图像输入至第二编码器提取特征，得到第二样本图像特征；

利用所述第二样本复合特征及所述第二样本图像特征对时序推断模块进行第一半监督训练，得到所述样本模板帧图像对应的第二预测分割结果；

基于第一损失函数，计算第二预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第一预设阈值，则结束第一半监督训练。

7.根据权利要求5所述的方法，其中，所述基于第二损失函数，利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练，得到训练好的时序推断模块进一步包括：将所述样本模板帧图像及所述样本模板帧图像分割标签输入至第一编码器提取特征，得到第三样本复合特征；

将所述样本查询帧图像输入至第二编码器提取特征，得到第三样本图像特征；

利用所述第三样本复合特征及所述第三样本图像特征对第一半监督训练后的时序推断模块进行第二半监督训练，得到所述样本查询帧图像对应的第三预测分割结果；

将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征，得到第四样本复合特征；

将所述样本模板帧图像输入至第二编码器提取特征，得到第四样本图像特征；

利用所述第四样本复合特征及所述第四样本图像特征对时序推断模块进行第二半监督训练，得到所述样本模板帧图像对应的第四预测分割结果；

基于第二损失函数，计算第四预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第二预设阈值，则结束第二半监督训练，得到训练好的时序推断模块。

8.一种半监督视频目标分割装置，包括：获取模块，适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；

特征提取模块，适于将所述模板帧图像及所述模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；及，将所述待查询帧图像输入至第二编码器提取特征，得到图像特征；

预测模块，适于将所述复合特征及所述图像特征输入至预先训练的时序推断模块进行分割结果预测，得到所述待查询帧图像对应的预测分割结果；

其中，预测模块进一步适于：将复合特征与图像特征进行相乘运算，得到特征矩阵；

对特征矩阵在列方向进行第一归一化处理，将第一归一化处理的结果与复合特征进行相乘运算，得到聚合特征；

对聚合特征进行1*1卷积处理，对1*1卷积处理的结果进行第二归一化处理，得到概率图；

将概率图与聚合特征进行相乘运算，将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测，得到待查询帧图像对应的预测分割结果，其中，概率图的各位置取值范围为[0,1]。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1‑7中任一项所述的半监督视频目标分割方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1‑7中任一项所述的半监督视频目标分割方法对应的操作。

半监督视频目标分割方法及装置

技术领域

[0001] 本发明涉及计算机技术领域，具体涉及一种半监督视频目标分割方法及装置。

背景技术

[0002] 视频目标自动分割是视频处理技术中的重要任务，已经在影像留色，视频会议和自动驾驶等领域取得了广泛的应用。已有的视频目标分割方法使用完整的视频目标分割标
签来进行训练，需要耗费大量的人力和时间对视频中的每一帧进行像素级标注。

发明内容

[0003] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的半监督视频目标分割方法及装置。

[0004] 根据本发明的一个方面，提供了一种半监督视频目标分割方法，包括：

[0005] 获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；

[0006] 将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；

[0007] 将待查询帧图像输入至第二编码器提取特征，得到图像特征；

[0008] 将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测，得到待查询帧图像对应的预测分割结果。

[0009] 根据本发明的另一方面，提供了一种半监督视频目标分割装置，包括：

[0010] 获取模块，适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；

[0011] 特征提取模块，适于将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；及，将待查询帧图像输入至第二编码器提取特征，得到图像特征；

[0012] 预测模块，适于将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测，得到待查询帧图像对应的预测分割结果。

[0013] 根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

[0014] 存储器用于存放至少一可执行指令，可执行指令使处理器执行上述半监督视频目标分割方法对应的操作。

[0015] 根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述半监督视频目标分割方法对应的操作。

[0016] 本发明提供的方案，基于预测分割结果的循环一致性进行半监督训练，在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下，能高效地进行训练，基于此所进
行的视频目标分割仍然具有较高的预测精度，从而无需人工一一进行标注，节省了时间成
本，同时提高了分割效率。

[0017] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够
更明显易懂，以下特举本发明的具体实施方式。

附图说明

[0018] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明
的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

[0019] 图1A示出了根据本发明一个实施例的半监督视频目标分割方法的流程示意图；

[0020] 图1B为时序推断模块的结构示意图；

[0021] 图1C为本发明的一个实施例提供的半监督视频目标分割方法中的视频目标分割的框架结构示意图；

[0022] 图2示出了根据本发明一个实施例的半监督视频目标分割装置的结构示意图；

[0023] 图3示出了根据本发明一个实施例的计算设备的结构示意图。

具体实施方式

[0024] 下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例
所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围
完整的传达给本领域的技术人员。

[0025] 图1A示出了根据本发明一个实施例的半监督视频目标分割方法的流程示意图。如图1A所示，该方法包括以下步骤：

[0026] 步骤S101，获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像。

[0027] 待分割视频是需要进行目标分割的视频，其可以是线下导入的视频，也可以是线上实时录制的视频，这里不做具体限定。模板帧图像分割标签是模板帧图像的目标分割标
注结果，是人工标注的结果；待查询帧图像是待分割视频中需要进行目标分割结果预测的
帧图像。

[0028] 其中，模板帧图像及模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签；待查询帧图像为第一帧图像之后的第t帧图像，其中，t≥2。当然，模板帧图像
还可以是待分割视频中的其他帧图像，这里不做具体限定。本实施例可以对除模板帧图像
之外的每一帧图像进行视频目标分割。

[0029] 在获取到待分割视频后，从待分割视频提取出模板帧图像、模板帧图像分割标签及待查询帧图像。

[0030] 步骤S102，将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征，得到复合特征。

[0031] 将模板帧图像和模板帧图像分割标签输入第一编码器提取特征，得到长、宽为原图1/16的C个通道的复合特征Fc。

[0032] 步骤S103，将待查询帧图像输入至第二编码器提取特征，得到图像特征。

[0033] 将待查询帧图像输入第二编码器提取特征，得到长、宽为原图1/16的C个通道的图像特征Fi。

[0034] 步骤S104，将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测，得到待查询帧图像对应的预测分割结果。

[0035] 具体地，将复合特征Fc和图像特征Fi输入至预先训练好的时序推断模块，预测待查询帧的预测分割结果。

[0036] 在本实施例中，可以通过如下方法来得到待查询帧图像对应的预测分割结果：

[0037] 将复合特征与图像特征进行相乘运算，得到特征矩阵，其中，可以通过如下方法来得到特征矩阵：对复合特征进行1*1卷积处理，得到HW×C的复合特征图；将图像特征展开生
成C×HW的图像特征图；将HW×C的复合特征图与C×HW的图像特征图进行相乘运算，得到HW
×HW的特征矩阵，其中，C表示图像通道数量，H表示图像的长、W表示图像的宽；

[0038] 对特征矩阵在列方向进行第一归一化处理，将第一归一化处理的结果与复合特征进行相乘运算，得到聚合特征；

[0039] 对聚合特征进行1*1卷积处理，对1*1卷积处理的结果进行第二归一化处理，得到概率图；

[0040] 将概率图与聚合特征进行相乘运算，将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测，得到待查询帧图像对应的预测分割结果，其中，
概率图的各位置取值范围为[0,1]，即，在0到1之间取值，例如，可以是0或0.5或1等任意数
值，这里仅是举例说明，不具有任何限定作用。

[0041] 其中，预测模块包括一个3*3卷积模块，一个批归一化处理模块，一个线性整流函数激活函数处理模块、一个1*1卷积模块和一个第二归一化处理模块。因此，预测模块对连
接后的特征进行以下处理：对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一
次线性整流函数激活函数的处理、一次1*1卷积处理及第二归一化处理，得到待查询帧图像
对应的预测分割结果。

[0042] 图1B为时序推断模块的结构示意图，如图1B所示，将复合特征Fc经过一个1×1卷积的处理后展开成HW×C的特征图(其中H和W分别为原始输入特征的空间高度和宽度，C为
原始输入特征的通道层数)，与展开成C×HW的图像特征图进行相乘运算，这里是矩阵乘法
运算，得到HW×HW的特征矩阵。对该特征矩阵在列方向进行softmax归一化处理后，将归一
化处理结果与复合特征Fc相乘，得到HW×256的聚合特征Fa。对该聚合特征Fa用一个1×1卷
积处理后通过sigmoid函数进行归一化，得到一个所有位置取值为0到1之间任意数值的概
率图，即各位置取值范围为[0,1]。将该概率图与聚合特征Fa进行相乘运算，这里是空间对
应位置相乘，概率图与聚合特征Fa相乘运算后的结果与图像特征Fi按通道方向连接后输入
一个预测模块预测查询帧的分割结果。其中，预测模块包括一个3*3卷积模块，一个批归一
化处理模块，一个线性整流函数激活函数处理模块(relu激活函数处理模块)、一个1*1卷积
模块和一个第二归一化处理模块。因此，预测模块对连接后的特征先后进行以下处理：对连
接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处
理、一次1*1卷积处理及sigmoid函数归一化处理，得到待查询帧图像对应的预测分割结果。
预测模块中的1*1卷积处理将特征降维到单个通道，并使用sigmoid函数进行归一化处理，
实现将取值归一化到0到1之间任意数值，得到待查询帧图像预测分割结果MP。

[0043] 在本发明一种可选实施方式中，时序推断模块的训练方法如下：

[0044] 获取多对样本静态图像标签数据对，其中，每对样本静态图像标签数据对包含：样本静态图像及对应的样本静态图像分割标签；

[0045] 针对任一样本静态图像标签数据对，对该样本静态图像标签数据对进行两次空间变换处理，得到第一样本静态图像标签数据对和第二样本静态图像标签数据对；

[0046] 基于第一损失函数，利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练；其中，第一样本静态图像标签数据对和第二样
本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对；

[0047] 获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像，其中，样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图
像；

[0048] 基于第二损失函数，利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练，得到训练好的时
序推断模块。

[0049] 可选地，基于第一损失函数，利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练进一步可以通过如下方法实现：

[0050] 将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签；将第二样本静态图像标签数据对
中的样本静态图像确定为样本查询帧图像；

[0051] 将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征，得到第一样本复合特征；

[0052] 将样本查询帧图像输入至第二编码器提取特征，得到第一样本图像特征；

[0053] 利用第一样本复合特征及第一样本图像特征对时序推断模块进行第一半监督训练，得到样本查询帧图像对应的第一预测分割结果；

[0054] 将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征，得到第二样本复合特征；

[0055] 将样本模板帧图像输入至第二编码器提取特征，得到第二样本图像特征；

[0056] 利用第二样本复合特征及第二样本图像特征对时序推断模块进行第一半监督训练，得到样本模板帧图像对应的第二预测分割结果；

[0057] 基于第一损失函数，计算第二预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第一预设阈值，则结束第一半监督训练。

[0058] 可选地，基于第二损失函数，利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练，得到训
练好的时序推断模块进一步可以通过如下方法实现：

[0059] 将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征，得到第三样本复合特征；

[0060] 将样本查询帧图像输入至第二编码器提取特征，得到第三样本图像特征；

[0061] 利用第三样本复合特征及第三样本图像特征对对第一半监督训练后的时序推断模块进行第二半监督训练，得到样本查询帧图像对应的第三预测分割结果；

[0062] 将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征，得到第四样本复合特征；

[0063] 将样本模板帧图像输入至第二编码器提取特征，得到第四样本图像特征；

[0064] 利用第四样本复合特征及第四样本图像特征对时序推断模块进行第二半监督训练，得到样本模板帧图像对应的第四预测分割结果；

[0065] 基于第二损失函数，计算第四预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第二预设阈值，则结束第二半监督训练，得到训练好的时序推断模块。

[0066] 具体地，训练时对于训练集，同时使用样本静态图像数据集和真实的样本视频数据集。对于样本静态图像数据集，采用公开数据集DUTS、HKU‑IS、MSRA和SOC，其中，样本静态
图像数据集包含了多对样本静态图像标签数据对，其中，每对样本静态图像标签数据对包
含：样本静态图像及对应的样本静态图像分割标签，也就是说，每个样本静态图像都有对应
的目标分割标签。为了将样本静态图像数据集用于时序推断模块的训练，需要对其进行数
据增广以模拟真实视频数据。对于每一成对的样本静态图像标签数据，分别将样本静态图
像和样本静态图像分割标签进行两次空间变换。该空间变换可包括水平翻转、旋转、尺度缩
放、随机裁剪和薄板样条插值。每次空间变换时，首先根据所用的变换种类确定一组变换参
数(如水平翻转的概率、旋转角度、缩放的比率、裁剪位置等)，根据变换参数确定具体的空
间变换操作，然后同时作用于样本静态图像和样本静态图像分割标签。最终得到两组包含
相同目标但具有不同外观的第一样本静态图像标签数据对和第二样本静态图像标签数据
对，来模拟视频数据，其中第一样本静态图像标签数据对用来模拟视频中的模板帧，第二样
本静态图像标签数据对用来模拟视频中的查询帧。对于真实的样本视频数据集，使用
YouTube‑VOS和DAVIS 2017的训练集部分，其中每一段视频都仅有第一帧图像有目标分割
标签。对于视频数据集中的每一帧图像同样进行空间变换。变换完成后，将第一帧图像及其
分割标签作为模板帧图像及模板帧图像分割标签。将后续每一帧图像作为查询帧图像，构
造若干组由一个模板帧图像、模板帧图像分割标签和一个查询帧图像组成的训练数据。

[0067] 半监督训练过程如下，如图1C所示：

[0068] a)将模板帧图像和模板帧图像分割标签输入编码器1提取特征，得到长、宽为原图1/16的C个通道的复合特征

[0069] b)将查询帧图像输入编码器2提取特征，得到长、宽为原图1/16的C个通道的图像特征

[0070] c)将复合特征和图像特征输入时序推断模块，预测查询帧的预测分割结果。该时序推断模块如图1B所示，将复合特征经过一个1×1卷积的处理后展开成HW×C的特征
图(其中H和W分别为原始输入特征的空间高度和宽度，C为原始输入特征的通道层数)，与展
开成C×HW的图像特征相乘，得到HW×HW的特征矩阵。对该特征矩阵在列方向进行
softmax归一化处理后，与原复合特征相乘，得到HW×256的聚合特征对该聚合特征用
一个1×1卷积处理后通过sigmoid函数进行归一化处理，得到一个所有位置取值都在0到1
之间的概率图。将该概率图乘回聚合特征，并与图像特征连接后输入一个预测模块预测
查询帧的分割结果。该预测模块由一个3×3卷积，一次批归一化处理，一次relu激活函数处
理和一个1×1卷积组成。其中最后的1×1卷积将特征降维到单个通道，并使用sigmoid函数
将取值归一化到0到1之间，得到查询帧图像的预测分割结果

[0071] d)将查询帧图像和查询帧图像的预测分割结果输入编码器1提取特征，得到长、宽为原图1/16的C个通道的复合特征

[0072] e)将模板帧图像输入编码器2提取特征，得到长、宽为原图1/16的C个通道的图像特征

[0073] f)将复合特征和图像特征输入时序推断模块，预测模板帧图像的预测分割结果该时序推断模块与步骤c)中相同。将模板帧图像的预测分割结果用模板帧图像分
割标签进行监督，这样就构成了基于预测结果的循环一致性检验，从而无需获取查询帧
标签即可对模型进行训练。

[0074] 需要说明的是，在进行训练时，先使用样本静态图像数据集进行半监督训练，训练完成后继续使用样本视频数据集进行训练。其中，使用样本静态图像数据集进行训练时，由
于查询帧图像由样本静态图像变换得到，其分割标签已知，因此可以额外将查询帧图像的
预测分割结果用查询帧分割标签进行监督。

[0075] 其中，使用样本静态图像数据集进行训练时，第一损失函数为：

[0076]

[0077] 其中，L1具体可以展开表示为：

[0078]

[0079] 使用样本视频数据集训练时，第二损失函数为：

[0080]

[0081] 其中，L1、L2为二值交叉熵损失函数；和分别为查询帧图像和模板帧图像的预测分割结果；和分别为查询帧图像和模板帧图像对应的分割标签。求出损失函数
值(误差)后，依据链式法则求出其对应于网络中每个神经元的梯度，通过误差反向传播更
新参数，学习率由Adam算法自动调节。网络的参数学习过程一直持续到损失函数值收敛为
止。

[0082] 该方法是基于半监督训练的快速端到端框架，训练过程中无须给出整段视频的完整分割标注，只需要提供第一帧的分割标注即可进行模型训练。所提出的半监督训练方法
基于预测结果的循环一致性假设，将仅有的单帧有标签数据进行前向和反向的两次预测，
从而可以利用单帧有标签数据本身进行整段视频数据的监督训练。在单目标分割公开数据
集DAVIS2016上测试，视频目标分割结果的性能达到：Jaccard平均区域相似度为76.8％，F‑
measure平均边界准确度为76.6％，在一块RTX 1080Ti显卡上处理速度达到16帧/秒。

[0083] 本发明可以应用于视频监控，视频会议，交互式视频处理等各种场景。在实施上，可以以软件的方式安装于电脑、手机等各种具备并行计算能力的智能终端，提供对指定目
标的实时跟踪分割。

[0084] 本发明提供的方案，基于预测分割结果的循环一致性进行半监督训练，在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下，能高效地进行训练，基于此所进
行的视频目标分割仍然具有较高的预测精度，从而无需人工一一进行标注，节省了时间成
本，同时提高了分割效率。

[0085] 图2示出了根据本发明一个实施例的半监督视频目标分割装置的结构示意图。如图2所示，该装置包括：获取模块201、特征提取模块202、预测模块203。

[0086] 获取模块201，适于获取待分割视频的模板帧图像、模板帧图像分割标签及待查询帧图像；

[0087] 特征提取模块202，适于将模板帧图像及模板帧图像分割标签输入至第一编码器提取特征，得到复合特征；及，将待查询帧图像输入至第二编码器提取特征，得到图像特征；

[0088] 预测模块203，适于将复合特征及图像特征输入至预先训练的时序推断模块进行分割结果预测，得到待查询帧图像对应的预测分割结果。

[0089] 可选地，预测模块进一步适于：将复合特征与图像特征进行相乘运算，得到特征矩阵；

[0090] 对特征矩阵在列方向进行第一归一化处理，将第一归一化处理的结果与复合特征进行相乘运算，得到聚合特征；

[0091] 对聚合特征进行1*1卷积处理，对1*1卷积处理的结果进行第二归一化处理，得到概率图；

[0092] 将概率图与聚合特征进行相乘运算，将相乘运算结果与图像特征按通道方向进行连接后输入至预测模块进行分割结果预测，得到待查询帧图像对应的预测分割结果，其中，
概率图的各位置取值范围为[0,1]。

[0093] 可选地，预测模块进一步适于：对复合特征进行1*1卷积处理，得到HW×C的复合特征图；

[0094] 将图像特征展开生成C×HW的图像特征图；

[0095] 将HW×C的复合特征图与C×HW的图像特征图进行相乘运算，得到HW×HW的特征矩阵，其中，C表示图像通道数量，H表示图像的长、W表示图像的宽。

[0096] 可选地，预测模块对连接后的特征进行以下处理：对连接后的特征进行一次3*3卷积处理、一次批归一化处理、一次线性整流函数激活函数的处理、一次1*1卷积处理及第二
归一化处理，得到待查询帧图像对应的预测分割结果。

[0097] 可选地，模板帧图像及模板帧图像分割标签为待分割视频的第一帧图像及第一帧图像分割标签；

[0098] 待查询帧图像为第一帧图像之后的第t帧图像，其中，t≥2。

[0099] 可选地，装置还包括：训练模块，适于获取多对样本静态图像标签数据对，其中，每对样本静态图像标签数据对包含：样本静态图像及对应的样本静态图像分割标签；

[0100] 针对任一样本静态图像标签数据对，对该样本静态图像标签数据对进行两次空间变换处理，得到第一样本静态图像标签数据对和第二样本静态图像标签数据对；

[0101] 基于第一损失函数，利用第一样本静态图像标签数据对和第二样本静态图像标签数据对时序推断模块进行第一半监督训练；其中，第一样本静态图像标签数据对和第二样
本静态图像标签数据对是两组包含相同目标但具有不同外观的数据对；

[0102] 获取样本视频图像中的样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像，其中，样本查询帧图像为样本视频图像中除样本模板帧图像外的其他帧图
像；

[0103] 基于第二损失函数，利用样本模板帧图像及对应的样本模板帧图像分割标签及样本查询帧图像对第一半监督训练后的时序推断模块进行第二半监督训练，得到训练好的时
序推断模块。

[0104] 可选地，训练模块进一步适于：将第一样本静态图像标签数据对中的样本静态图像及对应的样本静态图像分割标签确定为样本模板帧图像及样本模板帧图像分割标签；将
第二样本静态图像标签数据对中的样本静态图像确定为样本查询帧图像；

[0105] 将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征，得到第一样本复合特征；

[0106] 将样本查询帧图像输入至第二编码器提取特征，得到第一样本图像特征；

[0107] 利用第一样本复合特征及第一样本图像特征对时序推断模块进行第一半监督训练，得到样本查询帧图像对应的第一预测分割结果；

[0108] 将样本查询帧图像及第一预测分割结果输入至第一编码器提取特征，得到第二样本复合特征；

[0109] 将样本模板帧图像输入至第二编码器提取特征，得到第二样本图像特征；

[0110] 利用第二样本复合特征及第二样本图像特征对时序推断模块进行第一半监督训练，得到样本模板帧图像对应的第二预测分割结果；

[0111] 基于第一损失函数，计算第二预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第一预设阈值，则结束第一半监督训练。

[0112] 可选地，训练模块进一步适于：将样本模板帧图像及样本模板帧图像分割标签输入至第一编码器提取特征，得到第三样本复合特征；

[0113] 将样本查询帧图像输入至第二编码器提取特征，得到第三样本图像特征；

[0114] 利用第三样本复合特征及第三样本图像特征对对第一半监督训练后的时序推断模块进行第二半监督训练，得到样本查询帧图像对应的第三预测分割结果；

[0115] 将样本查询帧图像及第三预测分割结果输入至第一编码器提取特征，得到第四样本复合特征；

[0116] 将样本模板帧图像输入至第二编码器提取特征，得到第四样本图像特征；

[0117] 利用第四样本复合特征及第四样本图像特征对时序推断模块进行第二半监督训练，得到样本模板帧图像对应的第四预测分割结果；

[0118] 基于第二损失函数，计算第四预测分割结果与样本模板帧图像分割标签之间的损失，若损失小于第二预设阈值，则结束第二半监督训练，得到训练好的时序推断模块。

[0119] 本发明提供的方案，基于预测分割结果的循环一致性进行半监督训练，在仅需要一段视频中第一帧图像及第一帧图像分割标签的前提下，能高效地进行训练，基于此所进
行的视频目标分割仍然具有较高的预测精度，从而无需人工一一进行标注，节省了时间成
本，同时提高了分割效率。

[0120] 本申请实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的半监督视频目
标分割方法。

[0121] 图3示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

[0122] 如图3所示，该计算设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

[0123] 其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以
执行上述用于计算设备的半监督视频目标分割方法实施例中的相关步骤。

[0124] 具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

[0125] 处理器可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设
备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同
类型的处理器，如一个或多个CPU以及一个或多个ASIC。

[0126] 存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non‑volatile memory)，例如至少一个磁盘存储器。

[0127] 程序具体可以用于使得处理器执行上述任意方法实施例中的半监督视频目标分割方法。程序中各步骤的具体实现可以参见上述半监督视频目标分割实施例中的相应步骤
和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便
和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程
描述，在此不再赘述。

[0128] 在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求
的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利
用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披
露本发明的最佳实施方式。

[0129] 在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构
和技术，以便不模糊对本说明书的理解。

[0130] 类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个
实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要
求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如
下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。
因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要
求本身都作为本发明的单独实施例。

[0131] 本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单
元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或
子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何
组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任
何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权
利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代
替。

[0132] 此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围
之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之
一都可以以任意的组合方式来使用。

[0133] 本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用
微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些
或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备
或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储
在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网
网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

[0134] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，
不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未
列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的
元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实
现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项
来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名
称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

半监督视频目标分割方法及装置转让专利

申请号 : CN202110838594.3

文献号 : CN113436199B

文献日 : 2022-02-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 靳国庆 , 杨松 , 郭俊波 , 石里男 , 林凡超 , 谢洪涛 , 张勇东

申请人 : 人民网股份有限公司 , 北京中科研究院

摘要 :

权利要求 :

说明书 :