数字视频不良内容的分类方法和系统转让专利

申请号 : CN201110195882.8

文献号 : CN102236796B

文献日 : 2014-01-22

本发明公开了一种数字视频不良内容的分类方法和系统，数字视频不良内容的分类方法首先建立血色模型和肤色模型，并初始化阈值，再对视频图像进行不良视频特征检测，并对不良视频特征进行分类，不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测，然后根据检测分类步骤的检测分类结果综合判定视频图像的限制级别。通过肤色像素检测以及血色像素检测的引入，提高了检测率和可靠性，并使获得的比例特征变得更为可靠，从而能够更准确的提高检测不良视频的检测率，也方便了多媒体视频的管控服务和电影视频自动分级。

1.一种数字视频不良内容的分类方法，其特征在于，所述方法包括以下步骤：建模步骤，建立血色模型和肤色模型；

检测分类步骤，对视频图像进行不良视频特征检测，并对所述不良视频特征进行分类；

所述不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测；

决策步骤，根据所述检测分类步骤的检测分类结果综合判定所述视频图像的限制级别；

所述检测分类步骤中，对视频图像进行肤色像素检测和血色像素检测分类包括：采用所述血色模型和所述肤色模型检测视频图像中的肤色像素和血色像素；

检测视频图像中人体区域像素和人头区域像素；

统计全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例，以及人头区域像素与肤色像素的比例；

根据预先设定的分类方法获取所述全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例的等级分类信息。

2.根据权利要求1所述的数字视频不良内容的分类方法，其特征在于，所述检测分类步骤中，对视频图像进行运动检测分类包括：获取视频图像中的运动特征；

将所述运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取所述动作类型的等级分类信息。

3.根据权利要求1所述的数字视频不良内容的分类方法，其特征在于，所述检测分类步骤中，对视频图像进行字符检测分类包括：获取视频图像中的字符特征；

将所述字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取所述字符类型的等级分类信息。

4.根据权利要求1所述的数字视频不良内容的分类方法，其特征在于，所述检测分类步骤中，对视频图像进行敏感部位检测分类包括：获取视频图像中的敏感部位特征；

将所述敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

5.一种数字视频不良内容的分类系统，其特征在于，包括：建模单元，建立血色模型和肤色模型；

检测分类单元，对视频图像进行不良视频特征检测，并对所述不良视频特征进行分类，所述不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测；

决策单元，根据所述检测分类单元的检测分类结果综合判定所述视频图像的限制级别；

所述检测分类单元中，对视频图像进行肤色像素检测和血色像素检测分类包括：采用所述血色模型和所述肤色模型检测视频图像中的肤色像素和血色像素；

检测视频图像中人体区域像素和人头区域像素；

统计全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例；

6.根据权利要求5所述的数字视频不良内容的分类系统，其特征在于，所述检测分类单元中，对视频图像进行运动检测分类包括：获取视频图像中的运动特征，将所述运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取所述动作类型的等级分类信息。

7.根据权利要求5所述的数字视频不良内容的分类系统，其特征在于，所述检测分类单元中，对视频图像进行字符检测分类包括：获取视频图像中的字符特征，将所述字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取所述字符类型的等级分类信息。

8.根据权利要求5所述的数字视频不良内容的分类系统，其特征在于，所述检测分类单元中，对视频图像进行敏感部位检测分类包括：获取视频图像中的敏感部位特征，将所述敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

数字视频不良内容的分类方法和系统

技术领域

[0001] 本发明涉及多媒体技术领域，特别涉及一种数字视频不良内容的分类方法和系统。

背景技术

[0002] 随着多媒体技术和互联网通信的迅速发展，数字视频已广泛传播于大量用户之间，成为人们获取信息和娱乐的主要来源之一。

[0003] 然而，有些数字视频内容包含色情、暴力、粗口等不良信息，如果不加以分类管理，必将严重影响到未成年人的健康成长。

[0004] 目前，大部分数字视频的分类手段如下：（1）、屏蔽掉列入“黑名单”的网络地址，凡是黑名单上的地址提供的视频源都归属于不良视频而加以限制。（2）基于视频内容的识别方法，往往先对数字视频提取关键帧，然后根据图像肤色、纹理特征来进行色情图像的检测。（3）引入人脸检测手段。

[0005] 然而，这几种方法都存在一定的不足之处：对于方法（1）来说，许多黑名单的网站采用不断改变网络地址来避免屏蔽，这单靠网络地址的方式来管控视频变得不可靠。对于方法（2）来说，仅靠纹理特征来判断是会有许多误检和漏检。比如，一张人脸特写照片与一张人体色情图像的肤色及纹理特征可能很相似。而不良视频的内容变化多样：不仅有色情，还有暴力粗口等。对于方法（3）来说，由于光线条件和人的视角变化，人脸检测也会出现大量的误检和漏检，比如人脸背对镜头，单靠人脸检测会失效。还有的方法是将视频与音频相融合来判断，然而，有些数字视频（如自拍、偷拍）根本就没有声音信息，靠声音就会失效。

[0006] 有鉴于此，需要提供一种新的数字视频不良内容的分类技术方案。

发明内容

[0007] 鉴于上述现有技术的不足之处，本发明的目的在于提供一种数字视频不良内容的分类方法和系统，以解决现有技术中对数字视频分类方法准确率低，存在大量漏检和误检的问题。

[0008] 为了达到上述目的，本发明采取了以下技术方案：

[0009] 一种数字视频不良内容的分类方法，其中，所述方法包括以下步骤：

[0010] 建模步骤，建立血色模型和肤色模型；

[0011] 检测分类步骤，对视频图像进行不良视频特征检测，并对所述不良视频特征进行分类，所述不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测；

[0012] 决策步骤，根据所述检测分类步骤的检测分类结果综合判定所述视频图像的限制级别。

[0013] 所述的数字视频不良内容的分类方法，其中，所述检测分类步骤中，对视频图像进行肤色像素检测和血色像素检测分类包括：

[0014] 采用所述血色模型和所述肤色模型检测视频图像中的肤色像素和血色像素；

[0015] 检测视频图像中人体区域像素和人头区域像素；

[0016] 统计全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例；

[0017] 根据预先设定的分类方法获取所述全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例的等级分类信息。

[0018] 所述的数字视频不良内容的分类方法，其中，所述检测分类步骤中，对视频图像进行运动检测分类包括：获取视频图像中的运动特征，将所述运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取所述动作类型的等级分类信息。

[0019] 所述的数字视频不良内容的分类方法，其中，所述检测分类步骤中，对视频图像进行字符检测分类包括：获取视频图像中的字符特征，将所述字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取所述字符类型的等级分类信息。

[0020] 所述的数字视频不良内容的分类方法，其中，所述检测分类步骤中，对视频图像进行敏感部位检测分类包括：获取视频图像中的敏感部位特征，将所述敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

[0021] 一种数字视频不良内容的分类系统，其中，包括：

[0022] 建模单元，建立血色模型和肤色模型；

[0023] 检测分类单元，对视频图像进行不良视频特征检测，并对所述不良视频特征进行分类，所述不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测；

[0024] 决策单元，根据所述检测分类单元的检测分类结果综合判定所述视频图像的限制级别。

[0025] 所述的数字视频不良内容的分类系统，其中，所述检测分类单元中，对视频图像进行肤色像素检测和血色像素检测分类包括：

[0026] 采用所述血色模型和所述肤色模型检测视频图像中的肤色像素和血色像素；

[0027] 检测视频图像中人体区域像素和人头区域像素；

[0028] 统计全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例；

[0029] 根据预先设定的分类方法获取所述全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例的等级分类信息。

[0030] 所述的数字视频不良内容的分类系统，其中，所述检测分类单元中，对视频图像进行运动检测分类包括：获取视频图像中的运动特征，将所述运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取所述动作类型的等级分类信息。

[0031] 所述的数字视频不良内容的分类系统，其中，所述检测分类单元中，对视频图像进行字符检测分类包括：获取视频图像中的字符特征，将所述字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取所述字符类型的等级分类信息。

[0032] 所述的数字视频不良内容的分类系统，其中，所述检测分类单元中，对视频图像进行敏感部位检测分类包括：获取视频图像中的敏感部位特征，将所述敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

[0033] 本发明提供的数字视频不良内容的分类方法和系统，所述数字视频不良内容的分类方法首先建立血色模型和肤色模型，再根据血色模型和肤色模型对对视频图像进行血色像素检测和肤色像素检测，同时对视频图像进行运动检测、字符检测和敏感部位检测，并对上述检测结果进行分类，然后检测结果的分类信息综合判定所述视频图像的限制级别。通过肤色像素检测以及血色像素检测的引入，提高了检测率和可靠性，并使获得的比例特征变得更为可靠，从而能够更准确的提高检测不良视频的检测率，也方便了多媒体视频的管控服务和电影视频自动分级。

附图说明

[0034] 图1是本发明的数字视频不良内容的分类系统的结构框图。

[0035] 图2是本发明的数字视频不良内容的分类方法的流程图。

具体实施方式

[0036] 本发明提供了一种数字视频不良内容的分类方法和系统。为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

[0037] 请参阅图1，图1是本发明的数字视频不良内容的分类系统的结构框图。如图所示，所述数字视频不良内容的分类系统包括：建模单元100、检测分类单元200和决策单元300。

[0038] 具体说来，模型建立单元100初始化肤色模型、血色模型及阈值参数，以便下一步搜索数字视频图像中是否存在肤色区域和血色区域。肤色模型建立办法如下：通过计算大量样本肤色图片的RGB（红绿蓝）颜色值，统计出RGB平均值的分布范围及关系：

[0039] …………公式（1）

[0040] 类似地，血色模型建立办法：通过计算大量样本血色图片的RGB颜色值，统计出RGB平均值的分布范围及关系：

[0041] 公式（2）

[0042] 其中，公式（1）中的、、、为预设阈值；公式（2）中的、、、也为预设阈值。该预设阈值可通过对血色样本库以及肤色样本库进行统计得到。

[0043] 检测分类单元200对视频图像进行不良视频特征检测，并对不良视频特征进行分类，不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测。

[0044] 下面分别从运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测各个方面进行描述。其中，对图像进行肤色检测和血色检测为本发明的重点所在，肤色检测为：凡是满足肤色模型条件的像素标记为1，否则为0，并将之保存为二值化图像F1，即满足：

[0045] ……公式（3）

[0046] 同理，血色检测为：是满足血色模型条件的像素标记为1，否则为0，并将之保存为二值化图像F2，即满足：

[0047] 公式（4）

[0048] 通过这种方法，将数字视频图像转换为二值画图像，为后续进行统计特征计算做准备。

[0049] 然后对图像进行人体检测，如果检测到人体则将人体区域标记为（i指示第i个人体区域），记录标记区域的宽和长度分别为，，并记录人体总个数为；如果没有检测到人体则 =0， =0， =0。其中，人体检测一般采用Adaboost（一种迭代算法）人体检测算法（当然，也可以采用其他算法），通过基于边缘直方图特征的Adaboost人体检测算法判断图像中是否有人体存在，首先计算视频图像的积分图，提取边缘直方图特征，根据已设定好的分类器特征库，运行级联的方法在图像中搜索人体区域。其中分类器特征库训练方法包括：计算样本图像的积分图，提取样本图像的类矩形特征；根据Adaboost算法筛选有效的特征，构成弱分类器；通过组合多个弱分类器，构成强分类器；级联多个强分类器，形成人体检测的分类器特征库。与人体检测单元相同的是，人头检测单元用于在人体检测单元检测出存在人体时，再对视频图像进行检测，并判断是否存在人头：如果检测到人头则记录人体个数为，如果没有检测到人头，则 =0。人头检测采用Adaboost人头检测算法，通过基于类矩形特征的Adaboost人头检测算法判断图像中是否有人头存在，首先计算图像的积分图，提取边缘直方图特征，根据已训练好的分类器特征库，运行cascade级联的方法在图像中搜索人头区域。其中分类器特征库训练方法包括：计算样本图像的积分图，提取样本图像的类矩形特征；根据Adaboost算法筛选有效的特征，构成弱分类器；通过组合多个弱分类器，构成强分类器；级联多个强分类器，形成人头检测的分类器特征库。

[0050] 再根据上述的检测结果，计算视频图像中的关键像素在视频图像中的比例。具体来说，包括全局肤色像素比例（即全局肤色像素与图像像素的比例）、人体区域肤色像素比例（即肤色像素和人体区域像素的比例）、人头区域肤色比例（人头区域像素与肤色像素的比例）和全局血色像素比例（即全局血色像素与图像像素的比例）。

[0051] 其中，全局肤色像素比例计算方法如下：根据二值化图F1计算出图像中肤色像素个数，W和H分别是图像的宽和高。则全局肤色像素比例。

[0052] 同理，人体区域肤色像素计算方法如下：计算每个人体区域肤色像素个数，则人体区域肤色像素。

[0053] 全局血色像素比例计算方法如下：根据二值化图像F2计算全局血色像素个数，W和H分别是图像的宽和高。则全局血色像素比例。

[0054] 人头区域肤色像素比例：。

[0055] 为了使得对于数字视频不良内容分类的结果更加合理和全面，本发明的数字视频不良内容的检测分类单元200还对视频图像进行运动检测、字符检测、敏感部位检测。在运动检测时，获取视频图像中的运动特征，将运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取动作类型的等级分类信息。同样地，在字符检测时，获取视频图像中的字符特征，将字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取字符类型的等级分类信息。在敏感部位检测时，获取视频图像中的敏感部位特征，将敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

[0056] 具体说来，检测分类单元200需要预先要建立3个特征库：用于存放不良视频动作的不良视频动作特征库、用于存放不良视频字符的不良视频字符特征库和用于存放不良视频敏感部位的不良视频敏感部位特征库。不良视频动作特征库的获得办法可以采用以下方式：根据样本不良动作视频片段，计算连续2帧图像相减即得帧差图像，这表示了图像中有运动变化的像素，并将这些像素统计并计算成直方图保存起来，这些许多的直方图特征就构建成为不良视频动作特征库。不良视频字符特征库的构建办法也可以采用以下方式：根据样本不良动作视频片段，先将图像中存在的不良字符区域找出，并提取这些字符轮廓，将轮廓信息保存起来。这些许多的轮廓特征就构建成为不良视频字符特征库。同理，还可以得到不良视频敏感部位特征库。

[0057] 然后，在运动检测中：首先计算数字视频的运动特征，比如连续2帧图像相减即得帧差图像，这表示了图像中有运动变化的像素，并将这些像素统计计算成直方图（便于后续对动作类型识别），然后，将所获得的运动特征与不良视频动作特征库对比，找出最相似的动作类型。计算运动特征向量V与动作类型模版的相似度，这里相似度选择用绝对值距离来计算。如果，且值，则该动作类型归属为第k类。举例来说，比如将动作类型统一分为A、B、C三种类型（或者叫三个级别）。A表示含有大量的色情、暴力、粗口，只适合特定的群体观看；B表示还有一定的量的色情、暴力、粗口，某些群体不适宜观看；C表示基本不含有色情、暴力、粗口，普通人都适合观看。同理，在字符检测中，将数字视频中的字符特征与不良视频字符特征库对比，找出最相似的字符类型，如果满足条件则将之归属于某个类。在本发明实施例中将类型统一为A，B，C三种类型（或者叫三个级别）。敏感部位判断方法类似于前面两种：将敏感部位的纹理直方图特征与不良视频敏感部位特征库进行对比，如果满足条件则将之归属于某个类。在本发明实施例中，也将类型统一为A、B、C三种类型（或者叫三个级别）。

[0058] 决策单元300根据所述检测分类单元200的检测分类结果综合判定所述视频图像的限制级别，在本发明的实施例中，进行综合判定的判定因子包括了上述的动作类型、敏感部位类型、字符类型，同时为了统一决策标准，不妨也将全局肤色像素比例、人体区域肤色像素比例、全局血色像素比例、人头区域肤色像素比例U标准化，其标准化表格如表1所示。

[0059] 表1

[0060]类型（级别） U
A 大于大于大于大于
B 大于且小大于且小大于且小大于且小于
于于于
C 小于小于小于小于

[0061] 在表1中，，，，，，，，为预设阈值，可以根据经验和实验数据得到。

[0062] 决策单元300进行综合判定视频图像的限制级别时，判定因子包括了动作类型、敏感部位类型、字符类型、全局肤色像素比例、人体区域肤色像素比例、全局血色像素比例、人头区域肤色像素比例U。决策单元300的一种决策机制的实施例如表2所示。

[0063]

[0064] 在表2中，全局肤色像素比例和全局血色像素比例的级别为A，且其他项是A或者B时则最终决策结果为A级，表示当出现了不良动作场景时，又同时出现了大量的肤色或者血色，这很可能就是色情或者暴力片段，只适合特定群体观看，这需要加以限制；全局肤色像素比例和全局血色像素比例的级别为B，且其他项是B或者C时则最终决策结果为B级，表示有一定量的肤色或者血色，对某些群体不适宜观看，这需要成人加以监督；当所有项是C级时，最终决策结果为C级，表示普通人都能观看；当出现其他情况时则不分类，不进行决策。显而易见，在实际应用中，可以根据具体情况采用不同的决策机制。总之，当视频被分类为A级时，该视频是肯定有不良动作，并且伴有出现大面积的裸露肤色或者血色，视频中也很可能包含粗口文字和敏感部位。当视频被分类为B级时，可能会有一定量的B级不良动作，也有一定量的裸露肤色或血色，还有少量的B级粗口文字和敏感部位。当视频被分类为C级时，该视频只含有C级的动作类型，正常比例的C级裸露肤色，以及很少量的粗口文字和敏感部位C级。

[0065] 请继续参阅图2，本发明还提供了一种数字视频不良内容的分类方法，其中，所述方法包括以下步骤：

[0066] 步骤S201，建立血色模型和肤色模型；

[0067] 步骤S202，对视频图像进行不良视频特征检测，并对不良视频特征进行分类，所述不良视频特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测以及血色像素检测；

[0068] 步骤S203，根据步骤S202的检测分类结果综合判定所述视频图像的限制级别。

[0069] 进一步地，在步骤S202中，对视频图像进行肤色像素检测和血色像素检测分类包括：

[0070] 采用血色模型和所述肤色模型检测视频图像中的肤色像素和血色像素；

[0071] 检测视频图像中人体区域像素和人头区域像素；

[0072] 统计全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例；

[0073] 根据预先设定的分类方法获取全局肤色像素与图像像素的比例、肤色像素和人体区域像素的比例、全局血色像素与图像像素的比例以及人头区域像素与肤色像素的比例的等级分类信息。

[0074] 另外，步骤S202中，对视频图像进行运动检测分类包括：获取视频图像中的运动特征，将运动特征与不良视频运动特征库存放的视频动作进行比对，并找出最接近的动作类型，获取所述动作类型的等级分类信息。

[0075] 同样，步骤S202中，对视频图像进行字符检测分类还可以包括：获取视频图像中的字符特征，将所述字符特征与不良视频字符特征库存放的视频字符进行比对，并找出最接近的字符类型，获取所述字符类型的等级分类信息。或者，对视频图像进行敏感部位检测分类包括：获取视频图像中的敏感部位特征，将所述敏感部位特征与不良视频敏感部位特征库存放的视频敏感部位进行比对，并找出最接近的敏感部位类型，获取所述敏感部位类型的等级分类信息。

[0076] 本发明提供的数字视频不良内容的分类方法和系统，所述数字视频不良内容的分类方法首先建立血色模型和肤色模型，再根据血色模型和肤色模型对对视频图像进行血色像素检测和肤色像素检测，同时对视频图像进行运动检测、字符检测和敏感部位检测，并对上述检测结果进行分类，然后检测结果的分类信息综合判定所述视频图像的限制级别。通过肤色像素检测以及血色像素检测的引入，提高了检测率和可靠性，并使获得的比例特征变得更为可靠，从而能够更准确的提高检测不良视频的检测率，也方便了多媒体视频的管控服务和电影视频自动分级。

[0077] 可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

数字视频不良内容的分类方法和系统转让专利

申请号 : CN201110195882.8

文献号 : CN102236796B

文献日 : 2014-01-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 谭文伟

申请人 : TCL集团股份有限公司

摘要 :

权利要求 :

说明书 :