视觉识别系统

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

视觉识别系统
申请号	CN202210189631.7	申请日	2022-03-01	公开(公告)号	CN114267001B	公开(公告)日	2022-06-03
申请人	北京华育启智科技有限公司;			发明人	苗炜; 李东;
摘要	本申请涉及视觉识别领域，具体公开了一种视觉识别系统，该视觉识别系统包括：图像采集装置，该图像采集装置用于分别从样本视频信息和用于与该样本视频信息进行比较的待比视频信息采集n个帧图像，n为不为零的自然数；图像处理装置，该图像处理装置用于针对所述样本视频信息与待比视频信息的每个帧图像的m个特征对象设置特征值，从而为每个帧图像生成特征向量A1m，m为不为零的自然数；视觉处理装置，该视觉处理装置根据样本视频信息的帧图像和待比视频信息的帧图像的特征向量之间的统计学关系来识别所述待比视频信息中是否存在与所述样本视频信息相似的视频内容。根据本申请，通过识别视频不同特征的统计学分布情况，提供了一种准确度较高的视频内容识别方案。
权利要求	1.视觉识别系统，该视觉识别系统包括：图像采集装置，该图像采集装置用于分别从样本视频信息和用于与该样本视频信息进行比较的待比视频信息采集n个帧图像，n为不为零的自然数；图像处理装置，该图像处理装置用于针对所述样本视频信息与待比视频信息的每个帧图像的m个特征对象设置特征值，从而为每个帧图像生成特征向量A1m，m为不为零的自然数；视觉处理装置，该视觉处理装置根据样本视频信息的帧图像和待比视频信息的帧图像的特征向量之间的统计学关系来识别所述待比视频信息中是否存在与所述样本视频信息相似的视频内容，其中，所述图像处理装置利用卷积模型处理实现每个特征对象的特征值的计算，所述图像处理装置还对经过卷积处理后的特征对象的特征值进行降维计算，从而将每个帧图像的所述特征向量A1m降维为特征向量A1k，k为小于m且不为零的自然数，降维计算处理后的特征向量A1k的每个特征对象均具有各自的权重值，其中，所述视觉处理装置用于将样本视频信息的每个帧图像的特征向量和待比视频信息的每个帧图像的特征向量分别组成一个分析矩阵Bnm，获得所述分析矩阵的每一列元素的特征值的样本累积分布函数曲线，根据所述样本视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，以及所述待比视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，来识别所述样本视频信息与待比视频信息在该特征对象上是否具有相似性。 2.根据权利要求1所述的视觉识别系统，其中，采集于所述样本视频信息的帧图像数量与采集于所述待比视频信息的帧图像数量为相等的或不相等的。 3.根据权利要求1所述的视觉识别系统，其中，所述分析矩阵的每行对应于每个帧图像的特征向量，其中，所述分析矩阵的各行按照所述n个帧图像的时序排列，和/或所述分析矩阵的各列按照该列所对应的特征对象的权重值排列。 4.根据权利要求1所述的视觉识别系统，其中，所述视觉处理装置根据所述样本视频信息与待比视频信息在m个特征对象中成立相似的特征对象的数量与权重占比情况，来识别所述样本视频信息和待比视频信息之间的相似度。
说明书全文	视觉识别系统技术领域 [0001] 本申请涉及视觉识别领域，更具体地说，涉及一种用于判断视频中是否具有相似视频信息的视觉识别系统。背景技术 [0002] 随着社会发展进入信息化时代，人工处理工作的效率和准确性逐渐难以满足需求。例如在需要处理大量的视频的情况下，传统上由人工进行识别相似内容视频归类打标签、识别同一视频内相似内容或剪辑相同内容以节约存储空间等工作时，往往需要花费大量时间，且在有限的精力下无法保证准确性。 [0003] 虽然已提出了利用计算机视觉判断视频相似度的方案。然而，已有的视频识别方法通常采用图像找相似的思路，通过识别视频中的图像的内容，分别比较不同视频帧的图像像素分布的相似度。这种方式虽然相较于人工方法提高了一定的工作效率，但其实质上局限于对图像的对比，而且仅通过图像像素的对比难以准确判断视频整体的相似度。例如视频经二次编辑后，新的视频相比于原视频可能只保留了部分特征，这种情况下虽然视频表达内容具有相似度，但视频帧的图像像素整体分布明显不同，导致传统方法难以有效识别而且效率较低。 [0004] 因此，如何提供一种效率较高且准确度较高的视频识别方案，成为本领域需要解决的技术问题。发明内容 [0005] 有鉴于此，本申请提出了一种视觉识别系统，以提供一种效率较高且准确度较高的视频识别方案。 [0006] 根据本申请提供了一种视觉识别系统，该视觉识别系统包括：图像采集装置，该图像采集装置用于分别从样本视频信息和用于与该样本视频信息进行比较的待比视频信息采集n个帧图像，n为不为零的自然数；图像处理装置，该图像处理装置用于针对所述样本视频信息与待比视频信息的每个帧图像的m个特征对象设置特征值，从而为每个帧图像生成特征向量A1m，m为不为零的自然数；视觉处理装置，该视觉处理装置根据样本视频信息的帧图像和待比视频信息的帧图像的特征向量之间的统计学关系来识别所述待比视频信息中是否存在与所述样本视频信息相似的视频内容。 [0007] 优选的，所述图像处理装置利用卷积模型处理实现每个特征对象的特征值的计算。 [0008] 优选的，所述图像处理装置还对经过卷积处理后的特征对象的特征值进行降维计算，从而将每个帧图像的所述特征向量A1m降维为特征向量A1k，k为小于m且不为零的自然数。 [0009] 优选的，降维计算处理后的特征向量A1k的每个特征对象均具有各自的权重值。 [0010] 优选的，采集于所述样本视频信息的帧图像数量与采集于所述待比视频信息的帧图像数量为相等的或不相等的。 [0011] 优选的，所述视觉处理装置用于将样本视频信息的每个帧图像的特征向量和待比视频信息的每个帧图像的特征向量分别组成一个分析矩阵Bnm，根据该分析矩阵Bnm的对应列元素的统计学关系，来判断所述样本视频信息和待比视频信息在该列元素所对应的特征对象上的相似关系。 [0012] 优选的，所述分析矩阵的每行对应于每个帧图像的特征向量，所述分析矩阵的各列按照所述n个帧图像的时序排列，和/或所述分析矩阵的各列按照该列所对应的特征对象的权重值排列。 [0013] 优选的，所述视觉处理装置用于获得所述分析矩阵的每一列元素的特征值的样本累积分布函数曲线。 [0014] 优选的，所述视觉处理装置根据所述样本视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，以及所述待比视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，来识别所述样本视频信息与待比视频信息在该特征对象上是否具有相似性。 [0015] 优选的，所述视觉处理装置根据所述样本视频信息与待比视频信息在m个特征对象中成立相似的特征对象的数量与权重占比情况，来识别所述样本视频信息和待比视频信息之间的相似度。 [0016] 根据本申请的技术方案，利用图像采集装置分别从样本视频信息和用于与该样本视频信息进行比较的待比视频信息中采集n个帧图像，通过图像处理装置针对每个帧图像的m个特征对象设置特征值，根据特征值生成特征向量A1m，视觉处理装置根据样本视频和待比视频的帧图像的特征向量之间的统计学关系来识别待比视频信息中是否存在与样本视频信息相似的视频内容，从而脱离传统上以视频或图像内容整体比对的方式，通过识别视频不同特征的统计学分布情况，提供了一种准确度较高的视频内容识别方案。 [0017] 本申请的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明 [0018] 构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施方式及其说明用于解释本申请。在附图中： [0019] 图1为根据本申请优选实施方式的视觉识别系统的系统架构示意图； [0020] 图2为根据本申请优选实施方式中样本分布函数曲线的示意图； [0021] 图3为根据本申请优选实施方式中样本分布函数曲线的比较示意图； [0022] 图4 视频识别示例。具体实施方式 [0023] 下面将参考附图并结合实施方式来详细说明本申请的技术方案。 [0024] 本申请提供了一种视觉识别系统，该视觉识别系统可以应用于日常生活或工业生产中，利用计算机视觉识别待比视频信息中与样本视频信息的特征向量之间是否在统计学分布上具有相似性，从而识别待比视频信息中是否存在与样本视频信息相似的视频内容。 [0025] 本申请的视觉识别系统包括：图像采集装置、图像处理装置和视觉处理装置。如图1所示，所述图像采集装置用于分别从样本视频信息和用于与该样本视频信息进行比较的待比视频信息采集n个帧图像，n为不为零的自然数；图像处理装置用于针对所述样本视频信息与待比视频信息的每个帧图像的m个特征对象设置特征值，从而为每个帧图像生成特征向量A1m，其中m为不为零的自然数（所谓特征向量也可以视为1维矩阵）；视觉处理装置根据样本视频信息的帧图像和待比视频信息的帧图像的特征向量之间的统计学关系来识别待比视频信息中是否存在与样本视频信息相似的视频内容。 [0026] 根据本申请的视觉识别系统，相比于传统上通过视频或图像之间整体内容对比的方式，能够通过识别视频中不同特征的统计学分布情况，从而对待比视频进行快速且准确度较高的视频内容识别。例如，样本视频信息中的特征对象包括一个运动的亮点，且其特征值分布符合正态分布；待比视频信息中也存在相同的呈正态分布的运动亮点，即使其他特征对象与样本视频信息均不同，也能够根据特征向量之间的统计学关系识别出视频信息中与样本视频信息相似的特征对象。 [0027] 在本申请的视觉识别系统中，图像采集装置可以为视频帧采集装置，用于在已有视频中采集连续的n个帧图像，或者每间隔1个或多个帧采集图像，共采集n个帧图像，例如用于识别已有的待比视频中是否存在与样本视频相似的视频内容。图像采集装置也可以为带有视频帧采集功能的摄像机、摄像头或照相机等，在视频录制时，可以采集连续或者每间隔1个或多个帧提取图像，例如在已有样本视频的情况下，在视频录制的同时通过将即时录制的内容作为待比视频，以识别录制区域中是否发生与样本视频的视频内容相似的情况。优选根据不同的应用场景以及需求可选择不同的图像采集装置。 [0028] 样本视频信息可以预先采集，也可以根据录制进度更新。所谓待比视频是指待与样本视频进行比较的视频信息。在本申请的技术方案中，为了识别待比视频信息中是否存在与所述样本视频信息相似的视频内容，从样本视频与待比视频中分别采集n个帧图像。优选情况下，采集于样本视频信息的帧图像数量与采集于待比视频的帧图像的数量为相同的，但本申请并不限于此也可以采集于样本视频信息的帧图像数量更多，或者更少。 [0029] 在从样本视频和待比视频中选择帧图像时，优选情况下，按照如下方式采集选择：逐帧采集；间隔特定帧数逐帧采集；逐关键帧采集等。逐帧采集最为常见，可保留全部视频内容；间隔特定帧数逐帧采集即每间隔m帧后取一帧，保留一定数量视频帧；逐关键帧采集即只保留视频中的关键帧，非关键帧全部丢弃。逐关键帧采集中可采用较为成熟的关键帧采集算法，如运动分析法。这种方法是一些学者基于物体运动特征的属性提出的一种关键帧提取算法，它一般的实现过程是：在视频镜头中分析物体运动的光流量，每次选择视频镜头中光流移动次数最少的视频帧作为提取到的关键帧。利用光流法计算视频帧的运动量公式如下所示： [0030] [0031] 公式中，M(K)表示第 k 帧的运动量,Lx(i,j,k)表示第k帧像素点(i,j)处光流X的分量，Ly(i,j,k)表示第k帧像素点(i,j)处光流y的分量。计算完成后，取局部最小值作为所要提取的关键帧。计算公式如下所示： [0032] [0033] 这种方法可以从大部分视频镜头中提取适量的关键帧，提取到的关键帧也可以有效地表达出视频运动的特征。 [0034] 本方案中，优选的是逐帧采集与间隔特定帧数逐帧采集；间隔特定帧数逐帧采集时，样本视频与待比视频不需要采用相同采集频率。但实施过程中，优选样本视频与待比视频保持相同的隔帧采集频率。 [0035] 在本申请的技术方案中，如图1所示，图像采集装置将分别从样本视频信息和待比视频信息所采集的n个帧图像发送给图像处理装置。图像处理装置针对每个帧图像（分别来自于样本视频和待比视频）生成各自的特征向量A1（m 或Am1）具体来说，针对每个帧图像生成m个特征对象，并计算出相应的特征值，从而为每个帧图像生成各自的特征向量A1m，m为不为零的自然数。所谓特征对象(Feature)是用于描述或定义帧图像的维度或标准，例如人脸、动作、亮度、边缘以及各种经过卷积、池化等处理后得到的图像简化特征结果。特征对象的数量为m个，可以根据不同的应用场景而选择，例如m可以为8、16、32、64、128、512等，本申请中优选512。因此，对于样本视频信息的多帧图像生成各个特征向量；对于待比视频信息的多帧图像生成各个特征向量。 [0036] 图像处理装置用于对每个帧图像的m个特征对象计算相应的特征值，从而能够对每个帧图像进行量化分析。特征值的计算可通过多种方式来实现，例如可以根据预先设计的量表来计算。在优选情况下，图像处理装置利用卷积模型处理实现每个特征对象的特征值的计算，卷积模型生成特征对象时就自动完成相应特征值的计算（其中卷积模型的卷积处理可以为2D卷积特征提取，也可以采用增加了时序维度的3D卷积特征提取）。例如，可利用深度学习CNN的方法（如Resnet, VGG等）对图像进行处理，以通过卷积层、池化层等各个计算层处理，将较为复杂的图像逐步提取特征，从而在每一帧图像中选择m个特征对象，并为每个帧图像生成各自的特征向量A1m。举例说明，如下表1所示，图像为480乘以480像素时，通过CNN方法提取512个特征值，此时m=512，从而针对该帧图像生成A（1*512）的特征向量。每一帧图像都有512个特征值（X1，X2，…，X512）形成的特征向量。 [0037] 表1 [0038] [0039] 优选情况下，根据上述视觉识别系统，为减小视觉处理装置的运算量进一步提高识别效率，图像处理装置可对经过卷积处理后的特征对象的特征值进行降维计算。该降维计算可通过主成分分析（PCA）、奇异值分解（SVD）等方法，对上述特征向量A1m做降维，从而将特征向量A1m降维为一组维度更低的特征向量A1（k 例如表1和表2所示，将512个特征值降维计算形成200个特征值），其中k为小于m且不为零的自然数。 [0040] 表2 [0041] [0042] 对于每个帧图像的m个或k个特征对象来说，其对帧图像的影响程度可以相同的，但大多数情况下为不同的。为了体现特征对象之间的不同影响，优选情况下每个特征向量的特征对象均附带有各自的权重值。权重值可以根据预设的规则来设定，也可以在执行降维计算过程中求解。本方案中，以采用主成分分析（PCA）进行降维计算为例，用pca确定权重系数需要知道三个条件： [0043] 1）指标在各主成分线性组合中的系数； [0044] 2）主成分的方差贡献率； [0045] 3）指标权重的归一化。 [0046] 举例来说：n个主成分，m个指标，w表示各主成分的系数，wij表示第一个主成分第j个指标的系数，fi表示第一个主成分的方差贡献率。 [0047] 则第q个指标的权重为： [0048] [0049] 归一化计算结果为： [0050] [0051] 如下表3所示，以将为计算后每帧图像形成200个特征值为例，根据上述主成分分析（PCA）方法处理后新生成的每个特征向量的特征对象优选均具有各自的权重值，以能够根据权重值判断该特征对象对该帧图像的影响力大小。根据不同的应用场景，该技术方案对于未经降维处理的特征向量也是可以适用的。 [0052] 表3 [0053] [0054] 以上对本申请所提供的视觉识别系统中的图像处理装置进行了详细地描述。在获得了样本视频信息的每帧图像和待比视频信息的每帧图像的特征向量后，不是通过比较每帧图像之间的显示内容来判断，而是通过比较特征向量之间的统计学关系（例如，特征对象在统计学上的分布一致性）来识别待比视频信息中是否存在与所述样本视频信息相似的特征对象，进而评价其内容的相似度。 [0055] 对于特征对象1来说，如果样本视频信息每帧图像或者多帧图像在特征对象1上的特征值统计学分布，与待比视频信息的每帧图像或者多帧图像的特征值的统计学分布，较为接近或类似的话（例如分布区间基本相同），则可以判定样本视频信息和待比视频信息在特征对象1上是比较接近的。对于m个或k个特征对象来说，如果超过一半以上或者2/3以上的特征对象为接近的，则可以识别样本视频与待比视频之间整体较为相似。如上所述，在设计有权重值的实施方式中，也可以在识别判断过程中结合权重值来进行计算。 [0056] 优选情况下，如下表4所示，为了便于进行数值计算，将样本视频的n帧图像的特征向量或降维后的特征向量组成一个分析矩阵Bn（m 或Bnk），将待比视频的n帧图像的特征向量或降维后的特征向量组成另一个分析矩阵，其中X11是指1帧图像特征对象1的特征值，以此类推。根据上述分析矩阵Bnm的对应列元素的统计学关系判断上述样本视频和待比视频在该列元素所对应的特征对象上的相似关系，如上所述根据统计学分布上的统计学关系来判断。 [0057] 表4 [0058] [0059] 对于分析矩阵来说，分析矩阵的每行对应于每个帧图像的特征向量。对于分析矩阵的各行来说，优选情况下按照预定的顺序来排列，例如分析矩阵的行按照n个帧图像的时序排列，或者按照不同帧图像的重要程度来排列。对于分析矩阵的各列来说，优选情况下也可按照预定的顺序来排列，例如按照特征对象的重要程度来排列，或者分析矩阵的各列按照该列所对应的特征对象的权重值排列。但本申请并不限于此，也可随机排布。 [0060] 为了在分析矩阵的基础上判断特征对象的相似程度，优选情况下，所述视觉处理装置用于获得分析矩阵的每一列元素的特征值的样本的累积分布函数，或者样本的累积分布曲线（CDF，cumulative distribution function）。因此，可以对来自于样本视频的帧图像的特征对象的特征值形成其所期望的样本分布函数曲线（如图2中不同特征对象的expect曲线。在图2中，纵坐标为样本累积分布函数的数值（取值范围是0‑1)，横坐标为不同帧的序列（特征对象后括号中的数值为特征权重值），因此，本函数图可以准确反映特征对象数值的统计学分布。对来自于待比视频的帧图像的特征对象的特征值另外形成其样本分布函数曲线（如图2中不同特征对象的除expect曲线之外的其他曲线，每条其他曲线代表一个待比视频的多帧图像在该特征对象的样本分布曲线，因此本申请不限于一个待比视频，可以有多个待比视频分别比较）。通过比较，视觉处理装置根据所述样本视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，以及所述待比视频信息的n个帧图像在逐个特征对象的样本累积分布函数曲线，来识别所述样本视频信息与待比视频信息在该特征对象上是否具有相似性。 [0061] 例如，可以根据（Kolmogorov‑Smirnov）检验来进行两个分布函数曲线一致性的判断。KS检验是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max\| f(x)‑ g(x)\|，当实际观测值D>D(n,α)则拒绝H0，否则则接受H0假设。如图3所示（在图3中，横坐标与纵坐标可以具有与图2中相同的含义），针对两条样本分布曲线计算两条分布曲线之间的最大垂直差作为D值（statistic D）作为描述两组数据之间的差异。在此图中这个D值出现在x=1附近，而D值为0.45（0.65‑0.25）。可以针对该最大垂直差D设定阈值，如果超过该阈值，则识别该两条样本分布函数曲线是不同的或不相似的；如果没有超过该阈值，则识别该两条样本分布函数曲线是相同的或相似的。 [0062] 再将样本视频的多帧图像在各个特征对象上的样本分布函数曲线，与待比视频在各个特征对象上的样本分布函数曲线进行比较后，可以知道样本视频与待比视频在哪些特征对象上是相似的，还是不相似的。如果识别为相似的特征对象较多，而识别为不相似的特征对象较少，则可以识别样本视频与待比视频之间的相似度较高；反之，则可以识别样本视频与待比视频之间的相似度较低。 [0063] 优选情况下，所述视觉处理装置根据所述样本视频信息与待比视频信息在m个特征对象中成立相似的特征对象的数量与权重占比情况，来识别所述样本视频信息和待比视频信息之间的相似度。例如，在m个特征对象中，如果超过一半或者2/3的特征对象通过上述判断识别为相似或相同的话，则可以认为样本视频信息与待比视频之间为相似的。或者，根据不同的占比情况，区分样本视频与待比视频之间的相似度，相似或相同的特征对象（及其权重）越多，则相似度可以越高。比如，降维处理后存在200个特征对象，KS分析后其中100个特征对象具有相同分布，另外100个特征对象不具备相同分布。累加100个具有相同分布的特征对象的权重值，如累加结果超过大于0且小于1的某一阈值（例如0.6，阈值可人工调整），则判定原视频与待比视频相似度较高。 [0064] 下面将通过一个具体的实例对本申请的技术方案进行示例性说明。 [0065] 如图4所示，第一个视频是原视频，另外两个待比视频我们分别希望识别与原视频的相似度，进而分别归类。很明显，从人工视角来看待比视频1与原视频较为接近，待比视频2与原视频没有太多相似性。本任务中，我们希望让计算机利用算法快速完成这样的判断。 [0066] 传统方法中，算法通常采取两种判定思路：1）利用原视频中的画面帧与待比视频的画面帧分别比较图像相似度；2）识别原视频与待比视频中的画面内容，如果两个视频都存在较多“山”“绿色”等识别标签，则可判断相似，否则不相似。显然，这两种方法都需要对视频画面进行全面的检索，较为耗时，且准确率不高。 [0067] 本方法中，首先提取原视频与两个待比视频的画面帧，每个视频存在共计1000帧。 [0068] 利用3D卷积模型（3D‑Resnet）对三个视频进行提取特征对象的处理，分别生成各自全部画面帧的512维特征向量。 [0069] 利用PCA对三个视频的512维特征向量进行降维处理，最后得到带有权重值的200维特征向量。 [0070] 以200个特征对象为横轴，1000帧为纵轴，组成三个视频各自的特征矩阵，如下表。 [0071] [0072] 针对特征对象1，原视频与两个待比视频均有1000个特征值，如下表，分别形成三组累积函数分布（CDF）。 [0073] [0074] 利用KS方法，可以判断出原视频与待比视频1在特征对象1的统计分布具有相似性，与待比视频2在特征对象1的统计分布不具备相似性。如此，重复三个视频在全部200个特征对象的累积函数分布（CDF）的比较。 [0075] 最终，获知原视频与待比视频1在200个特征对象中有163个特征对象具有相似累积函数分布，权重加合为0.92，超过0.6的阈值，则可判断原视频与比较视频1视频内容相似；相对的，原视频与待比视频2只有82个特征对象具有相似累积函数分布，权重加合为0.38，低于0.6的阈值，则可判定原视频与比较视频2不相似。 [0076] 以上详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。 [0077] 另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。 [0078] 此外，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。