视频质量评估方法及装置转让专利

申请号 : CN202110138817.5

文献号 : CN112995652B

文献日 : 2021-12-07

本申请的实施例提供了一种视频质量评估方法及装置。该视频质量评估方法包括：获取待评估视频，所述待评估视频中包含有多个视频帧；对所述多个视频帧中的各个视频帧进行特征提取，得到所述各个视频帧的图像特征向量；根据所述图像特征向量，确定所述各个视频帧的与画面内容相关的内容特征向量，并根据所述图像特征向量以及所述内容特征向量，确定所述各个视频帧的与画面质量相关的质量特征向量；根据所述质量特征向量，确定所述各个视频帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所述待评估视频的质量评估结果。本申请实施例的技术方案能够提高视频质量评估的准确性。

1.一种视频质量评估方法，其特征在于，所述方法包括：获取待评估视频，所述待评估视频中包含有多个视频帧；

对所述多个视频帧中的各个视频帧进行特征提取，得到所述各个视频帧的图像特征向量，所述图像特征向量是以向量形式表示的图像特征的向量，所述图像特征至少包含视频帧的与画面内容相关的信息以及与画面质量相关的信息；

根据所述图像特征向量，确定所述各个视频帧的与画面内容相关的内容特征向量，并根据所述图像特征向量以及所述内容特征向量，确定所述各个视频帧的与画面质量相关的质量特征向量；

根据所述质量特征向量，确定所述各个视频帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所述待评估视频的质量评估结果。

2.根据权利要求1所述的方法，其特征在于，根据所述各个视频帧的画面质量分数，生成针对所述待评估视频的质量评估结果，包括：获取所述待评估视频的卡顿次数以及卡顿时长，并根据所述卡顿次数以及所述卡顿时长，确定所述待评估视频的视频流畅度损伤值；

根据所述各个视频帧的画面质量分数，确定所述待评估视频的画面质量分数；

根据所述待评估视频的视频流畅度损伤值以及所述待评估视频的画面质量分数，生成针对所述待评估视频的质量评估结果。

3.根据权利要求2所述的方法，其特征在于，根据所述各个视频帧的画面质量分数，确定所述待评估视频的画面质量分数，包括：根据所述各个视频帧的画面质量分数，计算多个质量分数的平均值，将计算得到的平均值作为所述待评估视频的画面质量分数。

4.根据权利要求2所述的方法，其特征在于，根据所述卡顿次数以及所述卡顿时长，确定所述待评估视频的视频流畅度损伤值，包括：根据所述卡顿次数，确定所述待评估视频的第一视频流畅度损伤值，并根据所述卡顿时长，确定所述待评估视频的第二视频流畅度损伤值；

根据所述第一视频流畅度损伤值以及所述第二视频流畅度损伤值，确定所述待评估视频的视频流畅度损伤值。

5.根据权利要求1所述的方法，其特征在于，所述图像特征向量是通过质量评估模型的特征提取模块提取得到的，所述内容特征向量是将所述图像特征向量输入所述质量评估模型的残差模块后得到的；

根据所述质量特征向量，确定所述各个视频帧的画面质量分数，包括：将所述各个视频帧的质量特征向量输入所述质量评估模型的质量评估模块，得到所述质量评估模块输出的所述各个视频帧的画面质量分数。

6.根据权利要求5所述的方法，其特征在于，所述质量评估模型还包括相关性模块、特征相关系数计算模块以及内容分类模块，所述质量评估模型是通过如下方式训练得到的：获取训练样本集，所述训练样本集中包含有多个批量处理集，所述多个批量处理集中的各个批量处理集中包含有多个视频样本，各个视频样本包含有质量分数标签和视频内容标签；

通过所述特征提取模块、所述残差模块、所述相关性模块以及所述特征相关系数计算模块，确定所述各个批量处理集对应的第一特征相关系数，根据所述第一特征相关系数，确定第一损失函数，并根据所述第一损失函数，调整所述相关性模块的参数；

通过所述特征提取模块、所述残差模块、参数调整后的相关性模块、所述特征相关系数计算模块、所述质量评估模块以及所述内容分类模块，确定所述各个批量处理集对应的第二特征相关系数、质量损失值以及内容损失值，并根据所述第二特征相关系数、所述质量损失值以及所述内容损失值，确定第二损失函数，根据所述第二损失函数，调整所述特征提取模块、所述残差模块、所述质量评估模块以及所述内容分类模块的参数；

基于参数调整后的特征提取模块、参数调整后的残差模块、参数调整后的质量评估模块以及参数调整后的内容分类模块，重新进行所述相关性模块的参数的调整，并基于参数重新调整后的相关性模块，继续进行所述特征提取模块、所述残差模块、所述质量评估模块以及所述内容分类模块的参数的调整，直至收敛。

7.根据权利要求6所述的方法，其特征在于，通过所述特征提取模块、所述残差模块、所述相关性模块以及所述特征相关系数计算模块，确定所述各个批量处理集对应的第一特征相关系数，包括：

通过所述特征提取模块提取所述各个批量处理集中包含的各个视频样本中的多个视频样本帧的图像特征向量，将各个视频样本帧的图像特征向量输入所述残差模块，得到所述残差模块输出的所述各个视频样本帧的与画面内容相关的内容特征向量，根据所述各个视频样本帧的图像特征向量以及所述各个视频样本帧的内容特征向量，确定所述各个视频样本帧的与画面质量相关的质量特征向量；

根据所述各个视频样本帧的内容特征向量以及所述各个视频样本帧的质量特征向量，通过所述相关性模块和所述特征相关系数计算模块确定所述各个视频样本帧对应的特征相关系数，将确定出的所述各个视频样本帧对应的特征相关系数作为所述各个批量处理集对应的第一特征相关系数。

8.根据权利要求7所述的方法，其特征在于，根据所述第一特征相关系数，确定第一损失函数，包括：

获取所述多个视频样本帧分别对应的特征相关系数，将多个特征相关系数中的最小特征相关系数的相反数作为所述第一损失函数。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：通过所述质量评估模块，确定所述各个批量处理集中包含的各个视频样本的输出画面质量分数，通过所述内容分类模块，确定所述各个批量处理集中包含的各个视频样本的输出视频内容类别；

根据所述各个视频样本的输出画面质量分数以及所述各个视频样本的质量分数标签，确定所述各个批量处理集对应的质量损失值；

根据所述各个视频样本的输出视频内容类别以及所述各个视频样本的视频内容标签，确定所述各个批量处理集对应的内容损失值。

10.一种视频质量评估装置，其特征在于，所述装置包括：获取单元，配置为获取待评估视频，所述待评估视频中包含有多个视频帧；

提取单元，配置为对所述多个视频帧中的各个视频帧进行特征提取，得到所述各个视频帧的图像特征向量，所述图像特征向量是以向量形式表示的图像特征的向量，所述图像特征至少包含视频帧的与画面内容相关的信息以及与画面质量相关的信息；

第一确定单元，配置为根据所述图像特征向量，确定所述各个视频帧的与画面内容相关的内容特征向量，并根据所述图像特征向量以及所述内容特征向量，确定所述各个视频帧的与画面质量相关的质量特征向量；

第二确定单元，配置为根据所述质量特征向量，确定所述各个视频帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所述待评估视频的质量评估结果。

视频质量评估方法及装置

技术领域

[0001] 本申请涉及计算机及通信技术领域，具体而言，涉及一种视频质量评估方法及装置。

背景技术

[0002] 随着多媒体信息时代的到来，各类视频处理和视频通信技术层出不穷，因而，视频质量评估技术显得日益重要。然而，现有的视频质量评估技术存在着计算开销大、复杂程度
高，准确性低等诸多缺陷。

发明内容

[0003] 本申请的实施例提供了一种视频质量评估方法及装置，进而至少在一定程度上可以能够提高视频质量评估的准确性。

[0004] 本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

[0005] 根据本申请实施例的一个方面，提供了一种视频质量评估方法，包括：获取待评估视频，所述待评估视频中包含有多个视频帧；对所述多个视频帧中的各个视频帧进行特征
提取，得到所述各个视频帧的图像特征向量；根据所述图像特征向量，确定所述各个视频帧
的与画面内容相关的内容特征向量，并根据所述图像特征向量以及所述内容特征向量，确
定所述各个视频帧的与画面质量相关的质量特征向量；根据所述质量特征向量，确定所述
各个视频帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所述待评
估视频的质量评估结果。

[0006] 根据本申请实施例的一个方面，提供了一种视频质量评估装置，包括：获取单元，配置为获取待评估视频，所述待评估视频中包含有多个视频帧；提取单元，配置为对所述多
个视频帧中的各个视频帧进行特征提取，得到所述各个视频帧的图像特征向量；第一确定
单元，配置为根据所述图像特征向量，确定所述各个视频帧的与画面内容相关的内容特征
向量，并根据所述图像特征向量以及所述内容特征向量，确定所述各个视频帧的与画面质
量相关的质量特征向量；第二确定单元，配置为根据所述质量特征向量，确定所述各个视频
帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所述待评估视频的
质量评估结果。

[0007] 在本申请的一些实施例中，基于前述方案，所述第二确定单元包括：获取子单元，配置为获取所述待评估视频的卡顿次数以及卡顿时长，并根据所述卡顿次数以及所述卡顿
时长，确定所述待评估视频的视频流畅度损伤值；确定子单元，配置为根据所述各个视频帧
的画面质量分数，确定所述待评估视频的画面质量分数；生成子单元，配置为根据所述待评
估视频的视频流畅度损伤值以及所述待评估视频的画面质量分数，生成针对所述待评估视
频的质量评估结果。

[0008] 在本申请的一些实施例中，基于前述方案，所述确定子单元配置为：根据所述各个视频帧的画面质量分数，计算多个质量分数的平均值，将计算得到的平均值作为所述待评
估视频的画面质量分数。

[0009] 在本申请的一些实施例中，基于前述方案，所述获取子单元配置为：根据所述卡顿次数，确定所述待评估视频的第一视频流畅度损伤值，并根据所述卡顿时长，确定所述待评
估视频的第二视频流畅度损伤值；根据所述第一视频流畅度损伤值以及所述第二视频流畅
度损伤值，确定所述待评估视频的视频流畅度损伤值。

[0010] 在本申请的一些实施例中，基于前述方案，所述图像特征向量是通过质量评估模型的特征提取模块提取得到的，所述内容特征向量是将所述图像特征向量输入所述质量评
估模型的残差模块后得到的；所述第二确定单元配置为：根据所述质量特征向量，确定所述
各个视频帧的画面质量分数，包括：将所述各个视频帧的质量特征向量输入所述质量评估
模型的质量评估模块，得到所述质量评估模块输出的所述各个视频帧的画面质量分数。

[0011] 在本申请的一些实施例中，基于前述方案，所述质量评估模型还包括相关性模块、特征相关系数计算模块以及内容分类模块，所述质量评估模型是通过如下方式训练得到
的：获取训练样本集，所述训练样本集中包含有多个批量处理集，所述多个批量处理集中的
各个批量处理集中包含有多个视频样本，各个视频样本包含有质量分数标签和视频内容标
签；通过所述特征提取模块、所述残差模块、所述相关性模块以及所述特征相关系数计算模
块，确定所述各个批量处理集对应的第一特征相关系数，根据所述第一特征相关系数，确定
第一损失函数，并根据所述第一损失函数，调整所述相关性模块的参数；通过所述特征提取
模块、所述残差模块、参数调整后的相关性模块、所述特征相关系数计算模块、所述质量评
估模块以及所述内容分类模块，确定所述各个批量处理集对应的第二特征相关系数、质量
损失值以及内容损失值，并根据所述第二特征相关系数、所述质量损失值以及所述内容损
失值，确定第二损失函数，并根据所述第二损失函数，调整所述特征提取模块、所述残差模
块、所述质量评估模块以及所述内容分类模块的参数；基于参数调整后的特征提取模块、参
数调整后的残差模块、参数调整后的质量评估模块以及参数调整后的内容分类模块，重新
进行所述相关性模块的参数的调整，并基于参数重新调整后的相关性模块，继续进行所述
特征提取模块、所述残差模块、所述质量评估模块以及所述内容分类模块的参数的调整，直
至收敛。

[0012] 在本申请的一些实施例中，基于前述方案，通过所述特征提取模块、所述残差模块以及所述相关性模块，确定所述各个批量处理集对应的第一特征相关系数，包括：通过所述
特征提取模块提取所述各个批量处理集中包含的各个视频样本中的多个视频样本帧的图
像特征向量，将各个视频样本帧的图像特征向量输入所述残差模块，得到所述残差模块输
出的所述各个视频样本帧的与画面内容相关的内容特征向量，根据所述各个视频样本帧的
图像特征向量以及所述各个视频样本帧的内容特征向量，确定所述各个视频样本帧的与画
面质量相关的质量特征向量；根据所述各个视频样本帧的内容特征向量以及所述各个视频
样本帧的质量特征向量，通过所述相关性模块和所述特征相关系数计算模块确定所述各个
视频样本帧对应的特征相关系数，将确定出的所述各个视频样本帧对应的特征相关系数作
为所述各个批量处理集对应的第一特征相关系数。

[0013] 在本申请的一些实施例中，基于前述方案，根据所述第一特征相关系数，确定第一损失函数，包括：获取所述多个视频样本帧分别对应的特征相关系数，将多个特征相关系数
中的最小特征相关系数的相反数作为所述第一损失函数。

[0014] 在本申请的一些实施例中，基于前述方案，还包括：通过所述质量评估模块，确定所述各个批量处理集中包含的各个视频样本的输出画面质量分数，通过所述内容分类模
块，确定所述各个批量处理集中包含的各个视频样本的输出视频内容类别；根据所述各个
视频样本的输出画面质量分数以及所述各个视频样本的质量分数标签，确定所述各个批量
处理集对应的质量损失值；根据所述各个视频样本的输出视频内容类别以及所述各个视频
样本的视频内容标签，确定所述各个批量处理集对应的内容损失值。

[0015] 根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的视频质量评估方法。

[0016] 根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执
行时，使得所述一个或多个处理器实现如上述实施例中所述的视频质量评估方法。

[0017] 根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机
指令，使得该计算机设备执行上述各种可选实施例中提供的视频质量评估方法。

[0018] 在本申请的一些实施例所提供的技术方案中，首先通过对待评估视频中的各个视频帧进行特征提取，得到各个视频帧的图像特征向量，然后根据图像特征向量，确定各个视
频帧的与画面内容相关的内容特征向量，并根据图像特征向量以及内容特征向量，确定各
个视频帧的与画面质量相关的质量特征向量，进而根据各个视频帧的质量特征向量，确定
各个视频帧的画面质量分数，最后根据各个视频帧的画面质量分数，生成针对待评估视频
的质量评估结果。本申请实施例的技术方案，由于将与画面内容相关的特征以及与画面质
量相关的特征分离开来，避免了特征之间相互干扰，提高视频质量评估的准确性，同时本方
案避免了使用结构庞大复杂的模型，节省了计算开销，实用性更强。

[0019] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

[0020] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请
的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据
这些附图获得其他的附图。在附图中：

[0021] 图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

[0022] 图2示出了根据本申请的一个实施例的视频质量评估方法的流程图；

[0023] 图3示出了根据本申请的一个实施例的视频质量评估方法的流程图；

[0024] 图4示出了根据本申请的一个实施例的质量评估模型的结构示意图；

[0025] 图5示出了根据本申请的一个实施例的视频质量评估方法的流程图；

[0026] 图6示出了根据本申请的一个实施例的视频质量评估方法的流程图；

[0027] 图7示出了根据本申请的一个实施例的视频质量评估装置的框图；

[0028] 图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

[0029] 现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加
全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

[0030] 此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，
本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，
或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本申请的各方面。

[0031] 需要说明的是，本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例，并不旨在限制本申请的范围。应该理解的是，术语“包括”、“包含”、“具有”等在本
文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组，但并不排除
存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。

[0032] 将进一步理解的是，尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元
件。例如，在不脱离本发明的范围的情况下，第一元件可以被称为第二元件。类似地，第二元
件可以被称为第一元件。如本文所使用的，术语“和/或”包含关联的列出的项目中的一个或
多个的任何和所有组合。

[0033] 附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现
这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

[0034] 附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合
并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

[0035] 需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和
B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

[0036] 随着人工智能(Artificial Intelligence，AI)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能
营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，
人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

[0037] 人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话
说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能
以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原
理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技
术、自然语言处理技术、以及机器学习/深度学习等几大方向。

[0038] 随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能
医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价
值。

[0039] 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或
技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是
使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通
常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

[0040] 应理解，本申请提供的技术方案可以应用于基于人工智能的视频处理场景，具体可以应用于对视频质量进行评估的场景。对视频的质量进行有效且实时的评价，能够帮助
视频服务供应提供更优质的服务。近年来，随着各种第四代移动通信技术终端的大量上市，
以及第五代移动通信技术的不断突破，无线网络速度迅速提升。各类视频通话以及视频会
议的应用程序(例如即时通讯类应用以及在线会议类应用等)在现实生活中得到愈发广泛
地应用。然而，在视频的获取、编码、传输以及解码过程中会引入各种各样的失真，严重影响
视频的质量以及用户观看视频的体验。作为视频服务的供应商，为了给用户提供更为优质
的视频观看体验，需要为用户获取的视频质量建立一个评价标准，也就是对这些视频的用
户体验质量进行检测并量化。因此，本申请所提出的对于视频的质量评估的需求是十分迫
切的。

[0041] 目前视频质量评估方法主要可以分为两类，一类基于传统的自然场景统计学方法，另一类则基于深度学习方法。传统的统计学方法一般有较低的时间和模型复杂度，但精
确度不高，多数情况下只能用于评估质量明显下降的样例，在面对高清、场景细节丰富、复
杂多变的视频时，往往会出现许多失败案例。而深度学习方法随着近几年来的发展，在图像
和视频处理领域都表现出了令人瞩目的强大性能，但许多优秀的模型往往结构更复杂，计
算开销非常大，近年来学界开发的方法更是有越做越复杂的趋势，比如在空域特征提取上
选择庞大的残差网络50(Residual Network50，ResNet50)，甚至3D卷积神经网络，这些模型
都对硬件设备要求非常高，无法在实际应用中部署到移动设备当中去。另外在时域特征提
取上，长短期记忆网络(Long Short‑Term Memory，LSTM)的应用也越来越广泛，同样限制了
模型预测的实时性。需要注意的是，这种通过增加模型复杂度而带来的性能提升并不显著。
额外的计算开销常常是为了捕获时域特征，但从各方面的实验结果和经验来看，视频流畅
性对于用户的影响远远小于清晰度，所以从实用性来看，现有的深度学习方法在捕获时域
特征上所换来的收益远不足以补偿为之牺牲的计算开销。

[0042] 基于此，本申请实施例提出了一种文本识别方法，首先通过对待评估视频中的各个视频帧进行特征提取，得到各个视频帧的图像特征向量，然后根据图像特征向量，确定各
个视频帧的与画面内容相关的内容特征向量，并根据图像特征向量以及内容特征向量，确
定各个视频帧的与画面质量相关的质量特征向量，进而根据各个视频帧的质量特征向量，
确定各个视频帧的画面质量分数，最后根据各个视频帧的画面质量分数，生成针对待评估
视频的质量评估结果。本申请实施例的技术方案，由于将与画面内容相关的特征以及与画
面质量相关的特征分离开来，避免了特征之间相互干扰，提高视频质量评估的准确性，同时
本方案避免了使用结构庞大复杂的模型，节省了计算开销，实用性更强。

[0043] 为了便于理解，本申请实施例提出了一种视频质量评估的方法，该方法应用于图1所示的系统架构，请参阅图1，系统架构100可以包括终端设备102，网络和服务器104。网络
用以在终端设备102和服务器104之间提供通信链路的介质。网络可以包括各种连接类型，
例如有线、无线通信链路或者光纤电缆等等。

[0044] 终端设备102可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器104可以是独立的物理服务器，还可以是
提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、
安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台
等基础云计算服务的云服务器。

[0045] 本申请实施例所提供的视频质量评估方法一般由服务器104执行，相应地，视频质量评估装置一般设置于服务器104中。但本领域技术人员容易理解的是，本申请实施例所提
供的视频质量评估方法也可以由终端设备102执行，相应地，视频质量评估装置也可以设置
于终端设备102中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例
中，可以是用户通过终端设备102将待评估视频上传至服务器104，服务器104通过本申请实
施例所提供的视频质量评估方法对该视频进行评估，并将得到的质量评估结果发送给终端
设备102。

[0046] 应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器104可以是多个服务器组成
的服务器集群等。

[0047] 结合上述介绍，本申请实施例提供的方案涉及人工智能的计算机视觉等技术，计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进
一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进
一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科
学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信
息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检
索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频
内容/行为识别、三维物体重建、三维技术、虚拟现实、增强现实、同步定位与地图构建等技
术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

[0048] 以下对本申请实施例的技术方案的实现细节进行详细阐述：

[0049] 图2示出了根据本申请的一个实施例的视频质量评估方法的流程图，该视频质量评估方法可以由服务器来执行，该服务器可以是图1中所示的服务器104。参照图2所示，该
视频质量评估方法至少包括以下步骤：

[0050] 步骤S210、获取待评估视频，待评估视频中包含有多个视频帧；

[0051] 步骤S220、对多个视频帧中的各个视频帧进行特征提取，得到各个视频帧的图像特征向量；

[0052] 步骤S230、根据图像特征向量，确定各个视频帧的与画面内容相关的内容特征向量，并根据图像特征向量以及内容特征向量，确定各个视频帧的与画面质量相关的质量特
征向量；

[0053] 步骤S240、根据质量特征向量，确定各个视频帧的画面质量分数，并根据各个视频帧的画面质量分数，生成针对待评估视频的质量评估结果。

[0054] 下面对这些步骤进行详细描述。

[0055] 步骤S210，获取待评估视频，待评估视频中包含有多个视频帧。

[0056] 在本实施例中，待评估视频是需要被进行视频质量评估的视频，待评估视频可以是实时流媒体视频，拍摄的视频或者下载的视频，待评估视频的时长、类型不受限制。待评
估视频中包含有多个视频帧：第1帧、第2帧……第i‑1帧、第i帧、第i+1帧……第n‑1帧、第n
帧等等。

[0057] 步骤S220，对多个视频帧中的各个视频帧进行特征提取，得到各个视频帧的图像特征向量。

[0058] 图像特征向量是指以向量的形式表示的图像特征的向量，图像特征至少包含视频帧的与画面内容相关的信息以及与画面质量相关的信息。

[0059] 可选的，对多个视频帧中的各个视频帧进行特征提取可以是将各个视频帧输入预训练的特征提取网络，得到特征提取网络输出的图像特征向量，其中，该特征提取网络可以
是基于深度卷积神经网络训练得到，比如，该特征提取网络可以采用视觉几何组(Visual
Geometry Group，VGG)网络结构。除了模型法特征提取之外，还可以采用几何法特征提取、
信号处理法特征提取等方法对各个视频帧进行特征提取，本申请实施例不对提取图像特征
的具体方式进行具体限定。

[0060] 步骤S230，根据图像特征向量，确定各个视频帧的与画面内容相关的内容特征向量，并根据图像特征向量以及内容特征向量，确定各个视频帧的与画面质量相关的质量特
征向量。

[0061] 其中，内容特征向量是指与视频帧的画面内容相关的特征向量，即以向量形式表示的画面内容特征的向量，画面内容特征至少可以包括视频帧内的物体信息、场景信息、颜
色信息、位置信息等。

[0062] 由于图像特征至少包含视频帧的与画面内容相关的信息以及与画面质量相关的信息，因而在提取得到图像特征向量之后，可以根据图像特征向量，确定出个视频帧的与画
面内容相关的内容特征向量，进而，利用图像特征向量减去内容特征向量，确定出各个视频
帧的与画面质量相关的质量特征向量。

[0063] 步骤S240，根据质量特征向量，确定各个视频帧的画面质量分数，并根据各个视频帧的画面质量分数，生成针对待评估视频的质量评估结果。

[0064] 具体而言，画面质量分数用于指示各个视频帧的画面质量情况。在一实施方式中，每一质量特征向量可以对应一个画面质量分数，例如得到某个质量特征向量时，则可获取
相应画面质量分数。

[0065] 在一实施方式中，还可以预先搭建和训练质量评估模型，将质量特征向量输入质量评估模型，从而得到质量评估模型输出的各个视频帧的画面质量分数。质量评估模型是
以视频样本集中的视频样本为输入，以视频样本中的总体质量分数为输出训练得到的模
型。需要说明，本实施例对质量评估模型的类型不做限定。可选的，质量评估模型的类型可
以为下列中的任意一个：神经网络模型、深度算法模型和机器算法模型。

[0066] 由于画面质量分数可以用于指示各个视频帧的画面质量情况，因而在确定出各个视频帧的画面质量分数之后，进一步，则可以根据各个视频帧的画面质量分数，生成针对待
评估视频的质量评估结果。在一实施方式中，根据各个视频帧的画面质量分数，生成针对待
评估视频的质量评估结果可以是根据各个视频帧的画面质量分数，计算多个质量分数的均
值，然后，将计算得到的均值作为待评估视频的画面质量评估结果。当然，根据各个视频帧
的质量分数，生成针对待评估视频的质量评估结果还可以是其他可行的实施方式，在此不
进行具体限定。

[0067] 基于以上实施例的技术方案，根据各个视频帧的图像特征向量，确定各个视频帧的与画面内容相关的内容特征向量，并根据图像特征向量以及内容特征向量，确定各个视
频帧的与画面质量相关的质量特征向量，进而根据各个视频帧的质量特征向量，确定各个
视频帧的画面质量分数，最后根据各个视频帧的画面质量分数，生成针对待评估视频的质
量评估结果。本申请实施例的技术方案由于将与画面内容相关的特征以及与画面质量相关
的特征分离开来，避免了内容特征与质量特征之间的相互干扰，提高视频质量评估的准确
性，同时本方案避免了使用结构庞大复杂的模型，节省了计算开销，实用性更强。

[0068] 在本申请的一个实施例中，在确定出待评估视频的各个视频帧的画面质量分数之后，可以将得到的画面质量分数与播放流畅度相关特征相结合，即卡顿次数与卡顿时长，最
终生成针对待评估视频的质量评估结果。在该实施例中，如图3所示，步骤S240中根据各个
视频帧的画面质量分数，生成针对待评估视频的质量评估结果可以具体包括步骤S310‑步
骤S330，说明如下：

[0069] 在步骤S310中，获取待评估视频的卡顿次数以及卡顿时长，并根据卡顿次数以及卡顿时长，确定待评估视频的视频流畅度损伤值。

[0070] 其中，卡顿是指终端设备在播放视频的过程中，视觉上产生的不连贯感，通常是由于终端设备的运算出现延迟，或网络延迟、抖动、丢包等不良网络情况的发生，导致视频播
放的卡顿。

[0071] 人眼在观看物体时成像于视网膜上，并由视神经输入人脑，从而感觉到物体的像，当物体移去时，视神经对物体的印象不会立即消失，可能会有延迟，比如，延迟0.1至0.2秒，
则基于视觉暂留效应，可以将卡顿信息作为评估视频质量的一个因素，卡顿信息可以反应
视频的流畅度。在本实施例中，卡顿信息至少包括卡顿次数和卡顿时长，具体实施时，执行
主体可以根据待评估视频的卡顿事件，计算出卡顿次数和卡顿时长，从而获取待评估视频
的卡顿次数以及卡顿时长。

[0072] 例如，在预设的时间段内，统计播放器发送的进入卡顿事件，从而得出卡顿次数；再如，在预设的时间段内，计算播放器发送的进入卡顿事件与退出卡顿事件之间的时长，从
而确定出卡顿时长。

[0073] 在获取到待评估视频的卡顿次数与卡顿时长之后，则可以进一步根据卡顿次数和卡顿时长，确定待评估视频的视频流畅度损伤值。根据卡顿次数和卡顿时长确定出的视频
流畅度损伤值可以从视频播放流畅度上反映出待评估视频的流畅度损伤程度，视频流畅度
损伤值越大，则说明待评估视频的播放流畅度越差。

[0074] 在本申请的一个实施例中，在确定待评估视频的视频流畅度损伤值时可以是根据卡顿次数，确定待评估视频的第一视频流畅度损伤值，根据卡顿时长，确定待评估视频的第
二视频流畅度损伤值，最后，根据第一视频流畅度损伤值和第二视频流畅度损伤值，确定待
评估视频的视频流畅度损伤值。

[0075] 在具体实现过程中，考虑到用户体验下降的敏感特性和饱和特性，可以根据如下公式一计算待评估视频的第一视频流畅度损伤值D_num，根据如下公式二计算待评估视频
的第二视频流畅度损伤值D_dur，同时，考虑到第一视频流畅度损伤值D_num和第二视频流
畅度损伤值D_dur的重叠性以及实际情况的多样性，可以根据如下公式三进行计算待评估
视频的视频流畅度损伤值D_stall：

[0076]

[0077]

[0078] D_stall＝max(D_num，D_dur)+0.5min(D_num，D_dur) 公式三

[0079] 其中，n和d分别表示卡顿次数和卡顿时长。

[0080] 在步骤S320中，根据各个视频帧的画面质量分数，确定待评估视频的画面质量分数。

[0081] 由于待评估视频中包含有多个视频帧，因此在确定出各个视频帧的画面质量分数之后，则可以根据各个视频帧的画面质量分数，确定待评估视频的画面质量分数。具体可以
是对各个视频帧的画面质量分数进行加权运算，得到待评估视频的画面质量分数。

[0082] 在本申请的一个实施例中，根据各个视频帧的画面质量分数，确定待评估视频的质量分数还可以是根据各个视频帧的质量分数，计算多个质量分数的平均值，然后，将计算
得到的平均值作为待评估视频的画面质量分数。

[0083] 在步骤S330中，根据待评估视频的视频流畅度损伤值以及待评估视频的画面质量分数，生成针对待评估视频的质量评估结果。

[0084] 其中，待评估视频的画面质量分数是通过各个视频帧的画面质量分数确定出的，可以反映待评估视频的画面质量情况，待评估视频的视频流畅度损伤值是根据卡顿次数和
卡顿时长确定出的，可以反映出卡顿事件对待评估视频的整体质量的影响，视频流畅度损
伤值越大，意味着卡顿事件对待评估视频的整体质量的影响越大，那么待评估视频的整体
质量也越差。

[0085] 本实施例中，在确定出待评估视频的视频流畅度损伤值以及待评估视频的画面质量分数之后，可以根据待评估视频的视频流畅度损伤值以及待评估视频的画面质量分数，
生成针对待评估视频的质量评估结果，在具体实现过程中，生成的质量评估结果
predicted_score可以根据如下公式四计算得到：

[0086] predicted_score＝frame_score‑0.1D_stall 公式四

[0087] 其中，frame_score是待评估视频的画面质量分数，D_stall是待评估视频的视频流畅度损伤值。

[0088] 在本申请的一个实施例中，服务器侧或者终端设备侧可以部署质量评估模块，通过该质量评估模型对待评估视频进行质量评估，为了便于说明，请参阅图4，图4为本申请实
施例中质量评估模型的一个结构示意图，如图4所示，在预测的过程中，待评估视频通过质
量评估模型后输出画面质量分数，输出的画面质量分数可以是待评估视频中各个视频帧的
画面质量分数，也可以是根据预测得到的待评估视频中各个视频帧的画面质量分数，输出
待评估视频的画面质量分数。具体地，用于评估的质量评估模型包括特征提取模块、残差模
块和质量评估模块，在训练的过程中，还需增加相关性模块1、相关性模块2、特征相关系数
计算模块以及内容分类模块，具体地，用于训练的质量评估模型包括特征提取模块、残差模
块、相关性模块1、相关性模块2、特征相关系数计算模块、质量评估模块和内容分类模块。

[0089] 在本实施例中，利用质量评估模型对待评估视频的视频质量进行评估可以具体包括：首先，通过质量评估模型的特征提取模块可以提取待评估视频中各个视频帧的图像特
征向量，在提取得到各个视频帧的图像特征向量之后，将各个视频帧的图像特征向量输入
质量评估模型的残差模块，从而得到各个视频帧的与画面内容相关的内容特征向量，然后，
利用图像特征向量减去内容特征向量，得到各个视频帧的与画面质量相关的质量特征向
量。最后，在得到各个视频帧的质量特征向量之后，可以将各个视频帧的质量特征向量输入
质量评估模型的质量评估模块，得到质量评估模块输出的各个视频帧的画面质量分数。

[0090] 可选地，质量评估模型的特征提取模块可以选取轻量化网络作为特征提取模块的骨干网络，轻量化网络可以是MobileNet V3、ShuffleNet等，本申请实施例在此不进行具体
限定，残差模块可以采用两层全连接层，保持特征维度不变，质量评估模块也可以采用全连
接层。

[0091] 在本申请的一个实施例中，还提供一种质量评估模型的训练方法，具体可以包括：

[0092] 第一步，获取训练样本集，训练样本集中包含有多个批量处理集，多个批量处理集中的各个批量处理集中包含有多个视频样本，各个视频样本包含有质量分数标签和视频内
容标签。

[0093] 具体而言，在对待训练质量评估模型进行训练之前，需要构建用于训练模型的训练样本集。在采用小批量梯度下降的优化算法下，训练样本集不是一次性通过待训练质量
评估模型的，而是按照批次(batch)的形式传入模型进行计算，也训练样本集可以分成多个
批量处理集，利用各个批量处理集对待训练质量评估模型进行一次训练和参数更新。

[0094] 举例说明，假设训练数据集中有200个视频样本，batch size为5，即，则意味着训练数据集将分为40个批量处理集，每个批量处理集中有5个视频样本，每批5个视频样本后，
待训练质量评估模型参数将会更新。

[0095] 还需要说明的是，训练样本集中的各个视频样本包含有标注质量分数和视频内容标签。其中，质量分数标签是各个视频样本的实际质量分数，该质量分数可以是根据人的主
观感知进行标注的，视频内容标签是与各个视频样本的内容相关的。

[0096] 第二步，在获取训练样本集之后，可以通过待训练质量评估模型的特征提取模块、残差模块、相关性模块以及特征相关系数计算模块，确定各个批量处理集对应的第一特征
相关系数，根据第一特征相关系数，确定第一损失函数，并根据第一损失函数，调整相关性
模块的参数。

[0097] 在该步骤中，获取训练样本集后，可以将各个批量处理集传入待训练质量评估模型进行第一阶段的训练。第一阶段的训练主要用于调整待训练质量评估模型中相关性模块
1和相关性模块2的参数。

[0098] 在第一阶段的训练过程中，可以首先通过待训练质量评估模型的特征提取模块、残差模块、相关性模块1和相关性模块2，确定各个批量处理集对应的第一特征相关系数，第
一特征相关系数用以表示各个批量处理集中包含的多个视频样本的与画面内容相关的内
容特征向量以及多个视频样本的与画面质量相关的质量特征向量之间的相关性。

[0099] 如图5所示，通过待训练质量评估模型的特征提取模块、残差模块、相关性模块以及特征相关系数计算模块，确定各个批量处理集对应的第一特征相关系数可以具体包括步
骤S510‑步骤S520，详细说明如下：

[0100] 在步骤S510中，通过特征提取模块提取各个批量处理集中包含的各个视频样本中的多个视频样本帧的图像特征向量，将各个视频样本帧的图像特征向量输入所述残差模
块，得到残差模块输出的各个视频样本帧的与画面内容相关的内容特征向量，根据各个视
频样本帧的图像特征向量以及各个视频样本帧的内容特征向量，确定各个视频样本帧的与
画面质量相关的质量特征向量。

[0101] 在本实施例中，提取的图像特征向量是各个视频样本中的多个视频样本帧的图像特征向量，其中，多个视频样本帧可以是预先定义的，例如，第1帧和第2帧。在通过特征提取
模块提取得到多个视频样本帧的图像特征向量之后，可以将各个视频样本帧的图像特征向
量输入残差模块，从而得到残差模块输出的各个视频样本帧的与画面内容相关的内容特征
向量。

[0102] 在获得各个视频样本帧的图像特征向量以及各个视频样本帧的内容特征向量之后，可以利用图像特征向量减去内容特征向量，得到各个视频样本帧的与画面质量相关的
质量特征向量。

[0103] 在步骤S520中，根据各个视频样本帧的内容特征向量以及各个视频样本帧的质量特征向量，通过相关性模块和特征相关系数计算模块确定各个视频样本帧对应的特征相关
系数，将确定出的各个视频样本帧对应的特征相关系数作为各个批量处理集对应的第一特
征相关系数。

[0104] 其中，通过相关性模块和特征相关系数计算模块确定各个视频样本帧对应的特征相关系数可以具体包括：首先，通过相关性模块1对各个视频样本帧的质量特征向量进行降
维处理，将质量特征向量的维度降至1维，并通过相关性模块2对各个视频样本帧的内容特
征向量进行降维处理，将内容特征向量的维度降至1维，再利用特征相关系数计算模块计算
各个视频样本帧对应的特征相关系数。

[0105] 在具体实施过程中，可以根据如下公式五计算得到各个视频样本帧(第j帧)的特征相关系数ρj：

[0106]

[0107] 其中，m为批量处理集中视频样本的数量，为视频样本i中第j帧的内容特征向量降维后的值，为视频样本i第j帧的质量特征向量降维后的值，μc、μq分别为和的均值，
σc、σq分别为和的标准差，ε为用于维持数值稳定性的极小值常量。

[0108] 对于各个批量处理集中包含的各个视频样本中的多个视频样本帧，在通过相关性模块对特征向量进行降维并通过特征相关系数计算模块计算得到各个视频样本帧对应的
特征相关系数后，则可以将计算得到的各个视频样本帧对应的特征相关系数作为各个批量
处理集对应的第一特征相关系数。

[0109] 例如，批量处理集A中包含有3个视频样本，分别为视频样本1、视频样本2、视频样本3，多个视频样本帧为第1帧视频样本帧和第2帧视频样本帧，则可以根据视频样本1中的
第1帧视频样本帧，视频样本2中的第1帧视频样本帧以及视频样本3中的第1帧视频样本帧，
计算出第1帧视频样本帧对应的特征相关系数，根据视频样本1中的第2帧视频样本帧，视频
样本2中的第2帧视频样本帧以及视频样本3中的第2帧视频样本帧，计算出第2帧视频样本
帧对应的特征相关系数，最后，可以将计算出的第1帧视频样本帧对应的特征相关系数以及
第2帧视频样本帧对应的特征相关系数作为批量处理集A对应的第一特征相关系数。

[0110] 继续回到第二步，在确定各个批量处理集对应的第一特征相关系数之后，可以根据第一特征相关系数，确定第一损失函数，然后，可以根据第一损失函数，调整相关性模块
的参数。

[0111] 在本申请的一个实施例中，由于第一特征相关系数用以表示各个批量处理集中包含的多个视频样本的与画面内容相关的内容特征向量以及多个视频样本的与画面质量相
关的质量特征向量之间的相关性，因而，为了更好地评估视频的质量，避免模型学习到与画
面质量不相关的其他特征，对模型的回归判别过程造成额外的干扰，影响模型的性能，在模
型训练的第一阶段，可以通过最大化特征相关系数最小的视频样本帧的特征相关系数，确
定第一损失函数，即可以设置第一损失函数为Loss1＝‑min|ρj|，其中，min|ρj|为第一特征
相关系数，ρj为第j帧视频样本帧的特征相关系数。

[0112] 第三步，通过特征提取模块、残差模块、参数调整后的相关性模块、特征相关系数计算模块、质量评估模块以及内容分类模块，确定各个批量处理集对应的第二特征相关系
数、质量损失值以及内容损失值，并根据第二特征相关系数、质量损失值和内容损失值，确
定第二损失函数，根据第二损失函数，调整特征提取模块、残差模块、质量评估模块以及内
容分类模块的参数。

[0113] 具体而言，在通过第二步完成第一阶段中对相关性模块的参数的调整之后，则可以进入模型训练的第二阶段，第二阶段的训练主要用于调整特征提取模块、残差模块、质量
评估模块以及内容分类模块的参数。

[0114] 具体实施时，首先可以通过待训练质量评估模型的特征提取模块、残差模块、参数调整后的相关性模块以及特征相关系数计算模块，确定各个批量处理集对应的第二特征相
关系数，第二特征相关系数用以表示各个批量处理集中包含的多个视频样本的与画面内容
相关的内容特征向量以及多个视频样本的与画面质量相关的质量特征向量之间的相关性。
其中，确定第二特征相关系数的方法与第二步中确定第一特征相关系数的方法类似，故在
此不再赘述。

[0115] 同时，可以通过待训练质量评估模型的质量评估模块，确定各个批量处理集对应的质量损失值，通过待训练质量评估模型的内容分类模块，确定各个批量处理集对应的内
容损失值。具体而言，如图6所示，确定各个批量处理集对应的质量损失值和内容损失值可
以具体包括步骤S610‑步骤S630，详细说明如下：

[0116] 步骤S610、通过质量评估模块，确定各个批量处理集中包含的各个视频样本的输出画面质量分数，通过内容分类模块，确定各个批量处理集中包含的各个视频样本的输出
视频内容类别。

[0117] 结合图4进行说明，对于各个批量处理集中包含的各个视频样本，首先可以通过特征提取模块提取各个视频样本中的各个视频样本帧的图像特征向量；然后将各个视频样本
帧的图像特征向量输入残差模块，得到残差模块输出的各个视频样本帧的内容特征向量，
在得到内容特征向量之后，利用图像特征向量减去内容特征向量，得到各个视频样本帧的
质量特征向量；进而可以将质量特征向量输入质量评估模块，将内容特征向量输入内容分
类模块，从而得到质量评估模块输出的各个视频样本帧的画面质量分数以及内容分类模块
输出的各个视频样本帧的内容特征向量；最后根据质量评估模块输出的各个视频样本帧的
画面质量分数，得到各个视频样本的输出画面质量分数，根据内容分类模块输出的各个视
频样本帧的内容特征向量，得到各个视频样本的输出视频内容类别。

[0118] 在一实施方式中，根据质量评估模块输出的各个视频样本帧的画面质量分数，得到各个视频样本的输出画面质量分数可以是输出的所有视频样本帧的质量分数的均值。

[0119] 步骤S620、根据各个视频样本的输出画面质量分数以及各个视频样本的质量分数标签，确定各个批量处理集对应的质量损失值。

[0120] 具体而言，根据各个视频样本的输出画面质量分数以及各个视频样本的质量分数标签，确定各个批量处理集对应的质量损失值可以具体包括：首先，计算各个批量处理集中
包含的各个视频样本的输出画面质量分数以及质量分数标签之间的差值，将计算得到的差
值作为各个批量处理集中包含的各个视频样本对应的质量损失值，然后，可以计算各个视
频样本对应的质量损失值之和与各个批量处理集中包含的视频样本的数量的比值，将计算
出的比值作为各个批量处理集对应的质量损失值。

[0121] 步骤S630、根据各个视频样本的输出视频内容类别以及各个视频样本的视频内容标签，确定各个批量处理集对应的内容损失值。

[0122] 在通过步骤S610得到各个批量处理集中包含的各个视频样本的输出视频内容类别之后，则可以根据各个视频样本的输出视频内容类别以及各个视频样本的视频内容标
签，确定各个视频样本对应的内容损失值，内容损失值用以表示输出视频内容类别与视频
内容标签之间的不一致性。由于批量处理集中包含有各个视频样本，因而根据各个视频样
本对应的内容损失值，可以确定出各个批量处理集对应的内容损失值。

[0123] 继续回到第三步，在确定出各个批量处理集对应的第二特征相关系数、质量损失值以及内容损失值之后，则可以根据第二特征相关系数、质量损失值以及内容损失值，确定
第二损失函数，然后，可以根据第二损失函数，调整特征提取模块、残差模块、质量评估模块
以及内容分类模块的参数。

[0124] 由于第二特征相关系数用以表示各个批量处理集中包含的多个视频样本的与画面内容相关的内容特征向量以及多个视频样本的与画面质量相关的质量特征向量之间的
相关性，而为了更好地评估视频的质量，避免模型学习到与画面质量不相关的其他特征，对
模型的回归判别过程造成额外的干扰，影响模型的性能，因此在模型训练的第二阶段，可通
过最小化特征相关系数最大的视频样本帧的特征相关系数，并结合内容损失值和质量损失
值，确定第二损失函数为Loss2＝lq+0.1lc+0.1×max|ρj|，其中，lq为质量损失值，采用L1损
失，lc为内容损失值，采用交叉熵损失，max|ρj|为第二特征相关系数，ρj为第j帧视频帧的特
征相关系数。

[0125] 第四步，基于参数调整后的特征提取模块、参数调整后的残差模块、参数调整后的质量评估模块以及参数调整后的内容分类模块，重新进行相关性模块的参数的调整，并基
于参数重新调整后的相关性模块，继续进行特征提取模块、残差模块、质量评估模块以及内
容分类模块的参数的调整，直至收敛。

[0126] 在待训练质量评估模型的训练过程中，第一阶段和第二阶段是交替循环的，在第二阶段训练完成之后，可以基于参数调整后的特征提取模块、参数调整后的残差模块、参数
调整后的质量评估模块以及参数调整后的内容分类模块，重新进行相关性模块的参数的调
整，并基于参数重新调整后的相关性模块，继续进行特征提取模块、残差模块、质量评估模
块以及内容分类模块的参数的调整，直至收敛。

[0127] 基于以上实施例的技术方案，借助于深层卷积网络强大的特征学习能力，通过特征提取模块和残差模块获取视频样本中各个视频样本帧的内容特征向量和质量特征向量，
通过减小最大典型相关性来最小化视频样本帧的内容特征向量和质量特征向量的相关性，
将与画面质量相关的特征和与画面质量无关的特征分离开来，使二者在不同的任务中互不
干扰且相关性降至最低，提升了模型的可解释性以及模型对质量回归的预测精度。

[0128] 基于本申请实施例提供的视频质量评估方法，在公开数据集LIVE‑NFLX‑II上进行了试验，为了便于介绍，请参阅表1，表1为采用本申请提供的方法与现有技术提供的方法在
预测准确度上的一个对比示意。衡量图像质量评估结果的指标有很多，每种指标都有自己
的特点，通常比较模型客观值与观测的主观值之间的差异和相关性。常见的2种评估指标是
皮尔逊线性相关系数(Pearson Linear Correlation Coefficient，PLCC)和斯皮尔曼排序
相关系数(Spearman Rank Correlation Coefficient，SRCC)。

[0129] 皮尔逊线性相关系数描述了主、客观评估之间的线性相关性，取值范围为‑1到1，绝对值越大代表算法性能越好，具体定义如公式六所示：

[0130]

[0131] 其中，N表示失真样本数，yi、分别表示第i个样本标签值和算法对应的预测值，分别表示样本标签值的平均值和算法对应的预测值的平均值。

[0132] 斯皮尔曼排序相关系数衡量算法预测的单调性，取值范围为‑1到1，绝对值越大代表算法性能越好，计算公式为如下公式七：

[0133]

[0134] 其中，vi、pi分别表示yi、在标签值和预测值序列中的排序位置。

[0135] 除此之外，还有肯德尔秩相关系数(Kendell Rank Correlation Coefficient,KRCC)。KRCC的性质和SRCC一样，也衡量了算法预测的单调性。

[0136]

[0137] 表1

[0138] 由表1可见，采用本申请提供的方法在试验数据集上的预测值的皮尔逊线性相关系数可以达到0.948，斯皮尔曼排序相关系数可以达到0.808，肯德尔秩相关系数可以达到
0.934，三项指标均大幅优于所有对比方法。表1列出了一些其他常用方法包括8个经典的参
数化模型FTW、Mok2011、Liu2012、Xue2014、Yin2015、Spiteri2016、Bentaleb2016和SQI，2个
基于学习的模型VideoATLAS和P.1203。考虑到对比试验存在一定程度的随机性，模型试验
总共进行了30次，表1中所展示的结果是30次结果的中位数。

[0139] 以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的视频质量评估方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的视频质量评估方法
的实施例。

[0140] 图7示出了根据本申请的一个实施例的视频质量评估装置的框图。

[0141] 参照图7所示，根据本申请的一个实施例的视频质量评估装置700，包括：获取单元702，配置为获取待评估视频，所述待评估视频中包含有多个视频帧；提取单元704，配置为
对所述多个视频帧中的各个视频帧进行特征提取，得到所述各个视频帧的图像特征向量；
第一确定单元706，配置为根据所述图像特征向量，确定所述各个视频帧的与画面内容相关
的内容特征向量，并根据所述图像特征向量以及所述内容特征向量，确定所述各个视频帧
的与画面质量相关的质量特征向量；第二确定单元708，配置为根据所述质量特征向量，确
定所述各个视频帧的画面质量分数，并根据所述各个视频帧的画面质量分数，生成针对所
述待评估视频的质量评估结果。

[0142] 在本申请的一些实施例中，所述第二确定单元708包括：获取子单元，配置为获取所述待评估视频的卡顿次数以及卡顿时长，并根据所述卡顿次数以及所述卡顿时长，确定
所述待评估视频的视频流畅度损伤值；确定子单元，配置为根据所述各个视频帧的画面质
量分数，确定所述待评估视频的画面质量分数；生成子单元，配置为根据所述待评估视频的
视频流畅度损伤值以及所述待评估视频的画面质量分数，生成针对所述待评估视频的质量
评估结果。

[0143] 在本申请的一些实施例中，所述确定子单元配置为：根据所述各个视频帧的质量分数，计算多个质量分数的平均值，将计算得到的平均值作为所述待评估视频的画面质量
分数。

[0144] 在本申请的一些实施例中，所述获取子单元配置为：根据所述卡顿次数，确定所述待评估视频的第一视频流畅度损伤值，并根据所述卡顿时长，确定所述待评估视频的第二
视频流畅度损伤值；根据所述第一视频流畅度损伤值以及所述第二视频流畅度损伤值，确
定所述待评估视频的视频流畅度损伤值。

[0145] 在本申请的一些实施例中，所述图像特征向量是通过质量评估模型的特征提取模块提取得到的，所述内容特征向量是将所述图像特征向量输入所述质量评估模型的残差模
块后得到的；所述第二确定单元配置为：根据所述质量特征向量，确定所述各个视频帧的画
面质量分数，包括：将所述各个视频帧的质量特征向量输入所述质量评估模型的质量评估
模块，得到所述质量评估模块输出的所述各个视频帧的画面质量分数。

[0146] 在本申请的一些实施例中，所述质量评估模型还包括相关性模块、特征相关系数计算模块以及内容分类模块，所述质量评估模型是通过如下方式训练得到的：获取训练样
本集，所述训练样本集中包含有多个批量处理集，所述多个批量处理集中的各个批量处理
集中包含有多个视频样本，各个视频样本包含有质量分数标签和视频内容标签；通过所述
特征提取模块、所述残差模块、所述相关性模块以及所述特征相关系数计算模块，确定所述
各个批量处理集对应的第一特征相关系数，根据所述第一特征相关系数，确定第一损失函
数，并根据所述第一损失函数，调整所述相关性模块的参数；通过所述特征提取模块、所述
残差模块、参数调整后的相关性模块、所述特征相关系数计算模块、所述质量评估模块以及
所述内容分类模块，确定所述各个批量处理集对应的第二特征相关系数、质量损失值以及
内容损失值，并根据所述第二特征相关系数、所述质量损失值以及所述内容损失值，确定第
二损失函数，根据所述第二损失函数，调整所述特征提取模块、所述残差模块、所述质量评
估模块以及所述内容分类模块的参数；基于参数调整后的特征提取模块、参数调整后的残
差模块以及参数调整后的质量评估模块以及参数调整后的内容分类模块，重新进行所述相
关性模块的参数的调整，并基于参数重新调整后的相关性模块，继续进行所述特征提取模
块、所述残差模块以及所述质量评估模块以及所述内容分类模块的参数的调整，直至收敛。

[0147] 在本申请的一些实施例中，通过所述特征提取模块、所述残差模块、所述相关性模块以及所述特征相关系数计算模块，确定所述各个批量处理集对应的第一特征相关系数，
包括：通过所述特征提取模块提取所述各个批量处理集中包含的各个视频样本中的多个视
频样本帧的图像特征向量，将各个视频样本帧的图像特征向量输入所述残差模块，得到所
述残差模块输出的所述各个视频样本帧的与画面内容相关的内容特征向量，根据所述各个
视频样本帧的图像特征向量以及所述各个视频样本帧的内容特征向量，确定所述各个视频
样本帧的与画面质量相关的质量特征向量；根据所述各个视频样本帧的内容特征向量以及
所述各个视频样本帧的质量特征向量，通过所述相关性模块和所述特征相关系数计算模块
确定所述各个视频样本帧对应的特征相关系数，将确定出的所述各个视频样本帧对应的特
征相关系数作为所述各个批量处理集对应的第一特征相关系数。

[0148] 在本申请的一些实施例中，根据所述第一特征相关系数，确定第一损失函数，包括：获取所述多个视频样本帧分别对应的特征相关系数，将多个特征相关系数中的最小特
征相关系数的相反数作为所述第一损失函数。

[0149] 在本申请的一些实施例中，还包括：通过所述质量评估模块，确定所述各个批量处理集中包含的各个视频样本的输出画面质量分数，通过所述内容分类模块，确定所述各个
批量处理集中包含的各个视频样本的输出视频内容类别；根据所述各个视频样本的输出画
面质量分数以及所述各个视频样本的质量分数标签，确定所述各个批量处理集对应的质量
损失值；根据所述各个视频样本的输出视频内容类别以及所述各个视频样本的视频内容标
签，确定所述各个批量处理集对应的内容损失值。

[0150] 图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

[0151] 需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

[0152] 如图8所示，计算机系统800包括中央处理单元(Central Processing Unit，CPU)801，其可以根据存储在只读存储器(Read‑Only Memory，ROM)802中的程序或者从存储部分
808加载到随机访问存储器(Random Access Memory，RAM)803中的程序而执行各种适当的
动作和处理，例如执行上述实施例中所述的方法。在RAM 803中，还存储有系统操作所需的
各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/
Output，I/O)接口805也连接至总线804。

[0153] 以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器
等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN(Local Area Network，局
域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络
执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、
磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程
序根据需要被安装入存储部分808。

[0154] 特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质
上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的
实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介
质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定
的各种功能。

[0155] 需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以
是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上
的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的
电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程
只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑
磁盘只读存储器(Compact Disc Read‑Only Memory，CD‑ROM)、光存储器件、磁存储器件、或
者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序
的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申
请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其
中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限
于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可
读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于
由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的
计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意
合适的组合。

[0156] 附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一
个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注
的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可
以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意
的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的
功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来
实现。

[0157] 描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况
下并不构成对该单元本身的限定。

[0158] 作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设
备执行时，使得该电子设备实现上述实施例中所述的方法。

[0159] 应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多
模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模
块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

[0160] 通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请
实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失
性存储介质(可以是CD‑ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算
设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的
方法。

[0161] 本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用
途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知
常识或惯用技术手段。

[0162] 应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

视频质量评估方法及装置转让专利

申请号 : CN202110138817.5

文献号 : CN112995652B

文献日 : 2021-12-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 余冠东 , 易高雄 , 吴庆波 , 龚桂良

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :