一种视频数据处理方法、系统及相关组件转让专利

申请号 : CN202011026282.4

文献号 : CN112016522B

文献日 : 2022-06-07

本申请公开了一种视频数据处理方法，包括：获取视频数据对应的三维特征数据和三维权重数据；对三维特征数据和三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；将特征值矩阵和权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果。本申请能够充分扩展计算的并行度，采用多重三维脉动阵列构造四维脉动计算架构对三维特征值矩阵和三维权重值矩阵进行并行计算，缩短了三维卷积的计算时间，提高了视频数据处理效率。本申请还公开了一种三维卷积并行计算系统、电子设备及计算机可读存储介质，具有以上有益效果。

1.一种视频数据处理方法，其特征在于，包括：

获取视频数据对应的三维特征数据和三维权重数据；

对所述三维特征数据和所述三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果；

所述将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果的过程具体包括：通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的所述特征值矩阵及所述权重值矩阵执行计算操作，得到第i个计算结果，i=1，2，…，Cin；

根据第Cin个计算结果得到视频数据处理结果；

其中，当i=1时，所述目标中间值为0，当1

所述通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的所述特征值矩阵及所述权重值矩阵执行计算操作，得到第i个计算结果的过程具体包括：将第i个输入通道中的所述特征值矩阵对应的Cout个权重值矩阵分别存储至第i个三维脉动阵列的Cout个计算单元中，Cout为输出通道个数；

将所述第i个输入通道中特征值矩阵对应的各个子特征值矩阵按第一预设时间周期依次输入到所述第i个三维脉动阵列中；

通过每个所述计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果；

通过所有所述子计算结果，得到第i个计算结果；

将所述第i个输入通道中特征值矩阵对应的每个子特征值矩阵输入到所述第i个三维脉动阵列中的过程包括：将所述第i个输入通道中特征值矩阵对应的每个子特征值矩阵的第r行的q个特征值按第二预设时间周期分别输入到所述第i个三维脉动阵列的Cout个计算单元的第r行的q个PE中，所述子特征值矩阵的大小为p×q，p、q均为正整数，r=1，2，…，p‑1；

其中，所述子特征值矩阵中第r+1行的q个特征值输入到第j个计算单元与所述子特征值矩阵中第r行的q个特征值输入到所述第j个计算单元的时间间隔为所述第二预设时间周期，其中，j=1，2，…，Cout。

2.根据权利要求1所述的视频数据处理方法，其特征在于，对所述三维特征数据进行预处理得到特征值矩阵的过程具体包括：对所述三维特征数据按卷积核尺寸进行切割，得到多个特征数据组，按预设映射关系将各个所述特征数据组转换成各自对应的二维矩阵；

根据所有所述二维矩阵得到特征值矩阵。

3.根据权利要求2所述的视频数据处理方法，其特征在于，对所述三维权重数据进行预处理得到权重值矩阵的过程具体包括：将所述三维权重数据按所述预设映射关系进行重排，得到权重值矩阵。

4.根据权利要求1所述的视频数据处理方法，其特征在于，所述通过每个所述计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果的过程包括：通过每个所述计算单元的第r行的q个PE按第一关系式执行计算操作，得到每个PE的计算结果；

所述第一关系式为hrw=trw×qrw+crw，hrw为第r行、第w个PE的计算结果，trw为第r行、第w个PE接收到的特征值，qrw为第r行、第w个PE的权重值，crw为第r行、第w个PE对应的目标中间值，w=1，2，…，q；

根据相同列的所有所述PE的计算结果的和得到该计算单元的子计算结果。

5.根据权利要求4所述的视频数据处理方法，其特征在于，所述根据第Cin个计算结果得到视频数据处理结果的过程具体包括：获取第Cin个三维脉动阵列中每个所述计算单元的输出结果；

根据Cout个所述计算单元的输出结果得到视频数据处理结果。

6.根据权利要求5所述的视频数据处理方法，其特征在于，所述获取第Cin个三维脉动阵列中每个所述计算单元的输出结果的过程具体包括：通过第二关系式获取第Cin个三维脉动阵列中每个所述计算单元的输出结果，所述第二关系式为。

7.一种视频数据处理系统，其特征在于，包括：

获取模块，用于获取视频数据对应的三维特征数据和三维权重数据；

预处理模块，用于对所述三维特征数据和所述三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

计算模块，用于将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果；

根据第Cin个计算结果得到视频数据处理结果；

其中，当i=1时，所述目标中间值为0，当1

将所述第i个输入通道中特征值矩阵对应的各个子特征值矩阵按第一预设时间周期依次输入到所述第i个三维脉动阵列中；

通过每个所述计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果；

通过所有所述子计算结果，得到第i个计算结果；

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1‑6任意一项所述的视频数据处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1‑6任意一项所述的视频数据处理方法的步骤。

一种视频数据处理方法、系统及相关组件

技术领域

[0001] 本申请涉及视频数据处理领域，特别涉及一种视频数据处理方法、系统及相关组件。

背景技术

[0002] 视频特征提取是视频数据处理的一个基本环节，几乎所有视频分析和处理的过程，都需要先对视频特征进行提取。三维CNN(Convolutional Neural Networks，卷积神经
网络)以其能更好的捕获视频中的时间和空间的特征信息，在视频分类、动作识别等领域发
挥着巨大的优势，三维卷积是三维CNN中的主要计算步骤，通过三维卷积可以对视频数据进
行分类或从中提取特征，目前对于三维卷积计算的方法基本都是采用降低维度，将三维数
据转化映射为二维数据甚至是一维数据，进行局部的并行计算，由于计算量巨大，运行速度
非常缓慢，导致视频数据处理效率低。

[0003] 因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

[0004] 本申请的目的是提供一种视频数据处理方法、系统、电子设备及计算机可读存储介质，能够充分扩展计算的并行度，采用多重三维脉动阵列构造四维脉动计算架构对三维
特征值矩阵和三维权重值矩阵进行并行计算，缩短了三维卷积的计算时间，提高了视频数
据处理效率。

[0005] 为解决上述技术问题，本申请提供了一种视频数据处理方法，包括：

[0006] 获取视频数据对应的三维特征数据和三维权重数据；

[0007] 对所述三维特征数据和所述三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

[0008] 将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果。

[0009] 优选的，对所述三维特征数据进行预处理得到特征值矩阵的过程具体包括：

[0010] 对所述三维特征数据按卷积核尺寸进行切割，得到多个特征数据组，按预设映射关系将各个所述特征数据组转换成各自对应的二维矩阵；

[0011] 根据所有所述二维矩阵得到特征值矩阵。

[0012] 优选的，对所述三维权重数据进行预处理得到权重值矩阵的过程具体包括：

[0013] 将所述三维权重数据按所述预设映射关系进行重排，得到权重值矩阵。

[0014] 优选的，所述将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果的过程具体包括：

[0015] 通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的所述特征值矩阵及所述权重值矩阵执行计算操作，得到第i个计算结果，i＝1， 2，…，Cin；

[0016] 根据第Cin个计算结果得到视频数据处理结果；

[0017] 其中，当i＝1时，所述目标中间值为0，当1＜i≤Cin时，所述目标中间值为第i‑1个计算结果。

[0018] 优选的，所述通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的所述特征值矩阵及所述权重值矩阵执行计算操作，得到第i个计算结果的过程具体包括：

[0019] 将第i个输入通道中的所述特征值矩阵对应的Cout个权重值矩阵分别存储至第i个三维脉动阵列的Cout个计算单元中，Cout为输出通道个数；

[0020] 将所述第i个输入通道中特征值矩阵对应的各个子特征值矩阵按第一预设时间周期依次输入到所述第i个三维脉动阵列中；

[0021] 通过每个所述计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果；

[0022] 通过所有所述子计算结果，得到第i个计算结果。

[0023] 优选的，将所述第i个输入通道中特征值矩阵对应的每个子特征值矩阵输入到所述第i个三维脉动阵列中的过程包括：

[0024] 将所述第i个输入通道中特征值矩阵对应的每个子特征值矩阵的第r行的 q个特征值按第二预设时间周期分别输入到所述第i个三维脉动阵列的Cout 个计算单元的第r行
的q个PE中，所述子特征值矩阵的大小为p×q，p、q均为正整数，r＝1，2，…，p‑1；

[0025] 其中，所述子特征值矩阵中第r+1行的q个特征值输入到第j个计算单元与所述子特征值矩阵中第r行的q个特征值输入到所述第j个计算单元的时间间隔为所述第二预设时
间周期，其中，j＝1，2，…，Cout。

[0026] 优选的，所述通过每个所述计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果的过程包括：

[0027] 通过每个所述计算单元的第r行的q个PE按第一关系式执行计算操作，得到每个PE的计算结果；

[0028] 所述第一关系式为hrw＝trw×qrw+crw，hw为第r行、第w个PE的计算结果， tw为第r行、第w个PE接收到的特征值，qw为第r行、第w个PE的权重值， cw为第r行、第w个PE对应的目标中间值，w＝1，2，…，q；

[0029] 根据相同列的所有所述PE的计算结果的和得到该计算单元的子计算结果。

[0030] 优选的，所述根据第Cin个计算结果得到视频数据处理结果的过程具体包括：

[0031] 获取第Cin个三维脉动阵列中每个所述计算单元的输出结果；

[0032] 根据Cout个所述计算单元的输出结果得到视频数据处理结果。

[0033] 优选的，所述获取第Cin个三维脉动阵列中每个所述计算单元的输出结果的过程具体包括：

[0034] 通过第二关系式获取第Cin个三维脉动阵列中每个所述计算单元的输出结果，所述第二关系式为

[0035] 为解决上述技术问题，本申请还提供了一种视频数据处理系统，包括：

[0036] 获取模块，用于获取视频数据对应的三维特征数据和三维权重数据；

[0037] 预处理模块，用于对所述三维特征数据和所述三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

[0038] 计算模块，用于将所述特征值矩阵和所述权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果。

[0039] 为解决上述技术问题，本申请还提供了一种电子设备，包括：

[0040] 存储器，用于存储计算机程序；

[0041] 处理器，用于执行所述计算机程序时实现如上文任意一项所述的视频数据处理方法的步骤。

[0042] 为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所
述的视频数据处理方法的步骤。

[0043] 本申请提供了一种视频数据处理方法，对视频数据的三维特征值和三维权重值采取先降维再升维的预处理，在可行的条件下，充分扩展计算的并行度，采用多重三维脉动阵
列构造四维脉动计算架构对特征值矩阵和权重值矩阵进行并行计算，缩短了三维卷积的计
算时间，提高了视频数据处理效率。本申请还提供了一种三维卷积并行计算系统、电子设备
及计算机可读存储介质，具有和上述三维卷积并行计算方法相同的有益效果。

附图说明

[0044] 为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人
员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0045] 图1为本申请所提供的一种视频数据处理方法的步骤流程图；

[0046] 图2为本申请所提供的一种映射关系示意图；

[0047] 图3为本申请所提供的一种三维特征值重排示意图；

[0048] 图4为本申请所提供的一种三维权重值重排示意图；

[0049] 图5为本申请所提供的一种四维脉动阵列架构示意图；

[0050] 图6为本申请所提供的一种三维脉动阵列计算模块的数据传输示意图；

[0051] 图7为本申请所提供的一种视频数据处理系统的结构示意图。

具体实施方式

[0052] 本申请的核心是提供一种视频数据处理方法、系统、电子设备及计算机可读存储介质，能够充分扩展计算的并行度，采用多重三维脉动阵列构造四维脉动计算架构对三维
特征值矩阵和三维权重值矩阵进行并行计算，缩短了三维卷积的计算时间，提高了视频数
据处理效率。

[0053] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员
在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0054] 为便于理解本申请所提供的一种基于三维卷积的视频数据处理方法，下面对卷积层的结构参数进行介绍，卷积层的结构参数主要有以下几种：

[0055] 卷积核尺寸(KerCinel Size)：定义了卷积操作的感受野，在三维卷积中，通常设置为3，即卷积核大小为3×3×3。

[0056] 步幅(Stride)：定义了卷积核遍历图像时的步幅大小，其默认值通常设置为1，也可将步幅设置为2后对图像进行下采样，这种方式与最大池化类似。

[0057] 边界扩充(Padding)：定义了网络层处理样本边界的方式，当卷积核大于1且不进行边界扩充，输出尺寸将相应缩小，当卷积核以标准方式进行边界扩充，则输出数据的空间
尺寸将与输入相等。

[0058] 假设输入数据的大小为a1×a2×a3，输入通道个数为Cin，卷积核大小为f，即一个卷积核中包含了f×f×f个权重值，输出通道个数为Cout，因此权重值的总数目为f×f×f
×Cin×Cout。

[0059] 基于上述情况，三维卷积最终的输出尺寸为该公式对
于一维卷积、二维卷积仍然有效，只要调整输入数据的维度。

[0060] 下面对本申请所提供的一种视频数据处理方法进行详细说明。

[0061] 请参照图1，图1为本申请所提供的一种视频数据处理方法的步骤流程图，该视频数据处理方法包括：

[0062] S101：获取视频数据对应的三维特征数据和三维权重数据；

[0063] 首先需要说明的是，三维卷积的输入数据是由Cin个三维特征值矩阵和若干个(Cin×Cout个)三维权重值矩阵组成的，其中，单个三维特征值矩阵尺寸为a1×a2×a3，单
个三维权重值矩阵尺寸为f×f×f，因此，本实施例所提出的一种基于三维卷积的视频数据
处理方法需要预先获取三维卷积的输入数据，即视频数据对应的三维特征数据和三维权重
数据，以便后续对视频数据进行卷积运算。本实施例中的视频数据可以为安防监控录像对
应的视频数据、也可以为自动驾驶过程中对应采集的视频数据、还可以为流媒体在线视频
对应的视频数据，本申请对于视频数据的应用领域不作具体的限定。

[0064] 本步骤中，可以按预设获取周期获取视频数据对应的三维特征数据和三维权重数据，也可以在接收到获取指令后获取视频数据对应的三维特征数据和三维权重数据，本实
施例在此对获取视频数据对应的三维特征数据和三维权重数据的触发条件不作限定。

[0065] S102：对三维特征数据和三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

[0066] 具体的，在获取到三维特征数据和三维权重数据后，先对二者进行降维预处理，使其符合三维脉动阵列的规模以及时序上的要求。作为一种优选的实施例，对三维特征数据
进行预处理得到特征值矩阵的过程具体包括：对三维特征数据按卷积核尺寸进行切割，得
到多个特征数据组，然后按预设映射关系将各个特征数据组转换成各自对应的二维矩阵，
根据所有二维矩阵得到特征值矩阵；作为一种优选的实施例，对三维权重数据进行预处理
得到权重值矩阵的过程具体包括：将三维权重数据按预设映射关系进行重排，得到权重值
矩阵。

[0067] 具体的，对三维特征数据按卷积核尺寸分割，将尺寸为f×f×f的三维特征值数据矩阵按如图2所示的特定映射关系转换为二维矩阵，然后按a1、a2、 a3的遍历顺序组合成新
的特征值矩阵，如图3所示。其中，图2是以f＝3为例的根据数据循环的方式确定的映射关
系，便于在硬件电路中实现。对于三维卷积计算所需的三维权重值的预处理参照图4所示，
将同一个输入通道对应的Cout个卷积核分别按图2所示的对应关系展开，整合成一个新的
权重值矩阵。

[0068] 具体的，以f＝3为例，首先从第一个输入通道的三维特征数据中选取第一组3×3×3个特征数据作为第一特征数据组，并将其按照图2所示的映射关系进行重新排序，得到
第一特征数据组对应的二维矩阵，这里设为t1‑1‑1、t1‑1‑2、…、t1‑1‑9、t1‑2‑1、t1‑2‑
2、…、t1‑2‑9、t1‑3‑1、t1‑3‑2、…、t1‑3‑9 共27个特征数据，其中，t1‑1‑1、t1‑1‑2、…、t1‑
1‑9代表第一行中的九个数值，t1‑2‑1、t1‑2‑2、…、t1‑2‑9代表第二行中的九个数值，t1‑3‑
1、t1‑3‑2、…、 t1‑3‑9代表第三行中的九个数值，同理，可从第一个输入通道的三维特征数据中选取第二组3×3×3个特征数据作为第二特征数据组，并将其按照图2所示的映射关系
进行重新排序，得到第二特征数据组对应的二维矩阵，以此类推。第一个输入通道所对应的
三维权重数据也要按照图2所示的映射关系进行重新排序得到多个权重值矩阵，特征值矩
阵和权重值矩阵采用相同的数据结构，以便后续进行并行计算，提高并行运算效率。

[0069] S103：将特征值矩阵和权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果。

[0070] 具体的，当对视频数据的三维特征数据和三维权重数据都进行了如S102 所描述的预处理之后，输入到采用多重三维脉动阵列构造四维脉动计算架构对特征值矩阵和权重
值矩阵进行并行计算，从而得到三维卷积计算结果，将三维卷积计算结果作为视频数据处
理结果，这里的视频数据处理结果可以是分类结果、特征提取结果等。通过扩展三维卷积计
算的并行度，提高了运算效率，尤其是针对视频处理方面对于实时性要求较高的特点，可以
支持各种对实时三维图像的人工智能处理。

[0071] 可见，本实施例中，对视频数据的三维特征值和三维权重值采取先降维再升维的预处理，在可行的条件下，充分扩展计算的并行度，采用多重三维脉动阵列构造四维脉动计
算架构对特征值矩阵和权重值矩阵进行并行计算，缩短了三维卷积的计算时间，提高了视
频数据处理效率。

[0072] 在上述实施例的基础上：

[0073] 作为一种优选的实施例，将特征值矩阵和权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果的过程具体包括：

[0074] 通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的特征值矩阵及权重值矩阵执行计算操作，得到第i个计算结果，i＝1，2，…，Cin；

[0075] 根据第Cin个计算结果得到视频数据处理结果；

[0076] 其中，当i＝1时，目标中间值为0，当1＜i≤Cin时，目标中间值为第i‑1个计算结果。

[0077] 可以理解的是，一个输入通道对应一个三维脉动阵列，本实施例中，参照图5所示，存在多个三维脉动阵列，其中，每个三维脉动阵列均用于实现其对应的输入通道中的三维
数据的卷积计算，由多个三维脉动阵列可以构造四维并行运算架构。在进行卷积计算时，需
要用到中间值、权重值和特征值，采用本实施例的方案可以将特征值和中间值按照特定的
方向进行脉动传播，参照图6所示，实线代表特征值的传输方向，虚线代表中间值的传输方
向，形成立体网状的流水线操作。

[0078] 可以理解的是，第一个三维脉动阵列对应的目标中间值为0，第二个三维脉动阵列对应的目标中间值为第一个三维脉动阵列的计算结果，第三个三维脉动阵列对应的目标中
间值为第二个三维脉动阵列的计算结果，以此类推，得到最后一个三维脉动阵列(即第Cin
个三维脉动阵列)的计算结果后，根据该计算结果得到视频数据处理结果。

[0079] 作为一种优选的实施例，通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的特征值矩阵及权重值矩阵执行计算操作，得到第i个计算结果的过程具体包
括：

[0080] 将第i个输入通道中的特征值矩阵对应的Cout个权重值矩阵分别存储至第i个三维脉动阵列的Cout个计算单元中，Cout为输出通道个数；

[0081] 将第i个输入通道中特征值矩阵对应的各个子特征值矩阵按第一预设时间周期依次输入到第i个三维脉动阵列中；

[0082] 通过每个计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果；

[0083] 通过所有子计算结果，得到第i个计算结果。

[0084] 具体的，假设f＝3，以第一个输入通道对应的特征值矩阵和权重值矩阵为例对三维脉动阵列执行的计算操作进行说明，其余输入通道，同理。将第一个输入通道所对应的第
一个三维权重数据矩阵按照图2所示的排列关系进行重新排序，预存至图4所示的三维脉动
阵列的左斜条纹区域(第一计算单元)中，这里设为q1‑1‑1、q1‑1‑2、…、q1‑1‑9、q1‑2‑1、q1‑
2‑2、…、q1‑2‑9、 q1‑3‑1、q1‑3‑2、…、q1‑3‑9共27个权重数据。第一个输入通道所对应的第二个三维权重数据矩阵按照图2所示的排列关系进行重新排序，并预存至图4 所示的三维
脉动阵列的右斜条纹区域(第二计算单元)中，该第一个输入通道所对应的第Cout个三维权
重数据矩阵按照图2所示的排列关系进行重新排序，并预存至图4所示的三维脉动阵列的横
条条纹区域(第Cout计算单元) 中。对其余输入通道的三维数据的处理，同理。可以理解的
是，所有的三维权重数据经预处理后预存到三维脉动阵列中，在并行计算过程中，不发生变
化。

[0085] 具体的，根据每个输入通道中的特征值矩阵可以得到多个子特征值矩阵，每个子特征值矩阵大小为p×q，将各个子特征值矩阵按第一预设时间周期输入到三维脉动阵列
中，如该输入通道中的特征值矩阵包括3个子特征值矩阵，则在第一个第一预设时间周期将
第一个子特征值矩阵输入到三维脉动阵列中，在第二个第一预设时间周期将第二个子特征
值矩阵输入到三维脉动阵列中，在第三个第一预设时间周期将第三个子特征值矩阵输入到
三维脉动阵列中。

[0086] 进一步的，不同输入通道中的特征值矩阵可以间隔预设时间段输入到各自对应的三维脉动阵列中，对每个输入通道中的特征值矩阵的处理方案，参照上文所述。

[0087] 每个计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果，该三维脉动阵列中的所有计算单元的子计算
结果构成该三维脉动阵列的计算结果。

[0088] 作为一种优选的实施例，将第i个输入通道中特征值矩阵对应的每个子特征值矩阵输入到第i个三维脉动阵列中的过程包括：

[0089] 将第i个输入通道中特征值矩阵对应的每个子特征值矩阵的第r行的q个特征值按第二预设时间周期分别输入到第i个三维脉动阵列的Cout个计算单元的第r行的q个PE中，
子特征值矩阵的大小为p×q，p、q均为正整数，r＝1， 2，…，p‑1；

[0090] 其中，子特征值矩阵中第r+1行的q个特征值输入到第j个计算单元与子特征值矩阵中第r行的q个特征值输入到第j个计算单元的时间间隔为第二预设时间周期，其中，j＝
1，2，…，Cout。

[0091] 具体的，本实施例对各个子特征值矩阵输入到三维脉动阵列的过程进行限定，假设f＝3，可以理解的是，在经过上述S102的预处理后，三维脉动阵列中的每一计算单元均包
括3×9个PE(Processing Elements，处理单元)，每个PE会以预定的步骤和它相邻的PE进行
数据传输。下面以其中一个子特征值矩阵的输入过程进行说明，子特征值矩阵的大小为p×
q，本实施例中，p＝3， q＝9，参照图4所示，在第一个第二预设周期，将子特征矩阵第一行的
9个特征数据一一对应输入到第一计算单元的第一行的9个PE中，在第二个第二预设周期，
将子特征矩阵第一行的9个特征数据一一对应输入到第二计算单元的第一行的9个PE中，在
第三个第二预设周期，将子特征矩阵第一行的9个特征数据一一对应输入到第三计算单元
的第一行的9个PE中，以此类推。进一步的，为提高计算并行度，在第二个第二预设周期，在将子特征矩阵第一行的9个特征数据一一对应输入到第二计算单元的第一行的9个PE中的
同时，将子特征矩阵第二行的9个特征数据一一对应输入到第一计算单元的第二行的9个PE
中。

[0092] 作为一种优选的实施例通过每个计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果的过程包括：

[0093] 通过每个计算单元的第r行的q个PE按第一关系式执行计算操作，得到每个PE的计算结果；

[0094] 第一关系式为hrw＝trw×qrw+crw，hw为第r行、第w个PE的计算结果，tw为第r行、第w个PE接收到的特征值，qw为第r行、第w个PE的权重值，cw为第r行、第w个PE对应的目标中间值，w＝1，2，…，q；

[0095] 根据相同列的所有PE的计算结果的和得到该计算单元的子计算结果。作为一种优选的实施例，根据第Cin个计算结果得到视频数据处理结果的过程具体包括：

[0096] 获取第Cin个三维脉动阵列中每个计算单元的输出结果；

[0097] 根据Cout个计算单元的输出结果得到视频数据处理结果。

[0098] 作为一种优选的实施例，获取第Cin个三维脉动阵列中每个计算单元的输出结果的过程具体包括：

[0099] 通过第二关系式获取第Cin个三维脉动阵列中每个计算单元的输出结果，第二关系式为

[0100] 具体的，下面对三维脉动阵列的具体计算过程进行解释说明：

[0101] 首先从第一个输入通道的特征值矩阵中选取第一子特征值矩阵，包括 t1‑1‑1、t1‑1‑2、…、t1‑1‑9、t1‑2‑1、t1‑2‑2、…、t1‑2‑9、t1‑3‑1、t1‑3‑2、…、 t1‑3‑9共27个特征数据，从第一个输入通道的特征值矩阵中选取第二子特征值矩阵，包括t2‑1‑1、t2‑1‑2、…、t2‑1‑9、t2‑2‑1、t2‑2‑2、…、t2‑2‑9、t2‑3‑1、 t2‑3‑2、…、t2‑3‑9共27个特征数据，从第一个输入通道的特征值矩阵中选取第三子特征值矩阵，包括t3‑1‑1、t3‑1‑2、…、t3‑1‑9、t3‑
2‑1、t3‑2‑2、…、t3‑2‑9、 t3‑3‑1、t3‑3‑2、…、t3‑3‑9共27个特征数据，从第一个输入通道的特征值矩阵中选取第四子特征值矩阵，包括t4‑1‑1、t4‑1‑2、…、t4‑1‑9、t4‑2‑1、t4‑2‑
2、…、 t4‑2‑9、t4‑3‑1、t4‑3‑2、…、t4‑3‑9共27个特征数据，以此类推，在第二个输入通道的特征值矩阵中选取第一子特征值矩阵，包括t’1‑1‑1、t’1‑1‑2、…、 t’1‑1‑9、t’1‑2‑1、t’
1‑2‑2、…、t’1‑2‑9、t’1‑3‑1、t’1‑3‑2、…、t’1‑3‑9共27个特征数据。

[0102] 在第一个预设时间周期内，特征数据t1‑1‑1、t1‑1‑2、…、t1‑1‑9送到图4 所示左斜条纹区域的最上一行的9个PE中，分别与权重值q1‑1‑1、q1‑1‑2、…、 q1‑1‑9对应相乘，即t1‑1‑1和q1‑1‑1相乘，t1‑1‑2和q1‑1‑2相乘，以此类推，分别得到的中间值设为m1‑1‑1、m1‑1‑2、…、m1‑1‑9，分别作为下一行各个 PE的目标中间值。

[0103] 在第二个预设时间周期内，特征数据t1‑2‑1、t1‑2‑2、…、t1‑2‑9送到图4 所示左斜条纹的中间一行的9个PE中，与权重值q1‑2‑1、q1‑2‑2、…、q1‑2‑9 对应相乘，并与输入的中间值m1‑1‑1、m1‑1‑2、…、m1‑1‑9相加，即t1‑2‑1 和q1‑2‑1相乘并加上m1‑1‑1，t1‑2‑2和q1‑2‑2相乘并加上m1‑1‑2，以此类推，得到的中间值设为m1‑2‑1、m1‑2‑2、…、m1‑2‑9。同时，特征数据的t2‑1‑1、 t2‑1‑2、…、t2‑1‑9送到图4所示左斜条纹的最上一行的9个PE中，与q1‑1‑1、 q1‑1‑2、…、q1‑1‑9对应相乘，即t2‑1‑1和q1‑1‑1相乘，t2‑1‑2和q1‑1‑2相乘，以此类推，得到的中间值设为m2‑1‑1、m2‑1‑2、…、m2‑1‑9。同时，特征数据t1‑1‑1、t1‑1‑2、…、t1‑1‑9送到图4所示右斜条纹的最上一行的9个PE中，与q2‑1‑1、q2‑1‑2、…、q2‑1‑9对应相乘，即t1‑1‑1和q2‑1‑1相乘，t1‑1‑2和 q2‑1‑2相乘，以此类推，得到的中间值设为n1‑1‑1、n1‑1‑2、…、n1‑1‑9。

[0104] 在第三个预设时间周期内，特征数据t1‑3‑1、t1‑3‑2、…、t1‑3‑9送到图4 所示左斜条纹的最下一行的9个PE中，与q1‑3‑1、q1‑3‑2、…、q1‑3‑9对应相乘，并与输入的中间值m1‑2‑1、m1‑2‑2、…、m1‑2‑9相加，即t1‑3‑1和q1‑3‑1 相乘并加上m1‑2‑1，t1‑3‑2和q1‑3‑2相乘并加上m1‑2‑2，以此类推，得到的中间值设为m1‑3‑1、m1‑3‑2、…、m1‑3‑9。同时，特征数据t2‑2‑1、t2‑2‑2、…、 t2‑2‑9送到图4所示左斜条纹的中间一行的9个PE中，与q1‑2‑1、q1‑2‑2、…、 q1‑2‑9对应相乘，并与输入的中间值m2‑1‑1、m2‑1‑2、…、m2‑1‑9相加，即 t2‑2‑1和q1‑2‑1相乘并加上m2‑1‑1，t2‑2‑2和q1‑2‑2相乘并加上m2‑1‑2，以此类推，得到的中间值设为m2‑2‑1、m2‑2‑2、…、m2‑2‑9。同时，特征数据 t3‑1‑1、t3‑1‑2、…、t3‑1‑9送到图4所示左斜条纹的最上一行的9个PE中，与q1‑1‑1、q1‑1‑2、…、q1‑1‑9对应相乘，即t3‑1‑1和q1‑1‑
1相乘，t3‑1‑2和 q1‑1‑2相乘，以此类推，得到的中间值设为m3‑1‑1、m3‑1‑2、…、m3‑1‑9。同时，特征数据t1‑2‑1、t1‑2‑2、…、t1‑2‑9送到图4所示右斜条纹的中间一行的9个PE中，与q2‑2‑1、q2‑2‑2、…、q2‑2‑9对应相乘，并与输入的中间值 n1‑1‑1、n1‑1‑2、…、n1‑1‑9相加，即t1‑2‑1和q2‑2‑1相乘并加上n1‑1‑1，t1‑2‑2 和q2‑2‑2相乘并加上n1‑1‑2，以此类推，得到的中间值设为n1‑2‑1、n1‑2‑2、…、n1‑2‑9。同时，特征数据t2‑1‑1、t2‑1‑2、…、t2‑1‑9送到图4所示右斜条纹的最上一行的9个PE中，与q2‑1‑1、q2‑1‑2、…、q2‑1‑9对应相乘，即t2‑
1‑1 和q2‑1‑1相乘，t2‑1‑2和q2‑1‑2相乘，以此类推，得到的中间值设为n2‑1‑1、 n2‑1‑
2、…、n2‑1‑9。同时，特征数据t1‑1‑1、t1‑1‑2、…、t1‑1‑9送到图4所示右斜条纹后面一组(图4中为了显示效果，没有画出)的最上一行的9个 PE中，与q3‑1‑1、q3‑1‑2、…、q3‑1‑9对应相乘，即t1‑1‑1和q3‑1‑1相乘，t1‑1‑2 和q3‑1‑2相乘，以此类推，得到的中间值设为o1‑
1‑1、o1‑1‑2、…、o1‑1‑9。

[0105] 在第四个预设时间周期内，特征数据t1‑1‑1、t1‑1‑2、…、t1‑1‑9送到图4 所示右斜条纹后面第二组(图4中为了显示效果，没有画出)的最上一行的9 个PE中，与q4‑1‑1、q4‑1‑2、…、q4‑1‑9对应相乘，即t1‑1‑1和q4‑1‑1相乘， t1‑1‑2和q4‑1‑2相乘，以此类推，得到的中间值设为k1‑1‑1、k1‑1‑2、…、k1‑1‑9。同时，特征数据t1‑2‑1、t1‑2‑2、…、t1‑2‑9送到图4所示右斜条纹后面一组的中间一行的9个PE中，与q3‑2‑1、q3‑2‑2、…、q3‑2‑9对应相乘，并与输入的中间值o1‑1‑1、o1‑1‑2、…、o1‑1‑9相加，即t1‑2‑1和q3‑2‑1相乘并加上o1‑1‑1， t1‑2‑2和q3‑2‑2相乘并加上o1‑1‑2，以此类推，得到的中间值设为o1‑2‑1、 o1‑2‑2、…、o1‑
2‑9。同时，特征数据t1‑3‑1、t1‑3‑2、…、t1‑3‑9送到图4所示右斜条纹的最下一行的9个PE中，与q2‑3‑1、q2‑3‑2、…、q2‑3‑9对应相乘，并与输入的中间值n1‑2‑1、n1‑2‑2、…、n1‑2‑9相加，即t1‑3‑1和q1‑3‑1 相乘并加上m1‑2‑1，t1‑3‑2和q1‑3‑2相乘并加上m1‑2‑2，以此类推，得到的中间值设为m1‑3‑1、m1‑3‑2、…、m1‑3‑9。同时，特征数据t2‑1‑1、t2‑1‑2、…、 t2‑
1‑9送到图4所示右斜条纹后面一组(图4中为了显示效果，没有画出)的最上一行的9个PE
中，与q3‑1‑1、q3‑1‑2、…、q3‑1‑9对应相乘，即t2‑1‑1 和q3‑1‑1相乘，t2‑1‑2和q3‑1‑2相乘，以此类推，得到的中间值设为o2‑1‑1、 o2‑1‑2、…、o2‑1‑9。同时，特征数据t2‑2‑1、t2‑
2‑2、…、t2‑2‑9送到图4所示右斜条纹的中间一行的9个PE中，与q2‑2‑1、q2‑2‑2、…、q2‑2‑9对应相乘，并与输入的中间值n2‑1‑1、n2‑1‑2、…、n2‑1‑9相加，即t2‑2‑1和q2‑2‑1 相乘并加上n2‑1‑1，t2‑2‑2和q2‑2‑2相乘并加上n2‑1‑2，以此类推，得到的中间值设为n2‑2‑1、n2‑
2‑2、…、n2‑2‑9。同时，特征数据t2‑3‑1、t2‑3‑2、…、 t2‑3‑9送到图4所示左斜条纹的最下一行的9个PE中，与q1‑3‑1、q1‑3‑2、…、 q1‑3‑9对应相乘，并与输入的中间值m2‑2‑1、m2‑2‑
2、…、m2‑2‑9相加，即 t2‑3‑1和q1‑3‑1相乘并加上m2‑2‑1，t2‑3‑2和q1‑3‑2相乘并加上m2‑
2‑2，以此类推，得到的中间值设为m2‑3‑1、m2‑3‑2、…、m2‑3‑9。同时，特征数据 t3‑1‑1、t3‑
1‑2、…、t3‑1‑9送到图4所示右斜条纹的最上一行的9个PE中，与q2‑1‑1、q2‑1‑2、…、q2‑1‑9对应相乘，即t3‑1‑1和q2‑1‑1相乘，t3‑1‑2和 q2‑1‑2相乘，以此类推，得到的中间值设为n3‑1‑1、n3‑1‑2、…、n3‑1‑9。同时，特征数据t3‑2‑1、t3‑2‑2、…、t3‑2‑9送到图4所示左斜条纹的中间一行的 9个PE中，与q1‑2‑1、q1‑2‑2、…、q1‑2‑9对应相乘，并与输入的中间值m3‑
1‑1、 m3‑1‑2、…、m3‑1‑9相加，即t3‑2‑1和q1‑2‑1相乘并加上m3‑1‑1，t3‑2‑2和 q1‑2‑2相乘并加上m3‑1‑2，以此类推，得到的中间值设为m3‑2‑1、m3‑2‑2、…、 m3‑2‑9。同时，特征数据t4‑1‑1、t4‑1‑2、…、t4‑1‑9送到图4所示左斜条纹的最上一行的9个PE中，与q1‑1‑1、q1‑
1‑2、…、q1‑1‑9对应相乘，即t4‑1‑1 和q1‑1‑1相乘，t4‑1‑2和q1‑1‑2相乘，以此类推，得到的中间值设为m4‑1‑1、m4‑1‑2、…、m4‑1‑9。同时，第二个输入通道的特征数据t’1‑1‑1、t’1‑
1‑2、…、t’1‑1‑9送到图5所示输入通道2特征值所对的左斜条纹的最上一行的9个PE 中，与q’1‑1‑1、q’1‑1‑2、…、q’1‑1‑9对应相乘，并与输入的中间值m1‑3‑1、 m1‑3‑2、…、m1‑3‑9相加即t’1‑1‑1和q’1‑1‑1相乘并加上m1‑3‑1，t’1‑1‑2和 q1‑1‑2相乘并加上m1‑3‑2，以此类推，得到的中间值设为m’1‑1‑1、m’1‑1‑2、…、 m’1‑1‑9，后面的计算步骤基本就是上面的叠加和重复。

[0106] 由于是随着时间周期逐步分批启动各级运算单元，特征数据将在这些预算单元内水平传送，如图6中的实线所示。各级乘累加的中间值在多组三维运算阵列之中进行传递，
如图6中的纵向虚线所示。当Cin组的三维脉动阵列结果都纵向累加到了一起，就还需要额
外将这个排列中的9列的结果再进行累加成一个数值，也就是由3×9×Cin乘积相加得来，
得到的结果是一个输出通道中的一个数值，然后重复上述的过程，直到完成全部的计算。

[0107] 这里再做进一步的扩展，由于深度学习网络中往往输入通道和输出通道数目比较大，达到1000以上的规模，因此完全串行计算很慢。这里就重复上面的三维计算阵列，实现
多路并行计算。但多个三维计算阵列中的权重值是互不相同的，而且这些不同的三维计算
阵列得到的结果需要再次累加才是最终的结果。

[0108] 请参照图7，图7为本申请所提供的一种视频数据处理系统的结构示意图，该视频数据处理系统包括：

[0109] 获取模块11，用于获取视频数据对应的三维特征数据和三维权重数据；

[0110] 预处理模块12，用于对三维特征数据和三维权重数据分别进行预处理，得到特征值矩阵及权重值矩阵；

[0111] 计算模块13，用于将特征值矩阵和权重值矩阵输入多个三维脉动阵列并行计算，得到视频数据处理结果。

[0112] 可见，本实施例中，对视频数据的三维特征值和三维权重值采取先降维再升维的预处理，在可行的条件下，充分扩展计算的并行度，采用多重三维脉动阵列构造四维脉动计
算架构对特征值矩阵和权重值矩阵进行并行计算，缩短了三维卷积的计算时间，提高了视
频数据处理效率。

[0113] 作为一种优选的实施例，预处理模块12包括：

[0114] 第一预处理单元，用于对所述三维特征数据按卷积核尺寸进行切割，得到多个子特征值矩阵，按预设映射关系将各个所述子特征值矩阵转换成各自对应的子特征值矩阵，
根据所有所述子特征值矩阵得到特征值矩阵。

[0115] 作为一种优选的实施例，预处理模块12还包括：

[0116] 第二预处理单元，用于将三维权重数据按预设映射关系进行重排，得到权重值矩阵。

[0117] 作为一种优选的实施例，计算模块13 具体用于：

[0118] 通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的特征值矩阵及权重值矩阵执行计算操作，得到第i个计算结果，i＝1，2，…，Cin；

[0119] 根据第Cin个计算结果得到视频数据处理结果；

[0120] 其中，当i＝1时，目标中间值为0，当1＜i≤Cin时，目标中间值为第i‑1个计算结果。

[0121] 作为一种优选的实施例，通过第i个三维脉动阵列根据对应的目标中间值对第i个输入通道中的特征值矩阵及权重值矩阵执行计算操作，得到第i个计算结果的过程具体包
括：

[0122] 将第i个输入通道中的特征值矩阵对应的Cout个权重值矩阵分别存储至第i个三维脉动阵列的Cout个计算单元中，Cout为输出通道个数；

[0123] 将第i个输入通道中特征值矩阵对应的各个子特征值矩阵按第一预设时间周期依次输入到第i个三维脉动阵列中；

[0124] 通过每个计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果；

[0125] 通过所有子计算结果，得到第i个计算结果。

[0126] 作为一种优选的实施例，将第i个输入通道中特征值矩阵对应的每个子特征值矩阵输入到第i个三维脉动阵列中的过程包括：

[0127] 将第i个输入通道中特征值矩阵对应的每个子特征值矩阵的第r行的q个特征值按第二预设时间周期分别输入到第i个三维脉动阵列的Cout个计算单元的第r行的q个PE中，
子特征值矩阵的大小为p×q，p、q均为正整数，r＝1， 2，…，p‑1；

[0128] 其中，子特征值矩阵中第r+1行的q个特征值输入到第j个计算单元与子特征值矩阵中第r行的q个特征值输入到第j个计算单元的时间间隔为第二预设时间周期，其中，j＝
1，2，…，Cout。

[0129] 作为一种优选的实施例通过每个计算单元根据目标中间值、接收到的特征值矩阵及存储的权重值矩阵执行计算操作，得到该计算单元对应的子计算结果的过程包括：

[0130] 通过每个计算单元的第r行的q个PE按第一关系式执行计算操作，得到每个PE的计算结果；

[0131] 第一关系式为hrw＝trw×qrw+crw，hw为第r行、第w个PE的计算结果，tw为第r行、第w个PE接收到的特征值，qw为第r行、第w个PE的权重值，cw为第r行、第w个PE对应的目标中间值，w＝1，2，…，q；

[0132] 根据相同列的所有PE的计算结果的和得到该计算单元的子计算结果。

[0133] 作为一种优选的实施例，根据第Cin个计算结果得到视频数据处理结果的过程具体包括：

[0134] 获取第Cin个三维脉动阵列中每个计算单元的输出结果；

[0135] 根据Cout个计算单元的输出结果得到视频数据处理结果。

[0136] 作为一种优选的实施例，获取第Cin个三维脉动阵列中每个计算单元的输出结果的过程具体包括：

[0137] 通过第二关系式获取第Cin个三维脉动阵列中每个计算单元的输出结果，第二关系式为

[0138] 另一方面，本申请还提供了一种电子设备，包括：

[0139] 存储器，用于存储计算机程序；

[0140] 处理器，用于执行所述计算机程序时实现如上文任意一个实施例所描述的视频数据处理方法的步骤。

[0141] 在本申请实施例中，该处理器，可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路，数字信号处理器，现成可编程门阵列或者其他可编程逻辑器件
等。

[0142] 对于本申请所提供的一种电子设备的介绍请参照上述实施例，本申请在此不再赘述。

[0143] 本申请所提供的一种电子设备具有和上述视频数据处理方法相同的有益效果。

[0144] 另一方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上文任意一个实施例所描述的视频数
据处理方法的步骤。

[0145] 对于本申请所提供的一种计算机可读存储介质的介绍请参照上述实施例，本申请在此不再赘述。

[0146] 本申请所提供的一种计算机可读存储介质具有和上述视频数据处理方法相同的有益效果。

[0147] 还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的状况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0148] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的
一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请
将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。

一种视频数据处理方法、系统及相关组件转让专利

申请号 : CN202011026282.4

文献号 : CN112016522B

文献日 : 2022-06-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 董刚 , 赵雅倩 , 李仁刚 , 杨宏斌 , 刘海威 , 蒋东东

申请人 : 苏州浪潮智能科技有限公司

摘要 :

权利要求 :

说明书 :