一种基于跨模态注意力增强的唇语识别方法及系统转让专利

申请号 : CN202110986219.3

文献号 : CN113435421B

文献日 : 2021-11-05

本发明公开了一种基于跨模态注意力增强的唇语识别方法及系统，本发明包括提取唇部图像序列和唇部运动信息，通过预训练特征提取器获取对应的唇部特征序列和唇部运动序列，将得到的特征序列输入跨模态注意力网络，得到唇部增强特征序列；通过多分支注意力机制建立模态内特征序列的时序关联性，并在输出端特定的选择输入中相关的信息。本发明通过考虑时序信息之间的关联性，将相邻帧之间进行光流计算得到视觉特征之间的运动信息，利用运动信息对唇部视觉特征进行表示并进行融合增强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模态内特征的关联表示和选择，提升了唇读识别的准确率。

1.一种基于跨模态注意力增强的唇语识别方法，其特征在于，包括：

1）根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va，并根据唇部区域图像序列Va提取光流图序列Vo；将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器，得到唇部特征序列Hv、唇部间运动特征序列Ho；将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码，得到引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop}；

2）将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup，并融合唇部特征序列Hv得到增强的唇部特征序列Henh；

3）基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示，得到增强的唇部特征序列Henh的关联表示Henc；

4）将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性，得到输出特征的表示向量Hdec；

5）通过多层感知机对输出特征的表示向量Hdec进行概率表示，并基于概率表示结果获取得到最优的识别结果；

步骤3）包括：

3.1）利用线性映射矩阵，对增强的唇部特征序列Henh在n个特征空间内进行子空间表示，得到多个特征空间对应维度的特征表示序列；

3.2）基于n个特征空间内各特征之间的相似性，得到每个特征空间的特征关联表示；

3.3）将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc。

2.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：，，

上式中，PE(pos,i)表示位置pos特征的维度i在位置编码函数PE中位置编码，pos表示每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X0∈{Hv,Ho}中的位置，i表示特征向量所在的维度，PE表示位置编码函数，d代表特征向量具有的维度，X为引入位置信息的特征序列。

3.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换，使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度；

针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。

4.根据权利要求3所述的基于跨模态注意力增强的唇语识别方法，其特征在于，所述针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：首先，根据下式进行分别计算查询特征Qα、键特征Kβ、值特征Vβ；

Qα=HvpWQα，Kβ=Hop WKβ，Vβ=Hop WVβ，上式中，WQα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵，WKβ和WVβ分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵，Hvp表示引入位置信息的唇部特征序列，Hop表示引入位置信息的唇部间运动特征序列；

然后，根据查询特征Qα、键特征Kβ基于下式计算唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp；

，

上式中，softmax表示归一化指数函数，dk为查询特征Qα与键特征Kβ的偏置相乘得到的T

矩阵QαKβ的维度；

最终，根据唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp、值特征Vβ基于下式计算得到具有上下文信息的唇部特征Hup：，

上式中，Hop表示引入位置信息的唇部间运动特征序列，WVβ为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。

5.根据权利要求4所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤2）中融合唇部特征序列Hv得到增强的唇部特征序列Henh函数表达式如下式所示：Henh=Linear([Hv,Hup] )上式中，Linear表示线性变换函数，[Hv,Hup]表示唇部特征序列Hv和具有上下文信息的唇部特征Hup的级联。

6.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤

3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：q q k k v v

Qi =Henh*Wi ，Ki =Henh*Wi ，Vi =Henh*Wi ，q k v

上式中，Wi ,Wi ,Wi 分别为查询值矩阵、键值矩阵、值权重矩阵，i表示特征空间的第i个头，i=1,2,…,n，n为特征空间数量；

步骤3.2）中得到每个特征空间的特征关联表示的函数表达式为：，

上式中，headi表示第i个特征空间对应维度的特征表示，Attention表示注意力机制，q k v

Qi ,Ki ,Vi分别表示第i个特征空间查询特征、键特征和值特征，softmax表示归一化指数函q k

数，dk为查询特征Qi 与键特征Ki的偏置相乘得到的矩阵的维度；

步骤3.3）中将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为：，

q k v

上式中，MultiHead表示多头注意力函数，Qi ,Ki ,Vi 分别表示第i个特征空间查询特征、键特征和值特征，concat为级联函数，head1～headn分别为第1～n个特征空间的特征关O

联表示，W 为输出权重矩阵。

7.根据权利要求1所述的基于跨模态注意力增强的唇语识别方法，其特征在于，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：P(Y|Hcy) =softmax(MLP(Hdec))上式中，MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中，softmax为归一化指数函数，P(Y|Hcy)为对应输出类别的概率。

8.一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～7中任意一项所述基于跨模态注意力增强的唇语识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～7中任意一项所述基于跨模态注意力增强的唇语识别方法的计算机程序。

一种基于跨模态注意力增强的唇语识别方法及系统

技术领域

[0001] 本发明涉及计算机视觉和模式识别技术，具体涉及一种基于跨模态注意力增强的唇语识别方法及系统。

背景技术

[0002] 唇语识别是指通过捕捉说话人唇部的运动信息来理解说话人所说内容，具有大量有用的语音信息。在实际人机自然交互应用环境中，面部运动信息通过视频获取，不受复杂
环境噪声影响，因此唇语识别可作为在没有任何音频输入和高噪声环境下说话者内容识别
的有效解决方案之一。唇读系统具有多种有价值的应用，该系统的实现可以辅助语音识别
和解决多说话者同时说话，实现更加智能、鲁棒的人机交互；也可用于军事公安、生物特征
识别、安全验证等领域。因此，唇语识别的研究吸引越来越多研究者的注意。

[0003] 但是，唇语识别存在许多亟待解决和突破的难题，主要包括：第一，同形异音的造成的视觉歧义。不同发音具有相似甚至相同的视觉特性，例如P、B、M具有相同的视觉信息，
但发音形同。第二，讲话者依赖。说话人的性别、不同发音习惯和不同的文化都会造成唇部
区域图像特征差异。第三，复杂的成像条件和讲话者的姿态变化会导致图像上唇部区域的
明显变化，会对视觉特征提取产生影响。

发明内容

[0004] 本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于跨模态注意力增强的唇语识别方法及系统，本发明通过考虑时序信息之间的关联性，通过将相邻帧之
间进行光流计算得到视觉特征之间的运动信息，然后利用运动信息对唇部视觉特征进行表
示并进行融合增强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模
态内特征的关联表示和选择，提升了唇读识别的准确率。

[0005] 为了解决上述技术问题，本发明采用的技术方案为：

[0006] 一种基于跨模态注意力增强的唇语识别方法，包括：

[0007] 1）根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va，并根据唇部区域图像序列Va提取光流图序列Vo；将唇部区域图像序列Va、光流图序列Vo分别输入预先
训练好特征提取器，得到唇部特征序列Hv、唇部间运动特征序列Ho；将唇部特征序列Hv、唇
部间运动特征序列Ho分别进行位置编码，得到引入位置信息的唇部特征序列Hvp和唇部间
运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop}；

[0008] 2）将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup，并融合唇部特征序列Hv得到增强的唇部特征序列Henh；

[0009] 3）基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示，得到增强的唇部特征序列Henh的关联表示Henc；

[0010] 4）将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性，得到输出特征的表示向量Hdec；

[0011] 5）通过多层感知机对输出特征的表示向量Hdec进行概率表示，并基于概率表示结果获取得到最优的识别结果。

[0012] 可选地，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：

[0013] ，，

[0014] 上式中，PE(pos,i)表示位置pos特征的维度i在位置编码函数PE中位置编码，pos每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X0∈{Hv,Ho}中的
位置，i表示特征向量所在的维度，PE表示位置编码函数，d代表特征向量具有的维度，X为引
入位置信息的特征序列。

[0015] 可选地，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：

[0016] 将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换，使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度；

[0017] 针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。

[0018] 可选地，所述针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：

[0019] 首先，根据下式进行分别计算查询特征Qα、键特征Kβ、值特征Vβ；

[0020] Qα=HvpWQα，Kβ=Hop WKβ，Vβ=Hop WVβ，

[0021] 上式中，WQα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵，WKβ和WVβ分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵，Hvp表示引入位
置信息的唇部特征序列，Hop表示引入位置信息的唇部间运动特征序列；

[0022] 然后，根据查询特征Qα、键特征Kβ基于下式计算唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp；

[0023] ，

[0024] 上式中，softmax表示归一化指数函数，dk为查询特征Qα与键特征Kβ的偏置相乘得T
到的矩阵QαKβ的维度；

[0025] 最终，根据唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp、值特征Vβ基于下式计算得到具有上下文信息的唇部特征Hup：

[0026] ，

[0027] 上式中，Hop表示引入位置信息的唇部间运动特征序列，WVβ为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。

[0028] 可选地，步骤2）中融合唇部特征序列Hv得到增强的唇部特征序列Henh函数表达式如下式所示：

[0029] Henh=Linear([Hv,Hup] )

[0030] 上式中，Linear表示线性变换函数，[Hv,Hup]表示唇部特征序列Hv和具有上下文信息的唇部特征Hup的级联。

[0031] 可选地，步骤3）包括：

[0032] 3.1）利用线性映射矩阵，对增强的唇部特征序列Henh在n个特征空间内进行子空间表示，得到多个特征空间对应维度的特征表示序列；

[0033] 3.2）基于n个特征空间内各特征之间的相似性，得到每个特征空间的特征关联表示；

[0034] 3.3）将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc。

[0035] 可选地，步骤3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：

[0036] Qiq=Henh*Wiq，Kik=Henh*Wik，Viv=Henh*Wiv，

[0037] 上式中，Wiq,Wik,Wiv分别为查询值矩阵、键值矩阵、值权重矩阵，i表示特征空间的第i个头，i=1,2,…,n，n为特征空间数量；

[0038] 步骤3.2）中得到每个特征空间的特征关联表示的函数表达式为：

[0039] ，

[0040] 上式中，headi表示第i个特征空间对应维度的特征表示，Attention表示注意力机q k v
制，Qi ,Ki ,Vi 分别表示第i个特征空间查询特征、键特征和值特征，softmax表示归一化指
q k
数函数，dk为查询特征Qi 与键特征Ki的偏置相乘得到的矩阵的维度；

[0041] 步骤3.3）中将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为：

[0042] ，

[0043] 上式中，MultiHead表示多头注意力函数，Qiq,Kik,Viv分别表示第i个特征空间查询特征、键特征和值特征，concat为级联函数，head1～headn分别为第1～n个特征空间的特征
O
关联表示，W 为输出权重矩阵。

[0044] 可选地，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：

[0045] P(Y|Hcy) =softmax(MLP(Hdec))

[0046] 上式中，MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中，softmax为归一化指数函数，P(Y|Hcy)为对应输出类别的概率。

[0047] 此外，本发明还提供一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行所述基于跨模态注意力增强的唇语
识别方法的步骤。

[0048] 此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于跨模态注意力增强的唇语识别方法的计算机程序。

[0049] 和现有技术相比，本发明具有下述优点：考虑到在实际人机自然交互应用环境中，面部运动信息通过视频获取，不受复杂环境噪声影响，唇语识别可作为人机交互的有效通
道之一。本发明包括提取唇部特征序列、唇部间运动特征序列并引入位置信息，通过跨模态
注意力模块进行模态融合，基于多分支注意力机制进行模态内的关联表示，通过注意力层
计算输出特征和输入特征之间的相似性得到输出特征的表示向量，最终通过多层感知机对
输出特征的表示向量进行概率表示并获取最优识别结果。考虑到在实际人机自然交互应用
环境中，面部运动信息通过视频获取，不受复杂环境噪声影响，唇语识别可作为人机交互的
有效通道之一，本发明通过考虑时序信息之间的关联性，通过将相邻帧之间进行光流计算
得到视觉特征之间的运动信息，然后利用运动信息对唇部视觉特征进行表示并进行融合增
强，充分利用了模态内的上下文信息，最后通过多分支注意力机制进行模态内特征的关联
表示和选择，提升了唇读识别的准确率。

附图说明

[0050] 图1为本实施例方法的基本原理图。

[0051] 图2为实施例中视觉信息预处理的原理图。

[0052] 图3为实施例中得到的光流图序列示例。

[0053] 图4为实施例中跨模态注意力模块的实现原理示意图。

具体实施方式

[0054] 如图1所示，本实施例基于跨模态注意力增强的唇语识别方法包括：

[0055] 1）根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va，并根据唇部区域图像序列Va提取光流图序列Vo；将唇部区域图像序列Va、光流图序列Vo分别输入预先
训练好特征提取器，得到唇部特征序列Hv、唇部间运动特征序列Ho；将唇部特征序列Hv、唇
部间运动特征序列Ho分别进行位置编码，得到引入位置信息的唇部特征序列Hvp和唇部间
运动特征序列Hop两者构成的引入位置信息的特征序列X∈{Hvp,Hop}；

[0056] 2）将得到的引入位置信息的特征序列X∈{Hvp,Hop}输入跨模态注意力模块得到具有上下文信息的唇部特征Hup，并融合唇部特征序列Hv得到增强的唇部特征序列Henh；

[0057] 3）基于多分支注意力机制对增强的唇部特征序列Henh进行模态内的关联表示，得到增强的唇部特征序列Henh的关联表示Henc；

[0058] 4）将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性，得到输出特征的表示向量Hdec；

[0059] 5）通过多层感知机对输出特征的表示向量Hdec进行概率表示，并基于概率表示结果获取得到最优的识别结果。

[0060] 本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图像序列和唇部运动信息（光流信息），并进行归一化、降维处理和位置编码，然后将通过预训练特征提取器
获取对应的唇部特征序列和唇部运动序列，并将得到的特征序列输入跨模态注意力网络，
得到唇部增强特征序列；最后通过多分支注意力机制建立模态内特征序列的时序关联性，
并在输出端特定的选择输入中相关的信息，提高唇语识别的准确率。

[0061] 参见图2，步骤1）中根据包含说话者人脸关键点的输入图像提取唇部区域图像序列Va时，针对每一幅包含说话者人脸关键点的输入图像，首先进行视觉信息预处理（采用预
先的面部检测模型），提取其中的人脸区域图像Rf。然后针对得到的人脸区域Rf使用人脸关
键点检测模型得到进行人脸关键点检测，得到人脸关键点的像素坐标Xb，例如用人脸关键
点检测模型使用开源人脸库Dlib的人脸关键点检测模型，可得到68个人脸关键点像素坐标
Xb；针对得到的人脸关键坐标Xb，得到唇部中心位置Xc；然后利用唇部中心位置进行唇部区
域的裁剪，得到唇部区域图像。从而有所有的唇部区域图像即可构成唇部区域图像序列Va=
i
{va |i=,1,2,3,...,k}，其为k唇部区域图像数量。

[0062] 参见图1，本实施例步骤1）中根据唇部区域图像序列Va提取光流图序列Vo是指将i
唇部区域图像序列Va通过PWC‑Net网络提取光流图序列Vo，其形式为：Vo={vo |i=,1,2,
3,...,m}，其中m为唇部区域光流图的数量，图3所示为光流图序列Vo的一个具体图像实例。
PWC‑Net网络是一种现有的光流估计CNN模型，包括了金字塔，扭曲，代价体积三个部分，此
外也可以根据需要采用其他光流估计模型。

[0063] 参见图1，本实施例步骤1）中采用C3D‑P3D网络作为特征提取器，将唇部区域图像序列Va、光流图序列Vo分别输入预先训练好特征提取器C3D‑P3D。将得到的唇部区域图像序
列Va中每帧图像进行通道降维处理得到对应的灰度图，并进行归一化处理到[0,1]范围内；
然后通过预先训练的特征提取器C3D‑P3D作为视觉前端对唇部图像序列Va进行特征提取，
得到唇部区域的特征表示Hv；将得到的光流图序列Vo进行通道降维处理得到对应的灰度
图，并进行归一化处理到[0,1]范围内；然后通过预先训练的特征提取器C3D‑P3D作为视觉
前端对光流图序列Vo进行特征提取，得到唇部间的动态表示特征Ho。C3D‑P3D网络为现有特
征提取网络，P3D的三个版本分别是P3D‑A、P3D‑B和P3D‑C，P3D‑ResNet是通过三个版本依次
交错生成，而C3D‑P3D为3D卷积神经网络和三个版本的P3D混合构成的50层P3D‑ResNet组合
而成。

[0064] 本实施例中，步骤1）中将唇部特征序列Hv、唇部间运动特征序列Ho分别进行位置编码的函数表达式为：

[0065] ，，

[0066] 上式中，PE(pos,i)表示位置pos特征的维度i在位置编码函数PE中位置编码，pos每个输入特征在唇部特征序列Hv、唇部间运动特征序列Ho两者构成的序列X0∈{Hv,Ho}中的
位置，i表示特征向量所在的维度，PE表示位置编码函数，d代表特征向量具有的维度，X为引
入位置信息的特征序列。

[0067] 本实施例中，步骤2）中跨模态注意力模块对引入位置信息的特征序列X∈{Hvp,Hop}的处理包括：

[0068] 将引入位置信息的特征序列X∈{Hvp,Hop}进行线性变换，使引入位置信息的唇部特征序列Hvp和唇部间运动特征序列Hop两者具有相同的特征表示维度；

[0069] 针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup。

[0070] 如图4所示，本实施例中针对线性变换后得到的特征进行降维处理，利用唇部间运动特征序列Hop对每个唇部的特征进行表示得到具有上下文信息的唇部特征Hup包括：

[0071] 首先，根据下式进行分别计算查询特征Qα、键特征Kβ、值特征Vβ；

[0072] Qα=HvpWQα，Kβ=Hop WKβ，Vβ=Hop WVβ，

[0073] 上式中，WQα为引入位置信息的唇部特征序列Hvp的查询线性映射矩阵，WKβ和WVβ分别为引入位置信息的唇部间运动特征序列Hop的键权重矩阵和值权重矩阵，Hvp表示引入位
置信息的唇部特征序列，Hop表示引入位置信息的唇部间运动特征序列；图4中，lα,dα分别表
示引入位置信息的唇部特征Hvp对应的序列长度和维度大小；lβ,dβ分别表示引入位置信息
的唇部间运动特征Hop对应的序列长度和维度；lα,dk分别表示查询特征Qα的对应的序列长度
和维度；lβ,dk分别表示键特征Kβ的对应的序列长度和维度；lβ,dv分别表示值特征Vβ的对应
的序列长度和维度。

[0074] 然后，根据查询特征Qα、键特征Kβ基于下式计算唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp；

[0075] ，

[0076] 上式中，softmax表示归一化指数函数，dk为查询特征Qα与键特征Kβ的偏置相乘得T
到的矩阵QαKβ的维度；

[0077] 最终，根据唇部特征与唇部之间动态特征之间的相似值CMAHop→Hvp、值特征Vβ基于下式计算得到具有上下文信息的唇部特征Hup：

[0078] ，

[0079] 上式中，Hop表示引入位置信息的唇部间运动特征序列，WVβ为引入位置信息的唇部间运动特征序列Hop的值权重矩阵。

[0080] 本实施例中，步骤2）中融合唇部特征序列Hv得到增强的唇部特征序列Henh函数表达式如下式所示：

[0081] Henh=Linear([Hv,Hup] )

[0082] 上式中，Linear表示线性变换函数，[Hv,Hup]表示唇部特征序列Hv和具有上下文信息的唇部特征Hup的级联。

[0083] 本实施例步骤3）通过自注意力模块对得到唇部增强特征序列Henh进行模态内的关联表示，首先利用线性映射矩阵对增强后的特征序列进行子空间表示，关注不同位置的
信息，得到多个维度的特征表示；然后通过计算特征序列中的某一特征与其它特征间的相
似性，为每个特征赋予相应的权重，然后基于权重融合得到每个子空间的特征关联表示；最
后每个子空间得到的特征表示向量进行级联，得到级联后的特征向量，即增强的唇部特征
序列Henh的关联表示Henc。本实施例中，步骤3）包括：

[0084] 3.1）利用线性映射矩阵，对增强的唇部特征序列Henh在n个特征空间内进行子空间表示，得到多个特征空间对应维度的特征表示序列；

[0085] 3.2）基于n个特征空间内各特征之间的相似性，得到每个特征空间的特征关联表示；

[0086] 3.3）将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc。

[0087] 本实施例中，步骤3.1）中得到任意第i个特征空间对应维度的特征表示序列的函数表达式为：

[0088] Qiq=Henh*Wiq，Kik=Henh*Wik，Viv=Henh*Wiv，

[0089] 上式中，Wiq,Wik,Wiv分别为查询值矩阵、键值矩阵、值权重矩阵，i表示特征空间的第i个头，i=1,2,…,n，n为特征空间数量；

[0090] 本实施例中，步骤3.2）中得到每个特征空间的特征关联表示的函数表达式为：

[0091] ，

[0092] 上式中，headi表示第i个特征空间对应维度的特征表示，Attention表示注意力机q k v
制，Qi ,Ki ,Vi 分别表示第i个特征空间查询特征、键特征和值特征，softmax表示归一化指
q k
数函数，dk为查询特征Qi 与键特征Ki 的偏置相乘得到的矩阵的维度；需要说明的
是，注意力机制为现有神经网络结构，本实施例中仅涉及注意力机制的应用，不涉及对注意
力机制的改进，故其实现细节在此不再展开说明。

[0093] 本实施例中，步骤3.3）中将各个特征空间的特征关联表示进行级联，得到增强的唇部特征序列Henh的关联表示Henc的函数表达式为：

[0094] ，

[0095] 上式中，MultiHead表示多头注意力函数，Qiq,Kik,Viv分别表示第i个特征空间查询特征、键特征和值特征，concat为级联函数，head1～headn分别为第1～n个特征空间的特征
O
关联表示，W 为输出权重矩阵。

[0096] 本实施例中，步骤4）中将增强的唇部特征序列Henh的关联表示Henc作为输入特征，通过注意力层计算输出特征和输入特征之间的相似性（注意力权值的大小），得到输出
特征的表示向量Hdec；相似性越大对应的注意力值越大。

[0097] 本实施例中，步骤5）中通过多层感知机对输出特征的表示向量Hdec进行概率表示的函数表达式为：

[0098] P(Y|Hcy) =softmax(MLP(Hdec))

[0099] 上式中，MLP为多层感知机将输出特征的表示向量Hdec映射到对应的标签类别范围中，softmax为归一化指数函数，P(Y|Hcy)为对应输出类别的概率。

[0100] 本实施例中，通过在公众可获得的大规模字级别的LRW数据集上进行模型的调试和验证，对本实施例基于跨模态注意力增强的唇语识别方法进行实验验证，且同时作为本
实施例方法的对比的现有已知方法（对比方法）包括：

[0101] WAS方法，详见J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman“,Lip reading sentences in the wild,” in IEEE Conferenceon Computer Vision and
Pattern Recognition (CVPR).IEEE, 2017, pp. 3444–3453.

[0102] Res+LSTM方法，详见 T. Stafylakis and G. Tzimiropoulos, imiropoung residual networks with lstms for lipreading,iparXiv preprint arXiv:
1703.04105, 2017.

[0103] Multi Graned方法，详见 C. Wang, ed 2017.03.0410spatio‑temporal modeling for lip‑reading,adarXiv preprint arXiv:1908.11618, 2019.

[0104] 表1：本实施例方法（Ours）与对比方法在LRW数据集下的识别结果。

[0105]

[0106] 表1为本实施例方法（Ours）与对比方法在LRW数据集下的识别结果。参见表1可知，本实施例基于跨模态注意力增强的唇语识别方法在LRW数据集上能够实现最佳的唇语识别
的分类结果。由此可见，本实施例基于跨模态注意力增强的唇语识别方法首先提取唇部图
像序列和唇部运动信息（光流信息），并进行归一化、降维处理和位置编码，然后将通过预训
练特征提取器获取对应的唇部特征序列和唇部运动序列，并将得到的特征序列输入跨模态
注意力网络，得到唇部增强特征序列；最后通过多分支注意力机制建立模态内特征序列的
时序关联性，并在输出端特定的选择输入中相关的信息，提高唇语识别的准确率。

[0107] 此外，本实施例还提供一种基于跨模态注意力增强的唇语识别系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行前述基于跨模态注意力增强的唇
语识别方法的步骤。

[0108] 此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于跨模态注意力增强的唇语识别方法的计算机程序。

[0109] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可读存储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产
品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程
图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流
程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工
作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的
制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框
中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使
得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计
算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方
框图一个方框或多个方框中指定的功能的步骤。

[0110] 以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域
的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也
应视为本发明的保护范围。

一种基于跨模态注意力增强的唇语识别方法及系统转让专利

申请号 : CN202110986219.3

文献号 : CN113435421B

文献日 : 2021-11-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李树涛 , 宋启亚 , 孙斌

申请人 : 湖南大学

摘要 :

权利要求 :

说明书 :