基于注意力的连续手语语句识别方法转让专利
申请号 : CN202110800098.9
文献号 : CN113609923B
文献日 : 2022-05-13
发明人 : 王军 , 袁静波 , 李玉莲 , 潘在宇 , 申政文 , 鹿姝
申请人 : 中国矿业大学
摘要 :
权利要求 :
1.一种基于注意力的连续手语语句识别方法,其特征在于,步骤如下:步骤1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV‑L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;
步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频的关键帧序列的时空特征,对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征;
步骤3、构建基于注意力的连续手语语句识别模型:基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络;基于注意力的双模态编码网络分为两路且结构相同,每路均包括BLSTM与注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层;
在基于注意力的连续手语语句识别模型中,基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成,BLSTM由一组双向的LSTM神经单元组成,分为前向网络和后向网络,同时传递t时刻之前时刻与之后时刻的信息;
在t时刻,基于注意力的双模态编码网络中前向LSTM和后向LSTM的隐藏层状态分别为和 它们的隐含层单元传递信息的方向是相反的,对应的传递函数为:对应的传递函数为:
其中,ht‑1为前一时刻特征向量,ht+1为后一时刻特征向量,ft为训练集对应的关键帧序列的时空特征,U1和W1为前向网络的共享权重,U2和W2为后向网络的共享权重,b1和b2为偏置;前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递,通过拼接前向LSTM层和后向LSTM层的隐藏状态,得到经过LSTM网络后在t时刻关键帧序列的高层特征:
彩色视频模态和光流模态的关键帧手语视频对应的输出高层特征序列,分别用和 表示;
在使用注意力机制时,对于每个时刻,特征为hi,其中i∈[t‑1,t+1],则根据输入特征与上一时刻输出加权向量计算hi对t时刻输出的相似度分数 计算方式如下:其中,Wa、Wb、w为权重矩阵,σ为tanh函数,ba为偏置向量,ht为t时刻输入特征,at‑1为t‑1时刻多层感知机输出特征;
对三个特征向量ht,ht‑1,ht+1的相似度进行指数归一化,归一化后的序列位置t处的注意力系数为:
其中,αt为注意力系数,0≤αt≤1, 且 将注意力系数αt作为权重,通过加权求和的方式计算at,表示为:
通过双模态编码网络分别得到彩色视频模态和光流模态的关键帧手语视频的加权特征序列,分别表示为 将其进行特征拼接后得到分配过注意力权重的融合特征序列a=(a1,a2,...,aT);
步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型;
步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。
2.根据权利要求1所述的一种基于注意力的连续手语语句识别方法,其特征在于,步骤
3中,在基于注意力的连续手语语句识别模型中,使用LSTM和CTC损失层组成基于CTC的解码网络;将融合特征序列a作为LSTM的输入,对两个模态的特征序列进一步整合,并与时间关系建模,通过LSTM得到新的特征序列gt表示为:gt=LSTM(at‑1,at)其中,at为t时刻多层感知机输出特征;
采用CTC损失层进行训练:首先使用一个由SoftMax函数组成的内在映射层,将解码器的LSTM层每个时刻的输出特征gt映射为分布概率 其中,K为手语词典元素表所含元素个数;再通过CTC损失层,根据每个视频关键帧的分布概率计算得到实际语义的后验概率;
采用通用损失函数训练L个标签的目标词典时,将产生|L|个输出;在基于CTC的解码网络中引入空白标签
B:L′→L,(U≤T)
T U T U
其中,π∈L′,l∈L ;L′为包含空白标签
′中去除重复标签与空白标签后的语义标签序列,U为折叠后语句中语义标签数量;
当CTC损失层的输入序列为解码器中LSTM输出的特征序列g=(g1,g2,...,gT),定义一‑1
个逆映射函数B ,它生成所有可能与目标标签序列l相对应的拓展词典序列π,那么给定输入特征序列a对应于标签序列l的概率为:根据输出序列的概率分布P(l|K),调整模型参数使得P(l|K)最大;根据前后向算法计算得到CTC损失函数:
LCTC=‑ln(P(l|a))使用梯度下降法对网络进行训练,并计算CTC损失函数的梯度;获得CTC的损失函数与梯度之后,然后对其解码,用公式表示为:y(a)=arg max P(l|a)找到输出序列的概率分布中概率最大的路径后,输出对应序列找到最佳输出序列W=(w1,w2,...,wU),其中U为每个连续手语语句视频包含的词语数量。
说明书 :
基于注意力的连续手语语句识别方法
技术领域
背景技术
来便利,还可以让他们无障碍的表达自己内心的诉求与想法,在促进人类社会和谐发展方
面有着重要的意义.。首次提出基于注意力的连续手语语句识别方法,将连续手语语句视频
中包含的单词按照语法关系转换为一个口语化的句子,其中涉及到时间分割问题与标签对
齐的问题,需要构建一个较为复杂的语义对齐网络,并使用了彩色视频和其对应的光流视
频关键帧序列作为输入,增强数据表征能力。
穿戴设备的手语识别方法确实可以精确定位手部,准确度都较高,然而数据手套造价昂贵,
手语者在演示时必须佩戴笨重的手套,常常让手语演示者感到束缚;基于传统机器学习的
手语识别通常分为三个步骤,数据预处理、特征提取和建模识别,通常采用尺度不变特征变
换和梯度方向直方图等算法人工设计特征,然后使用传统机器学习分类器进行建模与识
别,例如SVM、HMM等传统分类器,基于传统机器学习的手语识别需要人工设计特征提取方
法,无法自动获取图像特征,依赖于人工经验,耗时耗力。
发明内容
频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应
得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,
在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,
两种模态的关键帧手语视频中剩余的视频构成测试集。
帧序列的时空特征。
注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层。
权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出
的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后
使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得
训练好的连续手语语句识别模型。
模,得到最终的语义序列,使手语识别摆脱了对人工经验的依赖。
空信息,并且避免了传统时序分割问题,实现手语视频与语义的对齐。
高模型的数据利用率。
附图说明
具体实施方式
将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型,该模型本质上是一
个序列到序列模型:通过基于注意力的双模态编码网络得到两个模态的融合特征序列,并
输入基于连接时序分类(Connectionist Temporal Classification,CTC)的解码网络,得
到最终的语义序列。本发明公开的基于注意力的连续手语语句识别方法,通过利用序列到
序列模型将手语序列转换到另一个语言序列,解决输出长度不确定的问题,改善输入与输
出序列的不规则对齐问题。同时,在完成具有冗余信息的复杂任务时,使用注意力模型将注
意力聚焦于视频特征的重要区域,对连续手语语句识别效果有显著的提升。
频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应
得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,
在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,
两种模态的关键帧手语视频中剩余的视频构成测试集。
层和一个SoftMax层,网络的每一个三维卷积层后都引入了一个批量化归一层(BN)层和
Relu激活函数层。I3D网络的输入连续手语语句彩色视频模态的关键帧手语视频序列
和对应光流视频模态的关键帧手语视频序列 T为每个关
键帧手语视频序列的帧数。在利用I3D对视频中的每一个关键帧提取时空特征时,选取具有
全局感受野的全局平均池化层的输出特征作为每一帧对应的时空特征,通过两路I3D网络
分别提取到的连续手语语句彩色视频模态的关键帧手语视频中的关键帧序列的时空特征
与光流视频模态的关键帧手语视频中的关键帧序列的时空特征
络和后向网络,同时传递t时刻之前时刻与之后时刻的信息。
偏置;前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递,通过拼
接前向LSTM层和后向LSTM层的隐藏状态,得到经过LSTM网络后在t时刻关键帧序列的高层
特征:
过注意力权重的融合特征序列a=(a1,a2,…,aT)。
间关系建模,通过LSTM得到新的特征序列gt表示为:
元素表所含元素个数;再通过CTC损失层,根据每个视频关键帧的分布概率计算得到实际语
义的后验概率。
词典序列π和目标标签序列1之间的映射函数,映射函数B表示为:
将L 中去除重复标签与空白标签后的语义标签序列,U为折叠后语句中语义标签数量。
义一个逆映射函数B ,它生成所有可能与目标标签序列l相对应的拓展词典序列π,那么给
定输入特征序列a对应于标签序列l的概率为:
权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出
的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后
使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得
训练好的连续手语语句识别模型。
语视频;采用CNN对两种模态的手语视频的关键帧进行提取,得到像素大小为224×224、关
键帧均匀采样至8帧的手语视频,在得到的两种模态的手语视频中各选取800个相对应的视
频作为训练集。
视频上对其微调。I3D网络学习率初始值设置为0.01。
注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层。
行训练。在编码器最后的分类层中,SoftMax层的单元数量根据手语词典数量设为61。
图2所示,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注
意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视
频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得
到最终的语义序列,即获得训练好的连续手语语句识别模型;
存在删除错误,插入错误和替换错误。为使连续手语语句识别的准确率考虑到各种误差,采
用下式所述衡量标准。
decoder)表示,结果如表2所示。
据仍然具备较高的准确率,然而在连续手语语句识别任务中,光流信息比深度数据的表现
更为优秀,因此,光流信息强大的运动信息表征能力,在连续手语语句识别这种依赖长期时
间关系的任务中可以取得较好的识别效果。除此之外,将编码网络中的注意力机制移除,仅
使用两层结构相同的BLSTM网络对彩色和光流两种模态的浅层时空特征进行编码,将其输
出的高层时空特征作为解码网络的输入进行解码。由此看出,无论是在训练集还是测试集
上都取得了较高的准确率,可以表明注意力机制对时序建模的长期依赖问题有明显的改
善,有效地提高了模型准确率。