手语识别方法、装置、计算机可读存储介质和计算机设备转让专利
申请号 : CN201910650159.0
文献号 : CN110348420B
文献日 : 2022-03-18
发明人 : 阳赵阳 , 沈小勇 , 戴宇荣 , 贾佳亚
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种手语识别方法,包括:
获取待识别的手语视频;
从所述手语视频中的各帧图像中提取手势特征;
提取所述手语视频中各帧图像的手势变化特征;所述手势变化特征包括在时间上手势发生变化的特征;
将所述手势特征与所述手势变化特征之间和值的平均值作为融合特征,对所述融合特征进行卷积和池化处理;通过机器学习模型中的至少两个特征提取单元从池化处理后所得的融合特征中提取手势特征和手势变化特征,将提取的所述手势特征和所述手势变化特征进行融合,得到最终的融合特征;所述特征提取单元是由二维网络模型和三维网络模型构成的;
基于所述融合特征以模糊匹配的方式对所述手语视频中各帧图像的手势进行识别,得到各所述手势对应的手语词信息;
若各所述手势对应多个所述手语词信息,从多个所述手语词信息中选取与语境信息对应的手语词信息,将选取的所述手语词信息进行组合并转换成手语语句。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别的手语视频包括:拍摄环境中的目标对象;
当拍摄所述目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象在切换手势时的等待时长;
当所述等待时长符合预设条件时,将所获得的视频作为待识别的手语视频。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当等待时长不符合预设条件时,则将拍摄所述目标对象所得的视频进行保存,并返回执行所述在拍摄过程中实时检测所述目标对象在切换手势时的等待时长的步骤,直至所述等待时长符合预设条件时,则
将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当拍摄目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象的手势特征;
当检测所得的手势特征符合手势结束端点条件时,将所获得的视频作为待识别的手语视频;
当检测所得的手势特征不符合手势结束端点条件时,保存所拍摄的视频,执行所述在拍摄过程中实时检测所述目标对象的手势特征的步骤,直至所述手势特征符合手势结束端点条件时,则
将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。
5.根据权利要求1所述的方法,其特征在于,所述通过机器学习模型中的至少两个特征提取单元从池化处理后所得的融合特征中提取手势特征和手势变化特征,将提取的所述手势特征和所述手势变化特征进行融合,得到最终的融合特征包括:通过当前所述特征提取单元中的二维网络模型,从池化处理后所得的融合特征中提取手势特征;
通过当前所述特征提取单元中的三维网络模型提取池化处理后所得的融合特征中的手势变化特征;
将所提取的手势特征和手势变化特征进行融合,对所述融合特征进行卷积和池化处理,并通过其它所述特征提取单元中的二维网络模型和三维网络模型分别从池化处理后所得的融合特征中提取手势特征和手势变化特征并进行融合,得到最终的融合特征。
6.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:将所述融合特征转换成特征向量;
在转换所得的特征向量中,分别对连续多帧图像对应的特征向量进行组合得到特征向量分组;
分别从各所述特征向量分组中提取手语词信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述融合特征转换成特征向量包括:
对所述融合特征进行卷积处理;
将卷积处理后的融合特征进行全局平均池化操作,得到与所述手语视频中的各帧图像对应的特征向量。
8.根据权利要求1所述的方法,其特征在于,所述将选取的所述手语词信息组合成手语语句包括:
对所述手语词信息进行正向计算和反向计算;
将正向计算所得的序列与反向计算所得的序列进行拼接,得到拼接序列;
从所述拼接序列中提取句子特征,并根据所述句子特征进行分类;
按照分类所得的结果合成手语语句。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:当合成出新手语语句时,在展示的手语识别操作页面中发出提示信息;
在历史手语语句从所述手语识别操作页面的第一位置移动至第二位置的过程中,调整所述历史手语语句的呈现方式;所述历史手语语句为所述新手语语句的上一时刻所合成的手语语句;
以不同于所述呈现方式的目标呈现方式,将所述新手语语句展示于所述第一位置。
10.根据权利要求1所述的方法,其特征在于,所述手语词信息由长短期记忆网络提取;
所述长短期记忆网络的损失函数引入了正则项;所述正则项为:其中,N为总词汇量,Po,n为根据句子特征进行分类时预测第n个词出现的概率,Pc,n为根据词特征确定第n个出现的概率。
11.根据权利要求10所述的方法,其特征在于,所述手语语句通过双向长短期记忆网络合成;所述双向长短期记忆网络采用了连续时序分类损失函数;所述连续时序分类损失函数,用于将与未包含有手语词信息的帧图像对应的手语词标记为空字符,并在合成手语语句时将所述空字符进行删除。
12.一种手语识别装置,其特征在于,所述装置包括:视频获取模块,用于获取待识别的手语视频;
第一特征提取模块,用于从所述手语视频中的各帧图像中提取手势特征;
第二特征提取模块,用于提取所述手语视频中各帧图像的手势变化特征;所述手势变化特征包括在时间上手势发生变化的特征;
信息提取模块,用于将所述手势特征与所述手势变化特征之间和值的平均值作为融合特征;
特征融合模块,用于对所述融合特征进行卷积和池化处理;通过机器学习模型中的至少两个特征提取单元从池化处理后所得的融合特征中提取手势特征和手势变化特征,将提取的所述手势特征和所述手势变化特征进行融合,得到最终的融合特征;所述特征提取单元是由二维网络模型和三维网络模型构成的;
所述信息提取模块,用于基于所述融合特征以模糊匹配的方式对所述手语视频中各帧图像的手势进行识别,得到各所述手势对应的手语词信息;
手语识别模块,用于若各所述手势对应多个所述手语词信息,从多个所述手语词信息中选取与语境信息对应的手语词信息,将选取的所述手语词信息进行组合并转换成手语语句。
13.根据权利要求12所述的装置,其特征在于,所述视频获取模块还用于:拍摄环境中的目标对象;
当拍摄所述目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象在切换手势时的等待时长;
当所述等待时长符合预设条件时,将所获得的视频作为待识别的手语视频。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:视频保存模块,用于当等待时长不符合预设条件时,则将拍摄所述目标对象所得的视频进行保存,并返回执行所述在拍摄过程中实时检测所述目标对象在切换手势时的等待时长的步骤,直至所述等待时长符合预设条件;
所述手语识别模块,还用于当所述等待时长符合预设条件时,将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。
15.根据权利要求12所述的装置,其特征在于,视频获取模块,还用于当拍摄目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象的手势特征;当检测所得的手势特征符合手势结束端点条件时,将所获得的视频作为待识别的手语视频;当检测所得的手势特征不符合手势结束端点条件时,保存所拍摄的视频,执行所述在拍摄过程中实时检测所述目标对象的手势特征的步骤,直至所述手势特征符合手势结束端点条件;
所述手语识别模块,还用于当所述手势特征符合手势结束端点条件时,将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。
16.根据权利要求12所述的装置,其特征在于,所述特征融合模块,还用于通过当前所述特征提取单元中的二维网络模型,从池化处理后所得的融合特征中提取手势特征;通过当前所述特征提取单元中的三维网络模型提取池化处理后所得的融合特征中的手势变化特征;将所提取的手势特征和手势变化特征进行融合,对所述融合特征进行卷积和池化处理,并通过其它所述特征提取单元中的二维网络模型和三维网络模型分别从池化处理后所得的融合特征中提取手势特征和手势变化特征并进行融合,得到最终的融合特征。
17.根据权利要求12或16所述的装置,其特征在于,所述信息提取模块,还用于将所述融合特征转换成特征向量;在转换所得的特征向量中,分别对连续多帧图像对应的特征向量进行组合得到特征向量分组;分别从各所述特征向量分组中提取手语词信息。
18.根据权利要求17所述的装置,其特征在于,所述信息提取模块,还用于对所述融合特征进行卷积处理;将卷积处理后的融合特征进行全局平均池化操作,得到与所述手语视频中的各帧图像对应的特征向量。
19.根据权利要求12所述的装置,其特征在于,所述手语识别模块,还用于对所述手语词信息进行正向计算和反向计算;将正向计算所得的序列与反向计算所得的序列进行拼接,得到拼接序列;从所述拼接序列中提取句子特征,并根据所述句子特征进行分类;按照分类所得的结果合成手语语句。
20.根据权利要求12所述的装置,其特征在于,所述装置还包括:手语语句显示模块,用于当合成出新手语语句时,在展示的手语识别操作页面中发出提示信息;在历史手语语句从所述手语识别操作页面的第一位置移动至第二位置的过程中,调整所述历史手语语句的呈现方式;所述历史手语语句为所述新手语语句的上一时刻所合成的手语语句;以不同于所述呈现方式的目标呈现方式,将所述新手语语句展示于所述第一位置。
21.根据权利要求12所述的装置,其特征在于,所述手语词信息由长短期记忆网络提取;所述长短期记忆网络的损失函数引入了正则项;所述正则项为:其中,N为总词汇量,Po,n为根据句子特征进行分类时预测第n个词出现的概率,Pc,n为根据词特征确定第n个出现的概率。
22.根据权利要求21所述的装置,其特征在于,所述手语语句通过双向长短期记忆网络合成;所述双向长短期记忆网络采用了连续时序分类损失函数;所述连续时序分类损失函数,用于将与未包含有手语词信息的帧图像对应的手语词标记为空字符,并在合成手语语句时将所述空字符进行删除。
23.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
24.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
说明书 :
手语识别方法、装置、计算机可读存储介质和计算机设备
技术领域
背景技术
群之间的交流存在很大的困难。因此,手语识别技术的出现具有重要意义,可以很好的促进
普通人群与听力障碍的人群之间的交流。
些信息来进行手语的识别。然而,采用上述的手语识别方案,手语识别的准确性较低。
发明内容
从而可以得到手势信息和手势的细微变化信息,当利用手势特征和手势变化特征进行手语
识别时,可以有效地提升手语识别的准确率。从手势特征与手势变化特征之间的融合特征
中提取手语词信息,在确定所提取手语词信息的语境信息时,根据语境信息将所提取的手
语词信息组合成手语语句,从而将词与词之间进行准确有效地组合,有利于提高手语识别
的准确率。
附图说明
具体实施方式
不用于限定本申请。
络连接。该手语识别方法可以由终端110执行,也可以由终端110与服务器120协同执行。当
由终端110执行时,终端110获取待识别的手语视频;从手语视频中的各帧图像中提取手势
特征;提取手语视频中各帧图像的手势变化特征;从手势特征与手势变化特征之间的融合
特征中提取手语词信息;按照手语词信息对应的语境信息,将手语词信息组合成手语语句。
帧图像中提取手势特征;提取手语视频中各帧图像的手势变化特征;从手势特征与手势变
化特征之间的融合特征中提取手语词信息;按照手语词信息对应的语境信息,将手语词信
息组合成手语语句。
头,用于记录手语动作。服务器120可以用独立的服务器或者是多个服务器组成的服务器集
群来实现。
标对象(包括听力障碍、聋哑人和正常人)在使用手语与他人或机器进行交流,或是用户向
他人传递信息(如新闻工作者以手语播报新闻)时所拍摄的视频。手语视频由多个关于手语
的帧图像所组成。
语时的帧图像,将拍摄的帧图像组合成手语视频。当检测在手语识别页面触发的停止操作;
响应于该停止操作,关闭内置摄像头,以停止进行帧图像的拍摄。
识别的过程,即先停止拍摄帧图像。
时检测目标对象在切换手势时的等待时长;当等待时长符合预设条件时,将所获得的视频
作为待识别的手语视频。
至等待时长符合预设条件时,则将当前拍摄目标对象所得的视频和保存的视频作为待识别
的手语视频。
刻储存的帧图像或视频与当前拍摄所得的帧图像一起合成一个手语视频。
征符合手势结束端点条件时,将所获得的视频作为待识别的手语视频;当检测所得的手势
特征不符合手势结束端点条件时,保存所拍摄的视频,执行在拍摄过程中实时检测目标对
象的手势特征的步骤,直至手势特征符合手势结束端点条件时,则将当前拍摄目标对象所
得的视频和保存的视频作为待识别的手语视频。
的帧图像或视频与当前拍摄所得的帧图像一起合成手语视频。
图像中的手势特征,以确定该图像中是否包含有手势特征。终端检测该图像中的人脸特征,
可以是通过人脸特征点的检测方式来检测图像中的人脸特征。
点,37~42表示用户的左眼特征点,43~48表示用户的右眼特征点,49~68表示用户的嘴唇
特征点。需要指出的是,以上仅为示例,在可选实施例中可以在以上脸部特征点中仅识别部
分或更多的特征点,或采用其他方式标记各个特征点,均属于本发明实施例的范畴。
提示。其中,视觉上的提示可以是高亮显示,或弹出提示栏。听觉上的提示可以是发出语音
提示或警报声。其中,视频中包含有人脸特征和手势特征,可以指视频中各帧图像均包含有
人脸特征和手势特征,对不包含人脸特征和/或手势特征的帧图像进行滤除。
含有人脸特征,当检测到人脸特征时,如图3(c)所示,图3(c)的视频中包含有人脸特征,此
时在手语识别页面的人脸检测结果提示框①进行高亮显示,以提示用户该视频中包含有人
脸特征。在拍摄过程中,用户的头部可能未落入显示画面中,即未落入显示区域⑦中,当未
检测到人脸特征时,如图3(b)所示,图3(b)中的视频不包含有人脸特征,此时不会进行高亮
显示。
识别页面的手势检测结果提示框②进行高亮显示,以提示用户该视频中包含有手势特征。
当未检测到手势特征时,如图3(a)所示,图3(a)的视频中虽然包含有人脸特征,但未包含有
手势特征,此时不会进行高亮显示。
维卷积核进行卷积处理,如图5(a),上述卷积步骤可以执行至少一次,从而提取出各帧图像
中的手势特征。其中,二维卷积核大小可以是3×3,步长为1。
而提取出各帧图像中的手势变化特征。例如如图5(b)所示,采用三维卷积核与手语视频中
的每三帧图像进行卷积,得到各帧图像中的手势变化特征。由于三维卷积核中加入时间维
度,在提取特征时,可以得到在时间上手势发生变化的特征。其中,二维卷积核大小可以是3
×3×3,步长为1。
项的表达式为:
然后对相加所得的结果进行求平均,得到融合特征。
征提取单元中的二维网络模型,从手语视频中的各帧图像中提取手势特征。S206具体可以
包括:通过第一个特征提取单元中的三维网络模型,提取手语视频中各帧图像的手势变化
特征。对应地,在S208之前,该方法还可以包括:终端对手势特征与手势变化特征之间的融
合特征进行卷积和池化处理;通过第二个特征提取单元中的二维网络模型,从池化处理后
所得的融合特征中提取手势特征;通过第二个特征提取单元中的三维网络模型提取池化处
理后所得的融合特征中的手势变化特征;将所提取的手势特征和手势变化特征进行融合。
依此类推,通过第三个特征提取单元和第四个特征提取单元,依次对对应融合特征进行特
征提取,得到最终的融合特征。
卷积操作,得到手势特征,其中,2D CNN的卷积核大小为7×7,步长为2,通道数为64。此外,
终端通过第一个特征提取单元中的3D CNN(3 Dimension Convolutional Neural
Network,三维卷积神经网络)对输入的手语视频中的帧图像进行卷积操作,得到手势变化
特征,其中,3D CNN的卷积核大小为3×7×7,步长为2,通道数为64。终端将2D CNN输出的手
势特征与3D CNN输出的手势变化特征进行相加并取平均值,得到第一次融合的融合特征。
接着,终端通过卷积核大小为1×1、步长为1且通道数为64的2D CNN,对第一次融合的融合
特征进行卷积操作,然后再通过最大池化层进行池化操作,并将池化操作之后所得的融合
特征作为第二个特征提取单元的输入。
128。此外,终端通过第二个特征提取单元中的3D CNN对池化操作之后所得的融合特征进行
卷积操作,得到手势变化特征,其中,3D CNN的卷积核大小为3×3×3,步长为1,通道数为
128。终端将第二个特征提取单元中的2D CNN输出的手势特征与3D CNN输出的手势变化特
征进行相加并取平均值,得到第二次融合的融合特征。接着,终端通过卷积核大小为1×1、
步长为1且通道数为128的2D CNN,对第二次融合的融合特征进行卷积操作,然后再通过最
大池化层进行池化操作,并将池化操作之后所得的融合特征作为第三个特征提取单元的输
入。依此类推,得到最终的融合特征。
词信息时,终端可以从多个手语词信息中选取与语境信息对应的手语词信息,然后将所选
取手语词信息进行组合并转换为手语语句。其中,从多个手语词信息中选取与语境信息对
应的手语词信息时,可以选取一个,也可以选取多个。手语语句可以是文字形式的语句,如
图3(c)中的“欢迎来这(这里),很快乐(高兴)认识(见)你”。
体地,S210包括:对手语词信息进行正向计算和反向计算;将正向计算所得的序列与反向计
算所得的序列进行拼接,得到拼接序列;从拼接序列中提取句子特征,并根据句子特征进行
分类;按照分类所得的结果合成手语语句。
的手语词标记为空字符,并在合成手语语句时将空字符进行删除。
x2,...,xn)作为双向长短期记忆网络层各个时间步的输入,再将正向长短期记忆网络层输
出的隐状态序列(h1→,h2→,...,hn→)与反向长短期记忆网络层的隐状态序列(h1←,h2
←,...,hn←),得到完整的隐状态序列。
息,当利用手势特征和手势变化特征进行手语识别时,可以有效地提升手语识别的准确率。
从手势特征与手势变化特征之间的融合特征中提取手语词信息,在确定所提取手语词信息
的语境信息时,根据语境信息将所提取的手语词信息组合成手语语句,从而将词与词之间
进行准确有效地组合,有利于提高手语识别的准确率。
中的各帧图像对应的特征向量。
过卷积核大小为1×1、步长为1且通道数为512的2D CNN,对第四次融合的融合特征对进行
卷积操作,然后在通过全局平均池化层进行池化操作,得到与手语视频中的各帧图像对应
的特征向量。
一般地,一个手语词的持续时间通常在0.5秒左右,因此,每一个元帧可表示一个手语词。
提取手语词信息。具体地,终端通过长短期记忆网络对每个元帧中的信息进行词级别的特
征提取,得到词特征,每一个元帧对应一个词特征(该词特征可以是词特征向量的形式),该
词特征表征了该元帧中的手语词信息。
Pc,n,那么在训练的损失函数中就会增加一项:
向量分组,分别从各特征向量分组中提取手语词信息,从而实现词级别的特征提取,有利于
提高手语识别的准确性。
语语句时,则不会进行高亮显示。
字体大小,从而使历史手语语句的字体在移动位置之后字体变小。或者,呈现方式可以是调
整历史手语语句的字体颜色,从而使历史手语语句的字体在移动位置之后字体颜色发生变
化。又或者是上述两种方式的结合。
④中,将该历史手语语句“欢迎来这(这里)”从A位置移动至B位置。在移动历史手语语句的
过程中,将历史手语语句的字体大小进行调小,即调小“欢迎来这(这里)”的字体大小。其
中,图3(c)的识别结果呈现区域④中,新手语语句的字体最大、且在最后一排(即A位置),该
区域中可以保留最多3条结果。
语句,使显示新手语语句时的字体大小大于历史手语语句时的字体大小。
终展示在特定的位置,且以不同于历史手语语句的呈现方式进行呈现,从而从视觉上将新
手语语句与历史手语语句进行区分,使用户关注到新手语语句。
别和句级别三种级别的网络,具体如下:
为一个窗口,以步长为1从3个帧图像中的第一帧向最后一帧进行滑动,每一个滑动窗口中
的3个帧图像都会进行2种运算,一种是卷积核大小为3×3、且步长为1的2D CNN;另一种是
卷积核大小为3×3×3、且步长为1的3D CNN。在进行上述两种运算后,均得到一组维度相同
的特征(feature),最后对这两组特征进行求和以及求平均,得到融合特征。
卷积核大小为1×1的2D CNN,以及一个窗口大小为2×2的最大池化层。视频帧级别的最后,
通过全局平均池化层(global average pooling)将每个特征压缩为一个值,当全局平均池
化层总共有512个通道数,从而每个帧图像对应得到一个元素个数为512的特征向量。
频中每一个帧图像的信息,12个特征向量约等于0.5秒的视频播放时间,一般地,一个手语
词的持续时间通常在0.5秒左右,因此每个元帧可以表示一个手语词。
一个词特征(该词特征可以是词特征向量的形式),该词特征表征了该元帧中的手语词信
息。
个出现的概率是Pc,n,那么在训练的损失函数中就会增加一项:
LSTM网络对词级别的所有词特征进行前向计算和后向计算,从而实现在两个序列方向上进
行信息整合,这样充分考虑了上下文的语境信息。通过Bi‑LSTM网络之后,将得到一系列句
特征,这些句特征则会被用来进行分类以及得到最后的结果(即得到对应的手语语句)。
符,这个字符在最后的输出中会被删去,同时最后输出时相邻的重复输出也会被删去。
续的手势检测。
确率为63.9%(传统方案的准确率为61.7%)。
特地停顿或者设置开始、结束手势,可以自动识别出开始和结束手势。
示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这
些步骤可以以其它的顺序执行。而且,图2、7‑8中的至少一部分步骤可以包括多个子步骤或
者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时
刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者
其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
1108和手语识别模块1110;其中:
换手势时的等待时长;当等待时长符合预设条件时,将所获得的视频作为待识别的手语视
频。
步骤,直至等待时长符合预设条件;
手势特征符合手势结束端点条件时,将所获得的视频作为待识别的手语视频;当检测所得
的手势特征不符合手势结束端点条件时,保存所拍摄的视频,执行在拍摄过程中实时检测
目标对象的手势特征的步骤,直至手势特征符合手势结束端点条件;
维网络模型,从池化处理后所得的融合特征中提取手势特征;通过三维网络模型提取池化
处理后所得的融合特征中的手势变化特征;将所提取的手势特征和手势变化特征进行融
合,迭代执行预设次数对手势特征与手势变化特征之间的融合特征进行卷积和池化处理的
步骤,获得经过迭代预设次数后所得的融合特征。
中提取句子特征,并根据句子特征进行分类;按照分类所得的结果合成手语语句。
帧图像对应的手语词标记为空字符,并在合成手语语句时将空字符进行删除。
息,当利用手势特征和手势变化特征进行手语识别时,可以有效地提升手语识别的准确率。
从手势特征与手势变化特征之间的融合特征中提取手语词信息,在确定所提取手语词信息
的语境信息时,根据语境信息将所提取的手语词信息组合成手语语句,从而将词与词之间
进行准确有效地组合,有利于提高手语识别的准确率。
向量进行组合得到特征向量分组;分别从各特征向量分组中提取手语词信息。
视频中的各帧图像对应的特征向量。
向量分组,分别从各特征向量分组中提取手语词信息,从而实现词级别的特征提取,有利于
提高手语识别的准确性。
程中,调整历史手语语句的呈现方式;历史手语语句为新手语语句的上一时刻所合成的手
语语句;以不同于呈现方式的目标呈现方式,将新手语语句展示于第一位置。
终展示在特定的位置,且以不同于历史手语语句的呈现方式进行呈现,从而从视觉上将新
手语语句与历史手语语句进行区分,使用户关注到新手语语句。
理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储
器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机
程序被处理器执行时,可使得处理器实现手语识别方法。该内存储器中也可储存有计算机
程序,该计算机程序被处理器执行时,可使得处理器执行手语识别方法。计算机设备的显示
屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的
触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、
触控板或鼠标等。
备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该手语识别装置的各个程序模块,比如,图11所示的视频获取模块1102、第一特征提取模块
1104、第二特征提取模块1106、词信息提取模块1108和手语识别模块1110。各个程序模块构
成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的手语识别方法中
的步骤。
过第二特征提取模块1106执行S206。计算机设备可通过词信息提取模块1108执行S208。计
算机设备可通过手语识别模块1110执行S210。
语识别方法的步骤可以是上述各个实施例的手语识别方法中的步骤。
可以是上述各个实施例的手语识别方法中的步骤。
存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供
的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性
和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编
程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器
(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM
(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM
(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直
接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
盾,都应当认为是本说明书记载的范围。
来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保
护范围。因此,本申请专利的保护范围应以所附权利要求为准。