会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 无声语音识别方法及智能耳机系统

无声语音识别方法及智能机系统

申请号 CN202311632758.2 申请日 2023-12-01 公开(公告)号 CN117746843A 公开(公告)日 2024-03-22
申请人 西北大学; 发明人 陈晓江; 孙雪; 李秉昊; 李晓慧; 王安文; 房鼎益;
摘要 本 申请 涉及一种无声 语音识别 方法及智能 耳 机系统,方法包括获取经人体耳道反射的 声波 数据;声 波数 据携带无声语音信息;对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;提取干扰消除后的声波数据中的有效数据;基于有效数据提取传递函数特征和连续 小波变换 特征;将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果。本申请无需额外的设备,利用低廉的具有麦克 风 的耳机就可以实现用户无声语音识别,降低无声语音识别的成本;通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。
权利要求

1.一种无声语音识别方法,其特征在于,包括:
获取经人体道反射的声波数据;所述声波数据携带无声语音信息;
对所述声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;
提取所述干扰消除后的声波数据中的有效数据;
基于所述有效数据提取传递函数特征和连续小波变换特征;
将所述传递函数特征和所述连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果;所述无声语音识别模型包括递归神经网络卷积神经网络、融合层和softmax层;
所述递归神经网络用于对所述传递函数特征进行特征提取,得到第一特征;所述卷积神经网络用于对所述连续小波变换特征进行特征提取,得到第二特征;所述融合层用于将所述第一特征和所述第二特征进行融合,得到融合特征;所述softmax层用于基于所述融合特征,输出无声语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述对所述声波数据进行耳机自干扰消除,包括:
在所述声波数据中去除直接路径的干扰信号,得到自干扰消除后的声波数据。
3.如权利要求1所述的方法,其特征在于,所述提取所述干扰消除后的声波数据中的有效数据,包括:
对所述干扰消除后的声波数据进行清洗、去噪,并进行分割操作,得到多个数据片段
对所述多个数据片段进行峰值提取,得到多个峰值数据片段;对所述多个峰值数据片段采用SVDD方法,确定语音引起的数据片段,作为有效数据。
4.如权利要求1所述的方法,其特征在于,基于所述有效数据提取传递函数特征和连续小波变换特征,包括:
利用传递函数提取所述传递函数特征;利用连续小波变换方法提取所述连续小波变换特征。
5.如权利要求1所述的方法,其特征在于,所述递归神经网络包括卷积层Conv1D、输入层隐藏层
6.如权利要求1所述的方法,其特征在于,所述卷积神经网络包括填充层Padding、卷积层Conv2 D、批归一化层、Relu层、多个残余瓶颈层和全局平均池化层GAP。
7.一种无声语音识别装置,其特征在于,包括:
声波数据获取模,用于获取经人体耳道反射的声波数据;所述声波数据携带无声语音信息;
自干扰消除模块,用于对所述声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;
有效数据提取模块,用于提取所述干扰消除后的声波数据中的有效数据;
特征提取模块,用于基于所述有效数据提取传递函数特征和连续小波变换特征;
识别模块,用于将所述传递函数特征输入到递归神经网络进行特征提取,得到第一特征;将所述连续小波变换特征输入到卷积神经网络进行特征提取,得到第二特征;将所述第一特征和所述第二特征进行融合,得到融合特征;将所述融合特征输入到softmax层,输出无声语音识别结果。
8.一种智能耳机系统,其特征在于,包括扬声器、麦克模数转换设备、后端服务设备;所述后端服务设备包括数据采集模块和数据处理模块;
所述扬声器用于向人体耳道发射带有PN前导码的声波信号;
所述麦克风用于接收经人体耳道反射的声波信号,并发送至所述模数转换设备;
所述模数转换设备用于将所述经人体耳道反射的声波信号转换为数字信号,并发送至所述后端服务器
所述数据采集模块用于控制所述扬声器和所述麦克风进行信号的发射和接收;
所述数据处理模块用于执行权利要求1‑6任意一项所述的无声语音识别方法。

说明书全文

无声语音识别方法及智能机系统

技术领域

[0001] 本申请涉及无线感知技术领域,具体地,涉及一种无声语音识别方法及智能耳机系统。

背景技术

[0002] 语音交互在日常生活中扮演着极其重要的色。语音通信是最便捷的交互方法,并且与其他常见的交互方案(如打字和手势等)相比,语音具有更高的效率。根据研究,说话比在触摸屏上打字要快大约四倍,并且语音交互不会受照明等条件的影响。语音信号的主要载体是人的声音,但在某些情况下,例如在会议或者嘈杂的环境中,是无法发声或者会影响语音交流的效率。或者是对于障碍人群,如聋哑人难以使用语音与外界交流。现有研究利用无声语音识别(SSR)技术,作为这些场景中的替代方案,SSR允许用户以无声的方式与人或设备进行通信。用户只需做出嘴型而不用实际发出声音,语音信息就可以通过各种SSR技术被获取。
[0003] 目现SSR技术主要分为两类,基于接触的方法和无接触的方法。具体而言,基于接触的方法需要将传感器(脑电图电极肌电图电极)连接到人体,但这种方法是侵入性的,因此在许多现实场景中都不够便捷。而无接触方法大多数是通过摄像头或者无线信号来捕捉口腔和声道的运动从而识别无声语音。例如一些发明设计利用手机发送的声学信号来获取由嘴巴运动引起的多普勒频移,从而实现无声语音识别。不过,虽然嘴唇的运动很容易捕获,但是舌头的运动却很难获得,而舌头的运动对识别无声语音是非常重要的。此外,这种方法需要将手机放在用户的嘴巴前面,以确保信号可以从嘴巴反射出来。
[0004] 综上所述,对于现有的无声语音识别方法,主要存在使用不方便以及不能进行细粒度识别的问题,这些问题将会导致用户很难在现实情形下进行无声语音交流。

发明内容

[0005] 为了克服现有技术中的至少一个不足,本申请提供一种无声语音识别方法及智能耳机系统。
[0006] 第一方面,提供一种无声语音识别方法,包括:
[0007] 获取经人体耳道反射的声波数据;声波数据携带无声语音信息;
[0008] 对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;
[0009] 提取干扰消除后的声波数据中的有效数据;
[0010] 基于有效数据提取传递函数特征和连续小波变换特征;
[0011] 将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果;无声语音识别模型包括递归神经网络卷积神经网络、融合层和softmax层;
[0012] 递归神经网络用于对传递函数特征进行特征提取,得到第一特征;卷积神经网络用于对连续小波变换特征进行特征提取,得到第二特征;融合层用于将第一特征和第二特征进行融合,得到融合特征;softmax层用于基于融合特征,输出无声语音识别结果。
[0013] 在一个实施例中,对声波数据进行耳机自干扰消除,包括:
[0014] 在声波数据中去除直接路径的干扰信号,得到自干扰消除后的声波数据。
[0015] 在一个实施例中,提取干扰消除后的声波数据中的有效数据,包括:
[0016] 对干扰消除后的声波数据进行清洗、去噪,并进行分割操作,得到多个数据片段;对多个数据片段进行峰值提取,得到多个峰值数据片段;对多个峰值数据片段采用SVDD方法,确定语音引起的数据片段,作为有效数据。
[0017] 在一个实施例中,基于有效数据提取传递函数特征和连续小波变换特征,包括:
[0018] 利用传递函数提取传递函数特征;利用连续小波变换方法提取连续小波变换特征。
[0019] 在一个实施例中,递归神经网络包括卷积层Conv1D、输入层隐藏层
[0020] 在一个实施例中,卷积神经网络包括填充层Padding、卷积层Conv2 D、批归一化层、Relu层、多个残余瓶颈层和全局平均池化层GAP。
[0021] 第二方面,提供一种无声语音识别装置,包括:
[0022] 声波数据获取模,用于获取经人体耳道反射的声波数据;声波数据携带无声语音信息;
[0023] 自干扰消除模块,用于对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;
[0024] 有效数据提取模块,用于提取干扰消除后的声波数据中的有效数据;
[0025] 特征提取模块,用于基于有效数据提取传递函数特征和连续小波变换特征;
[0026] 识别模块,用于将传递函数特征输入到递归神经网络进行特征提取,得到第一特征;将连续小波变换特征输入到卷积神经网络进行特征提取,得到第二特征;将第一特征和第二特征进行融合,得到融合特征;将融合特征输入到softmax层,输出无声语音识别结果。
[0027] 第三方面,提供一种智能耳机系统,包括扬声器、麦克模数转换设备、后端服务设备;后端服务设备包括数据采集模块和数据处理模块;
[0028] 扬声器用于向人体耳道发射带有PN前导码的声波信号;
[0029] 麦克风用于接收经人体耳道反射的声波信号,并发送至模数转换设备;
[0030] 模数转换设备用于将经人体耳道反射的声波信号转换为数字信号,并发送至后端服务器
[0031] 数据采集模块用于控制扬声器和麦克风进行信号的发射和接收;
[0032] 数据处理模块用于执行上述的无声语音识别方法。
[0033] 相对于现有技术而言,本申请具有以下有益效果:
[0034] 1、无需额外的设备,利用低廉的具有麦克风的耳机就可以实现用户无声语音识别,降低无声语音识别的成本。
[0035] 2、通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。
[0036] 3、去除运动状态干扰和硬件自干扰,并对语音诱导信号和非语音诱导信号进行区分,使无声语音识别功能更加鲁棒。附图说明
[0037] 本申请可以通过参考下文中结合附图所给出的描述而得到更好的理解,附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中:
[0038] 图1示出了根据本申请实施例的智能耳机系统的结构示意图;
[0039] 图2示出了声波信号的时域表示;
[0040] 图3示出了声波信号的频域表示;
[0041] 图4示出了根据本申请实施例的无声语音识别方法的流程框图
[0042] 图5示出了无声语音识别模型的结构示意图;
[0043] 图6示出了根据本申请实施例的无声语音识别装置的结构框图;
[0044] 图7示出了对于字母级的无声语音识别方法的准确性示意图;
[0045] 图8示出了对于单词级的无声语音识别方法的准确性示意图;
[0046] 图9示出了不同特征的融合对识别性能的影响的实验结果图;
[0047] 图10示出了本申请的网络模型与现有模型的识别性能对比图;
[0048] 图11示出了对不同目标的字母和单词的识别性能示意图;
[0049] 图12示出了数据扩充方法后对字母级数据集的影响示意图;
[0050] 图13示出了数据扩充方法后对单词级数据集的影响示意图;
[0051] 图14示出了环境噪声对识别方法性能的影响示意图;
[0052] 图15示出了在耳机插入不同深度时的识别性能示意图;
[0053] 图16示出了在耳机插入不同角度时的识别性能示意图;
[0054] 图17示出了在不同身体活动下的识别性能示意图;
[0055] 图18示出了采用增量学习后训练时间大大减少的示意图;
[0056] 图19示出了采用增量学习后对识别精度的影响示意图;
[0057] 图20示出了在播放音乐时的识别性能示意图。

具体实施方式

[0058] 在下文中将结合附图对本申请的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
[0059] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的装置结构,而省略了与本申请关系不大的其他细节。
[0060] 应理解的是,本申请并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
[0061] 本申请提供一种无声语音识别方法及智能耳机系统,首次利用最常见的可穿戴耳机设备来实现无声语音识别。其基本原理是当一个人说话时,即使没有发声,他/她的耳道也会产生形变,这种形变与字母和单词是有特定的联系的,利用耳机来感知无声说话引起的耳道形变,从而实现了一种新的无声语音识别系统。本申请可以应用在任何一款集成有扬声器和麦克风的入耳式耳机上,该系统能够实现耳机智能化,充分利用已有的设备;其次,采用最小代价的硬件改造,合理范围内的声音信号不会对人体的健康产生损害,保障用户的健康。最后,该系统兼顾了便携性和用户的高可控性。
[0062] 图1示出了根据本申请实施例的智能耳机系统的结构示意图,参见图1,系统包括扬声器、麦克风、模数转换设备、后端服务设备;后端服务设备包括数据采集模块和数据处理模块;以下对各个模块的具体实现功能进行介绍。
[0063] 扬声器用于向人体耳道发射带有PN前导码的声波信号;这里,扬声器不间断的发送带有PN前导码的16kHz‑22kHz的FMCWChirp线性调频声波信号。图2示出了声波信号的时域表示,图3示出了声波信号的频域表示,前导码在一次检测只出现一次,用于同步信号。每个FMCWChirp线性调频声波信号以10毫秒为一个周期,声波经过耳道结构和轮廓反射后,再回传到麦克风中。采集信号时,采样率为48kHz,因此一个周期为480个数据点。
[0064] 麦克风用于接收经人体耳道反射的声波信号,并发送至模数转换设备;
[0065] 模数转换设备用于将经人体耳道反射的声波信号转换为数字信号,并发送至后端服务器;
[0066] 数据采集模块用于控制扬声器和麦克风进行信号的发射和接收;
[0067] 数据处理模块用于对接收到的经模数转换设备转换为数字信号的经人体耳道反射的声波信号(以下称为经人体耳道反射的声波数据)进行处理以实现无声语音识别。
[0068] 以下详细介绍数据处理模块的具体实现方式,图4示出了根据本申请实施例的无声语音识别方法的流程框图,该方法应用于数据处理模块,无声语音识别方法包括以下步骤:
[0069] 步骤S1,获取经人体耳道反射的声波数据;声波数据携带无声语音信息。
[0070] 步骤S2,对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据。
[0071] 这里,麦克风置于扬声器前端,麦克风接收到的声波数据中包括扬声器到麦克风的直接路径信号,会淹没无声语音产生的峰值,因此,需要消除直接路径影响,即进行耳机自干扰消除。具体可以为在声波数据中去除直接路径的干扰信号,得到自干扰消除后的声波数据。这里,直接路径的干扰信号为扬声器发射的声波信号,在进行上述操作之前,基于前导码将接收信号和发射信号进行时钟同步。
[0072] 前导码是最先发送的一段特殊信号,其使用与探测信号不同的参数,避免与探测信号混淆。前导码的最主要的作用是标定信号的开始位置,在后续的特征处理步骤中提供时间上的同步和对齐。这里,采用了19~23kHz的10个500采样点的下变频信号(DownChirp)作为前导码的波形,每个波形间隔也为500采样点,前后再增加96ms的间隔便于前导码探测。该前导码有良好的自相关和交叉相关性,这意味着该信号与其他信号和噪声信号有着高度的差异,这有助于检测信号的开始,并估计时间的偏移,从而保证两侧接收到的信号在时间上的对齐。
[0073] 步骤S3,提取干扰消除后的声波数据中的有效数据。
[0074] 具体地,对干扰消除后的声波数据进行清洗、去噪,并进行分割操作,得到多个数据片段;对多个数据片段进行峰值提取,得到多个峰值数据片段;对多个峰值数据片段采用SVDD方法,确定多个语音引起的数据片段,作为有效数据。
[0075] 这里,首先,由于可能存在耳机的麦克风慢启动,耳机还没有开始工作,未能接收到数据,这样的数据整体都会滞后半个周期左右,部分数据不完全,这属于错误数据,对识别有很大影响,应舍弃或补全数据。然后,在数据采集前期,数据噪声很大,变化非常明显,这种变化是由系统引起,并不适合用于识别。在数据平稳后,相邻周期之间的区别很小,含有的特征信息不足。基于以上的两个原因,采取消除直流分量带通滤波,选取数据噪声较小、变化相较平稳的中间数据段。
[0076] 步骤S4,基于有效数据提取传递函数(TF)特征和连续小波变换(CWT)特征。
[0077] 这里,利用传递函数提取传递函数特征,可以采用以下公式:
[0078]
[0079] 其中,H(f)为传递函数特征,psd为功率谱密度,y(t)为接收信号,即有效数据,x(t)为发射信号。
[0080] 利用连续小波变换方法提取连续小波变换特征,可以采用以下公式:
[0081]
[0082] 其中,CWT为连续小波变换特征,f(t)为信号函数,Wφ,τ(t)是小波基函数,φ和τ分别表示频域和时域的分辨率,t表示时间。
[0083] 小波基函数会影响小波变换的结果。这里应用广义莫尔斯小波作为小波基函数,因为它在低频和时域中具有高分辨率。可以发现,对于不同的对象,同一单词的CWT特征是相似的。它说明提取的特征反映了说话引起的耳道形变,且不受耳道结构的影响。因此,可以利用此功能来帮助消除由不同耳道结构引起的特征变化。
[0084] 虽然不同单词的TF特征显著不同而相同单词的TF特征高度相同,但是由于人耳结构的不同,每个人的TF特征也有所差别,仅用TF特征很容易导致无声语音识别误报,因此为增强无声语音识别的鲁棒性,本申请采用独立于耳道结构的细粒度耳道形变特征连续小波变换(CWT)作为补充。
[0085] 在此说明连续小波变换和传递函数特征之间的差异。TF特征表征的是不同频率的信道响应,即不同载波频率上的信号功率分布。它取决于耳道的几何形状,因此可以反映由说话引起的耳道形变。而CWT描述了信号在不同时间戳和不同频率下的功率。这里,在去除载波频率后执行CWT操作,因此获得的CWT特征表征了由语音引起的耳道振动特性,该特性依赖于语音并且独立于耳道。可以看到,传递函数和连续小波变换特征包含耳道形变的不同方面。
[0086] 步骤S5,将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果;无声语音识别模型包括递归神经网络、卷积神经网络、融合层和softmax层;
[0087] 递归神经网络用于对传递函数特征进行特征提取,得到第一特征;卷积神经网络用于对连续小波变换特征进行特征提取,得到第二特征;融合层用于将第一特征和第二特征进行融合,得到融合特征;softmax层用于基于融合特征,输出无声语音识别结果。这里,无声语音识别结果包括输出的无声语音属于不同词的概率。
[0088] 这里,利用用户无声语音识别模块的神经网络模型,融合上述两个特征,以实现无声语音识别的高鲁棒性和高精度。上述两个特征具有不同的维度,且包含不同的信息,其中TF特征是1D向量,侧重于单词的唯一性,而CWT特征是3D图像,侧重于求解耳道结构的不一致,这两个特征可以用来描述同一个词,并提供彼此互补的信息。
[0089] 具体来说,在向量特征上应用递归神经网络(RNN),它在自然语言处理(NLP)和语音识别方面具有优良的性能。因此,本研究将RNN模型应用于TF特征,以获取序列数据中的长期依赖关系。然后应用卷积神经网络(CNN)从CWT特征中提取信息,其对提取图像特征具有很高的性能。最后,将来自两个通道的上层特征连接起来进行识别,有效避免了直接串联造成的模态混淆。
[0090] 在一个实施例中,图5示出了无声语音识别模型的结构示意图,参见图5,递归神经网络包括卷积层Conv1D、输入层和隐藏层。TF特征输入到卷积层Conv1D中进行卷积操作,然后经过输入层、隐藏层,隐藏层中选择控递归单元(GRU)作为基本单元,包括用于捕获序列中依赖关系的更新门和重置门,并输出提取的特征。
[0091] 卷积神经网络包括填充层Padding、卷积层Conv2 D、批归一化层、Relu层、多个残余瓶颈层和全局平均池化层GAP。这里,残余瓶颈层可以设置17个,在每个瓶颈中应用注意块,并在注意力块上添加最大池化权重,可以自动学习将更多注意力集中在有用的特征区域上。为了增强网络从图像中提取细粒度特征的能力,可以在瓶颈块上添加了两个通道注意力块。然后利用全局平均池化层(GAP)输出提取的特征。
[0092] 在一个实施例中,无声语音识别模型为训练后的模型,模型训练过程中的损失函数L(W)为:
[0093]
[0094] 其中,Nb为批处理的大小,i为样本标号,yi样本i的类别标签, 样本i的预测结果,k为超参数,R为正则化过程。
[0095] 这里,在批处理的大小为80的训练集上训练模型,并利用初始学习率为0.001的adam优化器来最小化损失函数。
[0096] 基于与无声语音识别方法相同的发明构思,本实施例还提供与之对应的无声语音识别装置,图6示出了根据本申请实施例的无声语音识别装置的结构框图,装置包括:
[0097] 声波数据获取模块61,用于获取经人体耳道反射的声波数据;声波数据携带无声语音信息;
[0098] 自干扰消除模块62,用于对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;
[0099] 有效数据提取模块63,用于提取干扰消除后的声波数据中的有效数据;
[0100] 特征提取模块64,用于基于有效数据提取传递函数特征和连续小波变换特征;
[0101] 识别模块65,用于将传递函数特征输入到递归神经网络进行特征提取,得到第一特征;将连续小波变换特征输入到卷积神经网络进行特征提取,得到第二特征;将第一特征和第二特征进行融合,得到融合特征;将融合特征输入到softmax层,输出无声语音识别结果。
[0102] 本实施例的无声语音识别装置与上文的无声语音识别方法具有相同的发明构思,因此该装置的具体实施方式可见前文中的无声语音识别方法的实施例部分,且其技术效果与上述方法的技术效果相对应,这里不再赘述。
[0103] 为了体现本申请的便利性和普适性,给出了以下实验验证本申请方法的有效性。
[0104] 使用PC作为声波模数转换设备和后端服务设备,应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本实验应用中包括用户、PC、入耳式耳机。耳机中的麦克风和扬声器构成声学感知设备一组声信号收发节点。PC作为声波模数转换设备和后端服务设备,配置信号,接收并转换耳机采集的信号用于分析。
[0105] 具体的操作过程:服务端控制耳机扬声器发送声波信号,耳机麦克风接收反射信号,通过模数转换设备发送给后端服务设备,进行滤波去噪等预处理操作。对预处理后的信号进行时钟同步并去除自干扰,计算传递函数特征和CWT特征,并将其通过设计的无声语音识别模型中进行特征融合,通过训练好的模型进行用户无声语音识别,并将结果在PC展示,从而实现用户无声语音的识别。
[0106] 1、用户无声语音识别方法性能实验
[0107] 实验总共招募了50名志愿者(36名男性和14名女性,年龄在18至57岁之间),在这些志愿者中,3名志愿者以英语为母语,5名志愿者主修广播和主持,并接受过流利的英语口语发音训练,3名志愿者不经常使用英语,其余为非英语母语人士,能流利说英语。在实验的过程中,要求用户紧紧佩戴耳机,以减少耳机移动的问题。本申请希望可以对日常生活中隐私信息和常用人机交互及沟通语音进行无声识别,因此收集了两种无声语音数据集:字母级数据集和单词级数据集。字母级数据集是26个字母组成,单词级数据集是由50个单词和短语组成,主要可分为六组(即10个数字、11个交互命令、3个语音助手命令、8个导航命令、6个隐私词、和12个高频词)。在实验中会要求每位志愿者在进行下一组实验之前摘下耳机重新进行佩戴,来模拟日常生活中佩戴耳机的行为。然后将收集到的数据按照60%、20%、20%的比例分为训练集、验证集、测试集,并对训练集执行十倍的数据扩充。
[0108] 图7示出了对于字母级的无声语音识别方法的准确性示意图,根据附图7的混淆矩阵可以看到,26个字母的整体识别准确率约为82%。事实上,实现字母级识别具有挑战性,因为字母的音节较少,而且有些字母具有相似的嘴巴动作(即“e”和“g”、“s”和“x”等)。但实验发现对于某些字母也可以达到100%的识别准确率。因此,实验结果证明了本申请方法的有效性。图8示出了对于单词级的无声语音识别方法的准确性示意图,根据附图8混淆矩阵所示,50个单词和短语的整体识别准确率约为93%,高于字母级结果。实验发现一些单词的识别准确率为100%,证明了所提方法的有效性。为了从语言学的角度进一步评估系统的性能,可以将单词分为单音节、双音节和多音节,单词量平均准确率如表1所示。可以发现,多音节单词比单音节和双音节单词具有更高的准确性。这是因为多音节词需要更丰富、更复杂的口舌运动,带来更丰富的耳道形变特征来提高识别性能。因此本申请的声音信号用户无声语音识别方法具有很高的识别精度。
[0109] 表1
[0110]
[0111] 2、特征融合和网络结构对性能的消融实验
[0112] 为验证本申请提出的特征融合方法和网络结构模型(SsrNet)可以正确的提高无声语音识别性能,对此进行一系列消融实验。
[0113] 对特征融合具体来说,首先将CWT缩写为“A”,将TF缩写为“B”,并设计了五种不同的策略来评估特征融合的性能:(1)将CNN应用于A,表示为“CNN(A)”;(2)将RNN应用于B,表示为“RNN(B)”;(3)直接合并:将RNN应用于两个特征,表示为“RNN(A+B)”;(4)直接合并:将CNN应用于两个特征,表示为“CNN(A+B)”;(5)本文设计的SsrNet。图9示出了不同特征的融合对识别性能的影响的实验结果图。当仅采用CWT特征或仅采用TF特征时,达到的精度分别约为60%和75%。此外,“RNN(A+B)”的识别性能甚至比单独应用一个特征“RNN(B)”还要差。利用RNN网络的原始串联精度低于75%。这表明RNN网络没有很好地融合这两个特征。此外,还可以看到应用“CNN(A+B)”比“CNN(A)”更有效。但精度也在80%左右。最后,SsrNet展现了惊人的结果,精度接近95%。结果表明,本申请所提出的SsrNet可以有效地结合TF和CWT特征,以实现更高的识别精度。
[0114] 对网络结构来说,在SsrNet中第一个通道是CNN网络,用于从图像中提取特征。但是目前还有很多其他优秀的CNN网络在图像分类和语音识别方面表现出高精度。因此,基于五种不同的网络结构(即mobileNet V1、mobileNet V2、VGG‑16、VGG‑19和ResNet‑50)对本申请的模型的性能进行评估。实验使用50个单词的数据集对五个预训练的CNN网络进行微调。用精度、F1分数和参数量来评估五个网络的性能。每个网络结构训练3次,每次进行200个epoch调整网络以确保收敛。图10示出了本申请的网络模型与现有模型的识别性能对比图,可以发现设计的SsrNet优于所有其他网络。不过由于VGG‑16也具有大约90%的准确率,因此再次比较这五个网络的参数,如表2所示。可以发现SsrNet(244万个参数)比VGG‑16(1471万个参数)更容易训练。因此,本申请提出的网络模型是一个可以部署在移动设备上的轻量级网络,并在性能上也要优于绝大多数的网络模型。
[0115] 表2
[0116]
[0117] 3、不同影响下系统的鲁棒性验证实验
[0118] 本申请的用户无声语音识别方法可以使得大多数用户直接使用,而不需要再重新训练网络。本实验使用从40名测试者收集的数据来训练模型,然后将训练后的模型应用于10名新测试者(41‑50)。图11示出了对不同目标的字母和单词的识别性能示意图,本申请在新用户身上取得了不错的效果。单词级和字母级数据集的平均准确率分别高于80%和
90%。因此证明本申请提出的用户无声语音识别方法可以很好的推广到新用户而不需要再训练所有用户。
[0119] 本申请的数据扩充方法在丰富数据集的同时不影响识别精度。本实验扩充的倍率从0到20倍变化,步长为5。图12示出了数据扩充方法后对字母级数据集的影响示意图,图13示出了数据扩充方法后对单词级数据集的影响示意图。x轴表示训练数据集的大小增加的比率。可以发现,在没有数据扩充的情况下,字母级和单词级数据集的精度分别仅为60%和75%左右。随着扩展因子的增加,识别精度首先增加,然后10倍后趋于稳定。原因是数据扩充通过生成更多的训练样本来提高本系统对不同数据的泛化能力。此外,可以发现10倍数据扩充对于提高本申请的识别性能最有效。如果数据扩充比例增加到超过10倍,准确率趋于稳定甚至下降。这是因为大量生成的样本被引入训练集中并扰乱了真实的数据分布。因此,最终以10倍扩充率进行数据扩充,这意味着样本数量比原始数据集增加了10倍。因此本申请的数据扩充方法可以通过生成更多的训练数据来有效提高系统性能并避免模型过拟合,同时提高本申请针对数据多样性的泛化能力。
[0120] 本申请的智能耳机系统可以在不同的环境下进行工作,因此本实验评估了本申请在不同噪声环境下的性能,选择四种具有不同噪音平的环境,分别为58dB、67dB、73dB和86dB。图14示出了环境噪声对识别方法性能的影响示意图,可以观察到各种噪声环境对本申请性能的影响有限。因此可以说明本申请可以在不同环境甚至高噪声环境中工作。
[0121] 本申请的智能耳机系统可以适应不同用户的佩戴习惯,在实验中,可以发现即使当耳机插入较浅时,性能下降也是有限的。这是因为实验的耳机配备了海绵耳塞,因此即使插入浅,耳机的移动也受到限制。此外,还进行实验收集了取下海绵耳塞并浅插入耳机时的测量结果。图15示出了在耳机插入不同深度时的识别性能示意图。可以看到,在没有海绵耳塞限制耳机运动的浅插条件下,准确率从93%下降到72%。当耳机紧紧佩戴时,移动的机会就会小得多。因此,为了减轻说话时耳机移动的影响,实际使用时最好将耳机插入较深的位° ° °置,并为耳机配备海绵/胶耳塞。此外,本实验还评估了三个耳机佩戴角度(0,90,180)。
° ° °
与之前相同,耳机放置在耳朵最舒适的角度,定义为0 ,然后逆时针旋转90 和180 。图16示出了在耳机插入不同角度时的识别性能示意图,即使耳机佩戴角度发生明显变化,本申请也能很好地区分单词。因此本申请在配有耳塞的情况下,耳机佩戴深度和角度的各种偏好不会导致本申请的性能明显恶化。
[0122] 本申请的智能耳机系统可以在用户做不同活动以及佩戴口罩时候依然可以提供良好的识别性能。因此实验对本申请在不同身体状态下进行鲁棒性测试:静态(不带面罩),静态(带面罩),手部运动(手臂抬起并向左和左右摆动),行走(在跑步机上以2km/h的速度)和头部运动(左右摇头)。使用单词级数据集上的预训练模型测试准确性。图17示出了在不同身体活动下的识别性能示意图,可以发现静态(带面罩)、手部运动和行走对本申请性能的影响有限。但头部运动对系统性能有轻微影响,这是由于头部运动也会改变耳道结构,导致算法会错过一些语音(假阴性)并造成识别召回率降低。因此本申请可以将其他传感器(如加速度计)与耳机相结合,并利用更细粒度的特征提取来提高本申请在各种使用场景下的鲁棒性。
[0123] 本申请对于用户进行的语音动作和非语音动作进行区分,以此进行正确的无声语音识别而不是误测。因此本实验评估系统区分语音诱导和非语音诱导(即由头部运动和嘴部运动引起)耳道形变的性能。为了收集非语音诱导的耳道形变数据,实验中要求志愿者从左到右摇头,或张开和闭上嘴巴。在此过程中,志愿者不发言。训练集由50%的语音诱导数据和50%的非语音诱导数据组成。剩下的作为测试集。对语音诱导形变检测的准确率如表3所示。可以发现,95.08%的语音诱导耳道形变事件被正确检测。因此本申请可以有效地检测语音引起的事件。
[0124] 表3
[0125]
[0126] 本申请的智能耳机系统可以在快速学习新单词并保证整体系统的识别性能处于较高的水准。因此本实验评估了所提出的增量学习算法对新单词的有效性。首先通过十个单词的训练数据来初始化本模型。然后,添加各种数量的新单词(1到5)来评估系统性能,包括是否应用增量学习方法。图18示出了采用增量学习后训练时间大大减少的示意图,图19示出了采用增量学习后对识别精度的影响示意图,图18表示了学习模型的训练时间,这表明增量学习方法显著节省了训练时间。图19显示了不同数量新单词的平均识别精度,增量学习的准确率始终在97%以上,与没有使用增量学习的准确率相当。因此,本申请提出的增量学习算法可以大大降低训练成本并保持较高的识别精度。
[0127] 本申请的用户无声语音识别方法可以在不影响用户正常使用耳机的前提下,实现无声语音识别功能。实验要求志愿者用字母级数据库和单词级数据库进行无声语音实验,同时志愿者使用相同的耳机听音乐。图20示出了在播放音乐时的识别性能示意图。可以观察到本申请在字母级数据集上的精度超过80%和在单词级数据集上的精度超过90%。这与基准测试结果基本相同。这是因为本申请传输的FMCW信号为16kHz‑22kHz,高于音乐(低于10kHz)。音乐被带通滤波器滤除。因此,本申请在耳机中播放音乐时不会影响识别性能。
[0128] 4、系统代价与系统时延实验
[0129] 本实验将通过时间成本来评估本申请的用户体验。本申请在Samsung Galaxy S5上设计了一个应用程序,并使用主机(CPU为AMD Ryzen 7 5800X、32GB内存、GPU为Nvidia TITAN Xp)作为服务器。该应用程序用于数据收集和结果输出。特征提取模块和SsrNet模型在服务器上实现。运行时间定义为用户完成输入和本申请向用户输出结果之间的时间差。本申请的运行时间主要由三部分组成,即数据处理(包括信号预处理、耳道形变事件分割和语音引起的耳道形变检测)、特征提取和SsrNet的前馈。表4为本申请的运行时间。网络延迟是通过理论计算得到的。具体来说,声卡的12位ADC以48KHz的采样率采集数据。这意味着每秒需要传输的数据大小为(48000*12)/1024=562.5KB。但是,100MHz带宽的网络速度可以达到12.5MB/s。原始信号传输的延迟可以计算为(562.5KB)/(12.5MB/s)=45ms。可以发现特征提取模块是最耗时的组件(平均时间为0.3s),这是由于语音诱导的耳道形变检测和TF特征提取造成的。数据处理时间为0.18s,SsrNet的识别时间为0.1s。因此本申请的运行时间总共只有0.625s,适用于实时无声语音识别。此外,SsrNet模型是一个参数小、网络结构简单的轻量级网络,可以部署在移动设备上。
[0130] 表4
[0131]
[0132] 本申请的系统功耗:实验通过3.5毫米音频接口连接三星Galaxy S5和EarSSR,同时在智能手机上部署PowerTutor应用程序来测试本申请的功耗。结果表明,本申请平均每分钟消耗23.1J的能量,这意味着本申请的功耗为385mW。可以发现这种功耗相当于拨打电话。。
[0133] 综上,本申请具有以下技术效果:
[0134] 1、无需额外的设备,利用低廉的具有麦克风的耳机就可以实现用户无声语音识别,降低无声语音识别的成本。
[0135] 2、通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。
[0136] 3、去除运动状态干扰和硬件自干扰,并对语音诱导信号和非语音诱导信号进行区分,使无声语音识别功能更加鲁棒。
[0137] 以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。