一种噪声抑制方法、装置和移动终端转让专利

申请号 : CN202110582020.4

文献号 : CN113113039B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 沈俊聪丁宁

申请人 : 广州欢聊网络科技有限公司

摘要 :

本发明实施例提供了一种噪声抑制方法、装置和移动终端,该方法包括:获取待消除噪声的目标语音信号;将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;提取所述巴克频域信号中的目标音频特征;将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号。解决了无法实时准确定位噪声频段,并消除音频噪声的问题。

权利要求 :

1.一种噪声抑制方法,其特征在于,所述的方法包括:获取待消除噪声的目标语音信号;

将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;

将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;

提取所述巴克频域信号中的目标音频特征;

将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;

根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;

将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号;

所述的方法还包括音频增益模型的训练步骤:获取预设数量的噪声信号;

按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;

将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;

将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;

提取所述巴克频域混合信号的信号特征,作为训练信号特征 集;

将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。

2.根据权利要求1所述的方法,其特征在于,所述将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号,包括:通过快速傅里叶变换,将所述目标分帧加窗语音信号从时域转换成Bark‑scaled频域,得到巴克频域信号。

3.根据权利要求1所述的方法,其特征在于,所述根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征,包括:获取所述目标音频特征中对应所述频带增益值的待增益子频带;

在所述待增益子频带中插入第二预设数目个增益点;

根据所述增益点顺序与第二预设数目的比值,确定增益权重;

根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;

将所述待插入增益值插入各所述增益点,得到插值音频特征。

4.根据权利要求1所述的方法,其特征在于,所述将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号,包括:将所述插值音频特征通过反傅里叶变换和加窗混叠累加处理,从巴克频域转换为时域纯净语音信号。

5.根据权利要求1所述的方法,其特征在于,所述提取所述巴克频域混合信号的信号特征,作为训练信号特征 集,包括:按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;

提取所述多个信号段中的信号特征;

获取所述噪声信号的噪声能量特征,根据所述噪声能量特征,获取噪声信号频段;

根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。

6.一种噪声抑制装置,其特征在于,所述的装置包括:目标语音信号获取模块,用于获取待消除噪声的目标语音信号;

分帧加窗模块,用于将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;

频域转换模块,用于将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;

音频特征提取模块,用于提取所述巴克频域信号中的目标音频特征;

频带增益值获得模块,用于将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;

插值音频特征得到模块,用于根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;

纯净语音信号获取模块,用于将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号;

所述的装置还包括音频增益模型训练模块,用于音频增益模型训练,包括:噪声信号获取模块,用于获取预设数量的噪声信号;

信号混合模块,用于按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;

分帧加窗混合信号获得模块,用于将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;

巴克频域混合信号获得模块,用于将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;

训练信号集得到模块,用于提取所述巴克频域混合信号的信号特征,作为训练信号特征 集;

音频增益模型训练模块,用于将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。

7.根据权利要求6所述的装置,其特征在于,所述插值音频特征得到模块,包括:待增益子频带获取子模块,用于获取所述目标音频特征中对应所述频带增益值的待增益子频带;

增益点插入子模块,用于在所述待增益子频带中插入第二预设数目个增益点;

增益权重确定子模块,用于根据所述增益点顺序与第二预设数目的比值,确定增益权重;

待插入增益值得到子模块,用于根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;

插值音频特征得到子模块,用于将所述待插入增益值插入各所述增益点,得到插值音频特征。

8.根据权利要求6所述的装置 ,其特征在于,所述训练信号集得到模块,包括:信号分割子模块,用于按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;

信号特征提取子模块,用于提取所述多个信号数据 段中的信号特征;

噪声能量特征获取模块,用于获取所述噪声信号的噪声能量特征;

噪声信号频段获取子模块,用于根据所述噪声能量特征,获取噪声信号频段;

训练信号特征生成子模块,用于根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。

9.一种移动终端,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的噪声抑制方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的噪声抑制方法的步骤。

说明书 :

一种噪声抑制方法、装置和移动终端

[0001] 本发明专利申请是申请日为2019年07月08日、申请号为201910612399.1,名称为“一种噪声抑制方法、装置和移动终端”的中国发明专利申请的分案申请。

技术领域

[0002] 本发明涉及声音处理技术领域,特别是涉及一种噪声抑制方法、装置和移动终端。

背景技术

[0003] 在录音过程中,很容易就会出现嘴巴离麦克风很近的情况,此时被录音者发出爆破音时就会容易引入风噪一样的噪声,例如发出的喷、呸音等,这些被录入的噪声会严重降
低录音质量,并致使许多语音处理系统的性能急剧下降,
[0004] 现有技术中,针对存在噪音的语音数据通常采用语音增强的方法,语音增强最主要包括噪声估计和滤波器系数求解两部分,往往不能准确确定噪声频段,并且存在算法复
杂且计算成本较高的问题。

发明内容

[0005] 本发明公开了一种噪声抑制方法、装置和移动终端,以解决不能准确确定噪声频段,并且存在算法复杂且计算成本较高的问题。
[0006] 第一个方面,本发明提供了一种噪声抑制方法,所述的方法包括:
[0007] 获取待消除噪声的目标语音信号;
[0008] 将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;
[0009] 将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;
[0010] 提取所述巴克频域信号中的目标音频特征;
[0011] 将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;
[0012] 根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;
[0013] 将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号。
[0014] 优选地,所述将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号,包括:
[0015] 通过快速傅里叶变换,将所述目标分帧加窗语音信号从时域转换成Bark‑scaled频域,得到巴克频域信号。
[0016] 优选地,所述提取所述巴克频域信号中的目标音频特征,包括:
[0017] 按照预设时长,将所述巴克频域信号划分为多个子频带;
[0018] 根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带,并确定目标音频特征。
[0019] 优选地,所述根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带,并确定目标音频特征,包括:
[0020] 根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带;
[0021] 计算所述第一预设数目子频带中每两个频率的平均值,得到所述第一预设数目频带的中心频率,并确定为目标音频特征。
[0022] 优选地,所述根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征,包括:
[0023] 获取所述目标音频特征中对应所述频带增益值的待增益子频带;
[0024] 在所述待增益子频带中插入第二预设数目个增益点;
[0025] 根据所述增益点顺序与第二预设数目的比值,确定增益权重;
[0026] 根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;
[0027] 将所述待插入增益值插入各所述增益点,得到插值音频特征。
[0028] 优选地,所述将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号,包括:
[0029] 将所述插值音频特征通过反傅里叶变换和加窗混叠累加处理,从巴克频域转换为时域纯净语音信号。
[0030] 优选地,还包括音频增益模型的训练步骤:
[0031] 获取预设数量的噪声信号;
[0032] 获取所述噪声信号的噪声能量特征;
[0033] 按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;
[0034] 将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;
[0035] 将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;
[0036] 提取所述巴克频域混合信号的信号特征,作为训练信号集;
[0037] 将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。
[0038] 优选地,所述提取所述巴克频域混合信号的信号特征,作为训练信号集,包括:
[0039] 按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;
[0040] 提取所述多个信号段中的信号特征;
[0041] 根据所述噪声能量特征,获取噪声信号频段;
[0042] 根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。
[0043] 第二个方面,本发明提供了一种噪声抑制装置,所述的装置包括:
[0044] 目标语音信号获取模块,用于获取待消除噪声的目标语音信号;
[0045] 分帧加窗模块,用于将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;
[0046] 频域转换模块,用于将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;
[0047] 音频特征提取模块,用于提取所述巴克频域信号中的目标音频特征;
[0048] 频带增益值获得模块,用于将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;
[0049] 插值音频特征得到模块,用于根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;
[0050] 纯净语音信号获取模块,用于将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号。
[0051] 优选地,所述频域转换模块,包括:
[0052] 频域转换子模块,用于通过快速傅里叶变换,将所述目标分帧加窗语音信号从时域转换成Bark‑scaled频域,得到巴克频域信号。
[0053] 优选地,所述音频特征提取模块,包括:
[0054] 子频带划分子模块,用于按照预设时长,将所述巴克频域信号划分为多个子频带;
[0055] 目标音频特征确定子模块,用于根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带,并确定目标音频特征。
[0056] 优选地,所述目标音频特征确定子模块,包括:
[0057] 子频带合并单元,用于根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带;
[0058] 目标音频特征确定单元,用于计算所述第一预设数目子频带中每两个频率的平均值,得到所述第一预设数目频带的中心频率,并确定为目标音频特征。
[0059] 优选地,所述插值音频特征得到模块,包括:
[0060] 待增益子频带获取子模块,用于获取所述目标音频特征中对应所述频带增益值的待增益子频带;
[0061] 增益点插入子模块,用于在所述待增益子频带中插入第二预设数目个增益点;
[0062] 增益权重确定子模块,用于根据所述增益点顺序与第二预设数目的比值,确定增益权重;
[0063] 待插入增益值得到子模块,用于根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;
[0064] 插值音频特征得到子模块,用于将所述待插入增益值插入各所述增益点,得到插值音频特征。
[0065] 优选地,所述纯净语音信号获取模块,包括:
[0066] 时域转换子模块,用于将所述插值音频特征通过反傅里叶变换和加窗混叠累加处理,从巴克频域转换为时域纯净语音信号。
[0067] 优选地,还包括音频增益模型训练模块,用于音频增益模型训练,包括:
[0068] 噪声信号获取模块,用于获取预设数量的噪声信号;
[0069] 噪声能量特征获取模块,用于获取所述噪声信号的噪声能量特征;
[0070] 信号混合模块,用于按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;
[0071] 分帧加窗混合信号获得模块,用于将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;
[0072] 巴克频域混合信号获得模块,用于将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;
[0073] 训练信号集得到模块,用于提取所述巴克频域混合信号的信号特征,作为训练信号集;
[0074] 音频增益模型训练模块,用于将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。
[0075] 优选地,所述训练信号集得到模块,包括:
[0076] 信号分割子模块,用于按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;
[0077] 信号特征提取子模块,用于提取所述多个信号段中的信号特征;
[0078] 噪声信号频段获取子模块,用于根据所述噪声能量特征,获取噪声信号频段;
[0079] 训练信号特征生成子模块,用于根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。
[0080] 第三方面,本发明提供了一种移动终端,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述
的噪声抑制方法的步骤。
[0081] 第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现所述的噪声抑制方法的步骤。
[0082] 相对于现有技术,本发明实施例包括以下优点:
[0083] 在本发明实施例中,通过获取待消除噪声的目标语音信号;将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;将所述目标分帧加窗语音信号从时域
转换成巴克频域,得到巴克频域信号;提取所述巴克频域信号中的目标音频特征;将所述目
标音频特征输入训练好的音频增益模型,输出频带增益值;根据频带增益值对所述目标音
频特征进行增益插值,得到插值音频特征;将所述插值音频特征转换为时域信号,得到去除
噪声后的纯净语音信号。具备实时高效抑制音频信号噪声的有益效果。

附图说明

[0084] 图1是本发明的一种噪声抑制方法的步骤流程图;
[0085] 图1A是本发明实施例提供的一种音频信号示意图;
[0086] 图1B是本发明实施例提供的一种音频数据加窗处理示意图;
[0087] 图2是本发明的一种噪声抑制装置的结构框图;
[0088] 图3为实现本发明各个实施例的一种移动终端的硬件结构示意图。

具体实施方式

[0089] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0090] 参照图1,示出了本发明的一种噪声抑制方法的步骤流程图,所述方法具体可以包括如下步骤:
[0091] 步骤101,获取待消除噪声的目标语音信号;
[0092] 本发明实施例中,在录音过程中,很容易就会出现嘴巴离麦克风很近的情况,这时候说话的气音就会被录入,尤其是爆破音时最为严重(譬如:喷、呸等),这些被录入的喷麦
噪声会严重降低录音质量。所以,针对需要消除噪声的语音信号,首先需要进行预处理。
[0093] 步骤102,将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;
[0094] 本发明实施例中,对待消除噪声的目标语音信号,进行分帧和加窗处理。
[0095] 其中,如图1A所示,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(如图中方框中选取的语音信号,在10‑‑‑30ms内可以认为语音信号近似不变),这个
就可以把语音信号分割为片段来进行处理,每一个片段称为一帧(CHUNK),当然每一个片段
的时长不限定于上述描述的10‑‑‑30ms,本发明实施例对帧的时长不加以限制。
[0096] 其次,在分帧的时候,每一帧会重复截取一部分,即前一真帧的尾部与当前帧的头部各取一部分重叠后,再进行加窗处理,如此全局语音信号不会因为加窗处理而使得一帧
信号的两端部分被削弱而得到过分降噪的音频数据,所以在分帧时实现帧与帧之间的重
叠,以使加窗处理后的音频信号更为连续。
[0097] 具体地,将上述得到的分帧音频数据进行加窗处理,即将原始音频信号为如图1B中左边部分所示,经过与中间如图1B中间部分所示的加窗函数相乘,得到了如图1B右边部
分所示的每帧音频数据在频域上的对数谱,使得原本没有周期性的语音信号(如分帧音频
数据)呈现出周期函数的部分特征,确定为上述分帧音频数据的加窗音频数据。
[0098] 步骤103,将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;
[0099] 本发明实施例中,在经上述步骤得到目标分帧加窗语音信号后,需要进一步提取目标分帧加窗语音信号中的特征。
[0100] 其中,特征提取是基于巴克域(BARK SCALE)来进行的,结合了喷麦噪声的特点,对巴克域某些频带做了一些合并,从而得到目标音频信号的特征。
[0101] 优选地,步骤103,进一步包括:
[0102] 子步骤1031,通过快速傅里叶变换,将所述目标分帧加窗语音信号从时域转换成Bark‑scaled频域,得到巴克频域信号。
[0103] 具体地,假设语音信号用s(n)表示,对s(n)进行傅里叶变换得到S(ω)=FFT(s(n)),然后对∣S(ω)∣按照公式(1)转换到巴克域,即完成了将目标分帧加窗语音信号从时
域转换成Bark‑scaled频域,得到巴克频域信号的过程。
[0104]
[0105] 其中,fbark为巴克域频率,f为普通频率。
[0106] 步骤104,提取所述巴克频域信号中的目标音频特征;
[0107] 优选地,步骤104,进一步包括:
[0108] 子步骤1041,按照预设时长,将所述巴克频域信号划分为多个子频带;
[0109] 子步骤1042,根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带,并确定目标音频特征。
[0110] 优选地,子步骤1042,进一步包括:
[0111] 子步骤10421,根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带。
[0112] 其中,根据喷麦噪声的频域能量特点(例如,喷麦噪声主要集中在100‑900Hz频段内),把巴克量表的第二至第七子带合并成一个子带,就是说把24个子带调整成19个子带。
合并后的19个频带边界划分如下所示:
[0113] [0,100,920,1080,1270,1480,1720,2000,2320,2700,3150,3700,4400,5300,6400,7700,9500,12000,15500]。
[0114] 子步骤10422,计算所述第一预设数目子频带中每两个频率的平均值,得到所述第一预设数目频带的中心频率,并确定为目标音频特征;
[0115] 其中,中心频率获取方法举例如下:
[0116] 例如经过巴克频域转换的后得到24个子频带:
[0117] [0,100,200,300,400,510,630,770,920,1080,1270,1480,1720,2000,2320,2700,3150,3700,4400,5300,6400,7700,9500,12000,15500]。
[0118] 将上述24个子频带取两个边界频率的一半,得到对应24分子频带的中心频率,如下所示:
[0119] [50,150,250,350,450,570,700,840,1000,1170,1370,1600,1850,2150,2500,2900,3400,4000,4800,5800,7000,8500,10500,13500]。
[0120] 步骤105,将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;
[0121] 进一步地,将上述获取的目标音频特征输入训练好的音频增益模型,即输入已经训练好的RNN网络,RNN网络会输出19个频带的增益值。
[0122] 其中,RNN模型是利用了RNN网络能自己学习噪声规律的优势,又能综合传统频域噪声抑制算法的低运算量优势。
[0123] 步骤106,根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;
[0124] 优选地,步骤106,进一步包括:
[0125] 子步骤1061,获取所述目标音频特征中对应所述频带增益值的待增益子频带;
[0126] 具体地,在目标音频特征中的19个子频带中,通过模型输出每个子频带对应的增益值。
[0127] 子步骤1062,在所述待增益子频带中插入第二预设数目个增益点;
[0128] 其中,假设相邻的两个频带为B0和B1,它们对应的增益为G0和G1,对这两个频带内插N个点(即为第二预设数目)。
[0129] 子步骤1063,根据所述增益点顺序与第二预设数目的比值,确定增益权重;
[0130] 具体地,根据步骤1062的描述,由于直接对频带B0乘以G0,频带B1乘以G1,会造成频带间的增益处理太粗糙,不够平滑,所以此处利用公式gn=(1‑n/N)*G0+n/N*G1,gn为第n
个子频带要插入的增益值,其中,n=0~N,N的取值跟不同频带有关系。
[0131] N的取值跟不同频带有关系,具体而言,按照下表来操作:
[0132] {0,6,8,10,12,14,17,21,26,32,39,47,55,65,76,88,100,115,135};用表中后一个数值减去前一个数值再乘以一系数,如系数为4。频率越高,插值的频点数越多,但是第一
个频带是对前面多个频带做了合并,因而第一个频带的频点也会多一些。第一个频带的N=
(6‑0)*4=24。
[0133] 子步骤1064,根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;
[0134] 子步骤1065,将所述待插入增益值插入各所述增益点,得到插值音频特征。
[0135] 具体而言,依次按照上述步骤对子频带进行插值后,得到插值音频特征。
[0136] 步骤107,将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号。
[0137] 优选地,步骤107,进一步包括:
[0138] 子步骤1071,将所述插值音频特征通过反傅里叶变换和加窗混叠累加处理,从巴克频域转换为时域纯净语音信号。
[0139] 本发明实施例中,对插值音频特征,进行反傅立叶变换和加窗混叠累加处理得到去除喷麦噪声后的纯净语音信号。
[0140] 优选地,本发明实施例还包括音频增益模型的训练步骤:
[0141] 步骤01,获取预设数量的噪声信号;
[0142] 具体地,在训练模型时,首先搜集到各种喷麦的噪声信号。
[0143] 步骤02,获取所述噪声信号的噪声能量特征;
[0144] 具体地,然后分别以五十种增益比例与各个纯净语音进行混合,三秒一段保存起来,作为训练集数据。
[0145] 步骤03,按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;
[0146] 具体地,上述训练集数据,总共有5小时干净语音和1小时喷麦噪声数据,最终形成大约10000条训练集数据,2000条验证集数据,也就是噪声信号与预设纯净语音混合为混合
信号。
[0147] 步骤04,将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;
[0148] 其中,分帧加窗预处理方式与步骤102描述方法相同,在此不再详述。
[0149] 步骤05,将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;
[0150] 具体地,将上述得到的分帧加窗混合信号通过傅里叶变换以及巴克域(BARK SCALE)转换,将分帧加窗混合信号从时域转换成巴克频域。具体方法与步骤1031描述相似,
在此不再详述。
[0151] 步骤06,提取所述巴克频域混合信号的信号特征,作为训练信号集;
[0152] 进一步地,把得到的数据集频带按照巴克量表(BARK SCALE)分成24段子带,得到训练信号集。
[0153] 优选地,步骤06,进一步包括:
[0154] 子步骤061,按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;
[0155] 子步骤062,提取所述多个信号段中的信号特征;
[0156] 其中,将上述得到的巴克频域的24个子频带进行合并,例如,24个频带边界划分分后,如下所示:
[0157] [0,100,200,300,400,510,630,770,920,1080,1270,1480,1720,2000,2320,2700,3150,3700,4400,5300,6400,7700,9500,12000,15500]。
[0158] 上述括号总的24个子频带即是巴克频域混合信号中的信号特征。
[0159] 子步骤063,根据所述噪声能量特征,获取噪声信号频段;
[0160] 具体地,根据喷麦噪声的频域能量特点(喷麦噪声主要集中在100‑900Hz频段内),所以,噪声能量特征为100‑900Hz频段内的信号频段为噪声信号频段。
[0161] 当然,可以理解的,此处举例说明为喷麦噪声频段,其他噪声类型的噪声频段不一定在100‑900Hz内,所以本发明实施例对噪声频段的具体数值不加以限制。
[0162] 子步骤064,根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。
[0163] 进一步地,根据噪声频段,可以将100‑900Hz内,即巴克量表的第二至第七子带合并成一个子带,就是说把24个子带调整成19个子带。合并后的19个频带边界划分如下所示:
[0164] [0,100,920,1080,1270,1480,1720,2000,2320,2700,3150,3700,4400,5300,6400,7700,9500,12000,15500]。
[0165] 对应的中心频率如下所示:
[0166] [50,510,1000,1170,1370,1600,1850,2150,2500,2900,3400,4000,4800,5800,7000,8500,10500,13500]。
[0167] 上述括号中的中心频率即为巴克频域混合信号的训练信号特征。
[0168] 步骤07,将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。
[0169] 其中,对数据集进行特征提取,把特征输入到循环神经网络进行训练。训练后得到网络的各层参数,以数组的形式保存起来。这里的特征提取是基于巴克域(BARK SCALE)来
进行的,结合了喷麦噪声的特点,对巴克域某些频带做了一些合并,这样有助于神经网络更
好的学习到喷麦噪声的特征。最终训练完成音频增益模型。
[0170] 在本发明实施例中,获取待消除噪声的目标语音信号;将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;将所述目标分帧加窗语音信号从时域转换
成巴克频域,得到巴克频域信号;提取所述巴克频域信号中的目标音频特征;将所述目标音
频特征输入训练好的音频增益模型,输出频带增益值;根据频带增益值对所述目标音频特
征进行增益插值,得到插值音频特征;将所述插值音频特征转换为时域信号,得到去除噪声
后的纯净语音信号。具备实时、高效消除语音噪声的有益效果。
[0171] 参照图2,示出了本发明的一种噪声抑制装置的结构框图,所述装置具体可以包括如下模块:
[0172] 目标语音信号获取模块201,用于获取待消除噪声的目标语音信号;
[0173] 分帧加窗模块202,用于将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;
[0174] 频域转换模块203,用于将所述目标分帧加窗语音信号从时域转换成巴克频域,得到巴克频域信号;
[0175] 优选地,所述频域转换模块203,进一步包括:
[0176] 频域转换子模块,用于通过快速傅里叶变换,将所述目标分帧加窗语音信号从时域转换成Bark‑scaled频域,得到巴克频域信号。
[0177] 音频特征提取模块204,用于提取所述巴克频域信号中的目标音频特征;
[0178] 优选地,所述音频特征提取模块204,包括:
[0179] 子频带划分子模块,用于按照预设时长,将所述巴克频域信号划分为多个子频带;
[0180] 目标音频特征确定子模块,用于根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带,并确定目标音频特征。
[0181] 优选地,所述目标音频特征确定子模块,包括:
[0182] 子频带合并单元,用于根据预设噪声能量特征,将所述多个子频带合并为第一预设数目的子频带;
[0183] 目标音频特征确定单元,用于计算所述第一预设数目子频带中每两个频率的平均值,得到所述第一预设数目频带的中心频率,并确定为目标音频特征。
[0184] 频带增益值获得模块205,用于将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;
[0185] 插值音频特征得到模块206,用于根据频带增益值对所述目标音频特征进行增益插值,得到插值音频特征;
[0186] 优选地,所述插值音频特征得到模块206,包括:
[0187] 待增益子频带获取子模块,用于获取所述目标音频特征中对应所述频带增益值的待增益子频带;
[0188] 增益点插入子模块,用于在所述待增益子频带中插入第二预设数目个增益点;
[0189] 增益权重确定子模块,用于根据所述增益点顺序与第二预设数目的比值,确定增益权重;
[0190] 待插入增益值得到子模块,用于根据所述增益权重与所述频带增益值的加权和,得到各所述增益点的待插入增益值;
[0191] 插值音频特征得到子模块,用于将所述待插入增益值插入各所述增益点,得到插值音频特征。
[0192] 纯净语音信号获取模块207,用于将所述插值音频特征转换为时域信号,得到去除噪声后的纯净语音信号。
[0193] 优选地,所述纯净语音信号获取模块207,包括:
[0194] 时域转换子模块,用于将所述插值音频特征通过反傅里叶变换和加窗混叠累加处理,从巴克频域转换为时域纯净语音信号。
[0195] 优选地,在本发明另一实施例中,还包括:
[0196] 音频增益模型训练模块,用于音频增益模型训练,包括:
[0197] 噪声信号获取模块,用于获取预设数量的噪声信号;
[0198] 噪声能量特征获取模块,用于获取所述噪声信号的噪声能量特征;
[0199] 信号混合模块,用于按照预设增益比例将所述噪声信号与预设纯净语音混合为混合信号;
[0200] 分帧加窗混合信号获得模块,用于将所述混合信号进行分帧和加窗处理,得到分帧加窗混合信号;
[0201] 巴克频域混合信号获得模块,用于将所述分帧加窗混合信号从时域转换成巴克频域,得到巴克频域混合信号;
[0202] 训练信号集得到模块,用于提取所述巴克频域混合信号的信号特征,作为训练信号集;
[0203] 音频增益模型训练模块,用于将所述训练信号特征集输入预设循环神经网络进行训练,得到音频增益模型。
[0204] 优选地,所述训练信号集得到模块,包括:
[0205] 信号分割子模块,用于按照预设时间间隔,将所述巴克频域混合信号分割为多个信号数据段;
[0206] 信号特征提取子模块,用于提取所述多个信号段中的信号特征;
[0207] 噪声信号频段获取子模块,用于根据所述噪声能量特征,获取噪声信号频段;
[0208] 训练信号特征生成子模块,用于根据所述噪声信号频段将所述信号特征进行合并,生成训练信号特征。
[0209] 在本发明实施例中,通过目标语音信号获取模块,用于获取待消除噪声的目标语音信号;分帧加窗模块,用于将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗
语音信号;频域转换模块,用于将所述目标分帧加窗语音信号从时域转换成巴克频域,得到
巴克频域信号;音频特征提取模块,用于提取所述巴克频域信号中的目标音频特征;频带增
益值获得模块,用于将所述目标音频特征输入训练好的音频增益模型,输出频带增益值;插
值音频特征得到模块,用于根据频带增益值对所述目标音频特征进行增益插值,得到插值
音频特征;纯净语音信号获取模块,用于将所述插值音频特征转换为时域信号,得到去除噪
声后的纯净语音信号。具备实时、高效消除语音噪声的有益效果。
[0210] 图3为实现本发明各个实施例的一种移动终端的硬件结构示意图。
[0211] 该移动终端300包括但不限于:射频单元301、网络模块302、音频输出单元303、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器
310、以及电源311等部件。本领域技术人员可以理解,图3中示出的移动终端结构并不构成
对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者
不同的部件布置。在本发明实施例中,移动终端包括但不限于手机、平板电脑、笔记本电脑、
掌上电脑、车载终端、可穿戴设备、以及计步器等。
[0212] 其中,处理器310,用于获取待消除噪声的目标语音信号;将所述目标语音信号进行分帧和加窗处理,得到目标分帧加窗语音信号;将所述目标分帧加窗语音信号从时域转
换成巴克频域,得到巴克频域信号;提取所述巴克频域信号中的目标音频特征;将所述目标
音频特征输入训练好的音频增益模型,输出频带增益值;根据频带增益值对所述目标音频
特征进行增益插值,得到插值音频特征;将所述插值音频特征转换为时域信号,得到去除噪
声后的纯净语音信号。
[0213] 应理解的是,本发明实施例中,射频单元301可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器310处理;另外,将上行的
数据发送给基站。通常,射频单元301包括但不限于天线、至少一个放大器、收发信机、耦合
器、低噪声放大器、双工器等。此外,射频单元301还可以通过无线通信系统与网络和其他设
备通信。
[0214] 移动终端通过网络模块302为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
[0215] 音频输出单元303可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元303还可以提供与移
动终端300执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等
等)。音频输出单元303包括扬声器、蜂鸣器以及受话器等。
[0216] 输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(Graphics Processing Unit,GPU)3041和麦克风3042,图形处理器3041对在视频捕获模式
或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处
理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存
储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克
风3042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在
电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。
[0217] 移动终端300还包括至少一种传感器305,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境
光线的明暗来调节显示面板3061的亮度,接近传感器可在移动终端300移动到耳边时,关闭
显示面板3061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般
为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态(比
如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传
感器305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿
度计、温度计、红外线传感器等,在此不再赘述。
[0218] 显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管
(Organic Light‑Emitting Diode,OLED)等形式来配置显示面板3061。
[0219] 用户输入单元307可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元307包括触控面板3071以及
其他输入设备3072。触控面板3071,也称为触摸屏,可收集用户在其上或附近的触摸操作
(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071
附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测
装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控
制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器310,接收处
理器310发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多
种类型实现触控面板3071。除了触控面板3071,用户输入单元307还可以包括其他输入设备
3072。具体地,其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、
开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0220] 进一步的,触控面板3071可覆盖在显示面板3061上,当触控面板3071检测到在其上或附近的触摸操作后,传送给处理器310以确定触摸事件的类型,随后处理器310根据触
摸事件的类型在显示面板3061上提供相应的视觉输出。虽然在图3中,触控面板3071与显示
面板3061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例
中,可以将触控面板3071与显示面板3061集成而实现移动终端的输入和输出功能,具体此
处不做限定。
[0221] 接口单元308为外部装置与移动终端300连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端
口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端
口等等。接口单元308可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且
将接收到的输入传输到移动终端300内的一个或多个元件或者可以用于在移动终端300和
外部装置之间传输数据。
[0222] 存储器309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声
音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如
音频数据、电话本等)等。此外,存储器309可以包括高速随机存取存储器,还可以包括非易
失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0223] 处理器310是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器309内的软件程序和/或模块,以及调用存储在存储
器309内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处
理器310可包括一个或多个处理单元;优选的,处理器310可集成应用处理器和调制解调处
理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要
处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器310中。
[0224] 移动终端300还可以包括给各个部件供电的电源311(比如电池),优选的,电源311可以通过电源管理系统与处理器310逻辑相连,从而通过电源管理系统实现管理充电、放
电、以及功耗管理等功能。
[0225] 另外,移动终端300包括一些未示出的功能模块,在此不再赘述。
[0226] 优选的,本发明实施例还提供一种移动终端,包括处理器310,存储器309,存储在存储器309上并可在所述处理器310上运行的计算机程序,该计算机程序被处理器310执行
时实现上述噪声抑制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里
不再赘述。
[0227] 本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述噪声抑制方法实施例的各个过程,且能
达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只
读存储器(Read‑Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称
RAM)、磁碟或者光盘等。
[0228] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0229] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务
器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0230] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员
在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多
形式,均属于本发明的保护之内。