语音处理方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202310945858.4

文献号 : CN116682453B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡小辉季海交曾维雄郭佛其谌名林张文举杜晓舟姜童陈博林松李韦翰

申请人 : 深圳市东微智能科技股份有限公司

摘要 :

本申请公开了一种语音处理方法、装置、设备及计算机可读存储介质,涉及语音处理技术领域,包括:获取待处理的语音音频信号;将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。本申请提高了语音信号的处理质量。

权利要求 :

1.一种语音处理方法,其特征在于,所述语音处理方法包括以下步骤:获取待处理的语音音频信号;

将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;

确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;

将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子,其中,每一所述采样点对应一个增益因子;

通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出;

所述通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号的步骤,包括:依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;

以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。

2.如权利要求1所述的语音处理方法,其特征在于,所述确定所述目标音频信号对应的目标信号能量的步骤,包括:获取预设信号帧数的历史语音音频信号,确定每一帧所述历史语音音频信号的第一信号能量;

确定所述目标音频信号的第二信号能量,将各所述第一信号能量与所述第二信号能量作为目标信号能量。

3.如权利要求1所述的语音处理方法,其特征在于,所述将所述语音音频信号作为目标音频信号的步骤,包括:确定所述语音音频信号包括的信号帧数;

若所述信号帧数包括一个,将所述语音音频信号作为目标音频信号;

若所述信号帧数包括多个,依次遍历所述语音音频信号的每一帧信号,将遍历的所述语音音频信号的每一帧信号作为目标音频信号。

4.如权利要求3所述的语音处理方法,其特征在于,所述频谱特征包括相位特征和幅值特征,所述提取所述目标音频信号的频谱特征的步骤,包括:对所述目标音频信号进行快速傅里叶变换得到变换后的音频信号频谱;

提取所述音频信号频谱的所述幅值特征和所述相位特征,将所述幅值特征和相位特征作为频谱特征。

5.如权利要求1‑4任一项所述的语音处理方法,其特征在于,在所述获取待处理的语音音频信号的步骤之前,所述方法还包括:获取原始语音数据集,从所述原始语音数据集中读取语音数据,其中,所述语音数据至少包括纯净语音数据与噪声数据;

以第一预设方式调整所述纯净语音数据得到调整后的纯净语音数据,其中,所述第一预设方式包括将所述纯净语音数据的语音音量进行最大归一化得到归一化后的纯净语音数据,并以第一预设固定因子调整所述归一化后的纯净语音数据的语音音量;

以第二预设方式调整所述噪声数据得到调整后的噪声数据,其中,所述第二预设方式包括以第二预设固定因子调整所述噪声数据的语音音量;

将所述纯净语音数据与所述噪声数据作为输入语料,将所述调整后的纯净语音数据作为所述纯净语音数据对应的第一输出语料,将所述调整后的噪声数据作为所述噪声数据对应的第二输出语料;

依据所述输入语料、所述第一输出语料与所述第二输出语料训练得到语音处理模型。

6.一种语音处理装置,其特征在于,所述语音处理装置包括:

获取模块,用于获取待处理的语音音频信号;

提取模块,用于将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;

确定模块,用于确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;

处理模块,用于将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子,其中,每一所述采样点对应一个增益因子;通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出;

所述处理模块,还用于:

依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;

以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。

7.一种语音处理设备,其特征在于,所述语音处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音处理方法的步骤。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音处理程序,所述语音处理程序被处理器执行时实现如权利要求1至5中任一项所述的语音处理方法的步骤。

说明书 :

语音处理方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 语音信号在空气中传播的时候,其声波是球型发散的,而且声波能量随着传播距离的增加而呈指数衰减。复杂环境下的远场拾音系统在实际应用场景中,有一个较常见的现象,由于单个或多个发言者与麦克风的距离远近不同的变化导致扩声系统声音忽大忽小,因此,通常需要对采集到的语音信号进行处理,使得处理后的语音信号的信号能量大小恒定在一定水平,目前,传统的语音处理方法是通过在麦克风采集语音信号之后,使用自动增益控制(AGC,Automatic GainControl)处理来对采集到的语音信号进行处理。
[0003] 传统自动增益控制方法是通过判断一个时间周期内语音信号的平均信号能量的大小,动态调整增益因子,即信号能量大的时候衰减增益,信号能量小的时候提高增益。而缺陷在于,实际场景中,环境复杂多变,如发言者声音从小到大跨过阈值阶段,如此单一且比较固定的增益控制方法并不能做到声音的平滑,会出现声音输出忽大忽小,语音信号处理质量差。
[0004] 综上,如何提高语音信号的处理质量是语音处理技术领域亟待解决的技术问题。

发明内容

[0005] 本申请的主要目的在于提供一种语音处理方法、装置、设备及计算机可读存储介质,旨在解决如何提高语音信号的处理质量的技术问题。
[0006] 为实现上述目的,本申请提供一种语音处理方法,所述语音处理方法包括以下步骤:
[0007] 获取待处理的语音音频信号;
[0008] 将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;
[0009] 确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;
[0010] 将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0011] 可选地,所述确定所述目标音频信号对应的目标信号能量的步骤,包括:
[0012] 获取预设信号帧数的历史语音音频信号,确定每一帧所述历史语音音频信号的第一信号能量;
[0013] 确定所述目标音频信号的第二信号能量,将各所述第一信号能量与所述第二信号能量作为目标信号能量。
[0014] 可选地,所述目标音频信号包括多个采样点,所述将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号的步骤,包括:
[0015] 将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子;
[0016] 通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出。
[0017] 可选地,所述通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号的步骤,包括:
[0018] 依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;
[0019] 以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。
[0020] 可选地,所述将所述语音音频信号作为目标音频信号的步骤,包括:
[0021] 确定所述语音音频信号包括的信号帧数;
[0022] 若所述信号帧数包括一个,将所述语音音频信号作为目标音频信号;
[0023] 若所述信号帧数包括多个,依次遍历所述语音音频信号的每一帧信号,将遍历的所述语音音频信号的每一帧信号作为目标音频信号。
[0024] 可选地,所述频谱特征包括相位特征和幅值特征,所述提取所述目标音频信号的频谱特征的步骤,包括:
[0025] 对所述目标音频信号进行快速傅里叶变换得到变换后的音频信号频谱;
[0026] 提取所述音频信号频谱的所述幅值特征和所述相位特征,将所述幅值特征和相位特征作为频谱特征。
[0027] 可选地,在所述获取待处理的语音音频信号的步骤之前,所述方法还包括:
[0028] 获取原始语音数据集,从所述原始语音数据集中读取语音数据,其中,所述语音数据至少包括纯净语音数据与噪声数据;
[0029] 以第一预设方式调整所述纯净语音数据得到调整后的纯净语音数据,其中,所述第一预设方式包括将所述纯净语音数据的语音音量进行最大归一化得到归一化后的纯净语音数据,并以第一预设固定因子调整所述归一化后的纯净语音数据的语音音量;
[0030] 以第二预设方式调整所述噪声数据得到调整后的噪声数据,其中,所述第二预设方式包括以第二预设固定因子调整所述噪声数据的语音音量;
[0031] 将所述纯净语音数据与所述噪声数据作为输入语料,将所述调整后的纯净语音数据作为所述纯净语音数据对应的第一输出语料,将所述调整后的噪声数据作为所述噪声数据对应的第二输出语料;
[0032] 依据所述输入语料、所述第一输出语料与所述二输出语料训练得到语音处理模型。
[0033] 此外,为实现上述目的,本申请还提供一种语音处理装置,所述语音处理装置包括:
[0034] 获取模块,用于获取待处理的语音音频信号;
[0035] 提取模块,用于将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;
[0036] 确定模块,用于确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;
[0037] 处理模块,用于将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0038] 此外,为实现上述目的,本申请还提供一种语音处理方法设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理方法程序,所述语音处理方法程序被所述处理器执行时实现如上述的语音处理方法的步骤。
[0039] 此外,为实现上述目的,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有语音处理方法程序,语音处理方法程序被处理器执行时实现如上述的语音处理方法的步骤。
[0040] 本申请中语音处理软件获取到待处理的语音音频信号后,将语音音频信号作为目标音频信号,提取目标音频信号的频谱特征,将目标信号能量、目标音频信号与频谱特征作为特征参数输入到预训练的语音处理模型中,输出得到处理后的语音音频信号,完成对语音信号的处理。如此,相比于现有技术中通过判断一个时间周期内语音信号的平均信号能量的大小,动态调整增益因子的自动增益控制方法而言,本申请实施例不仅仅是基于语音信号的信号能量对语音信号进行处理,还考虑语音信号的频谱特征,基于语音信号的信号能量与频谱特征多方位处理语音信号,从而,有效地提高了语音信号的处理质量。

附图说明

[0041] 本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
[0042] 图1是本申请实施例方案涉及的硬件运行环境的终端\装置结构示意图;
[0043] 图2为本申请语音处理方法第一实施例的流程示意图;
[0044] 图3为本申请语音处理方法的信号处理流程示意图;
[0045] 图4为本申请语音处理方法中原始输入PCM波形示意图;
[0046] 图5为本申请语音处理方法处理后的PCM波形示意图;
[0047] 图6为本申请语音处理方法输出PCM波形叠加效果图对比示意图;
[0048] 图7为本申请语音处理方法中语音处理模型示意图;
[0049] 图8为本申请语音处理装置的装置模块示意图。

具体实施方式

[0050] 应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0051] 参照图1,图1为本申请实施例方案涉及的硬件运行环境的语音处理方法设备结构示意图。
[0052] 如图1所示,该语音处理方法设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless‑FIdelity,WI‑FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non‑Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0053] 本领域技术人员可以理解,图1中示出的结构并不构成对语音处理方法设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0054] 如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作装置、数据存储模块、网络通信模块、用户接口模块以及语音处理方法程序。
[0055] 在图1所示的语音处理方法设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请语音处理方法设备中的处理器1001、存储器1005可以设置在语音处理方法设备中,所述语音处理方法设备通过处理器
1001调用存储器1005中存储的语音处理方法程序,并执行本申请实施例提供的语音处理方法。
[0056] 参照图2,本申请提供一种语音处理方法,在语音处理方法的第一实施例中,语音处理方法包括以下步骤:
[0057] 步骤S10,获取待处理的语音音频信号;
[0058] 复杂环境下的远场拾音系统在实际应用场景中,有一个较常见的现象,由于单个或多个发言者与麦克风的距离远近不同的变化导致扩声系统声音忽大忽小,或者说话人移动状态下发言,不易于调节,也极大的干扰了声纹识别和语音转写等。当远离麦克风的时候,听众几乎要扬起耳朵、皱起眉头听。而当发言者挨着麦克风或发言音量很大时,听众难受得都要捂住耳朵。
[0059] 另一个场景,当远距离拾音时信噪比极低,降噪算法在降噪时对远距离小能量的语音信号难以做到高保真,音质损伤较大,所以给降噪算法也带来极大的挑战。在语音转写或声纹识别上,也会因低信噪比导致转写的错码率和声纹识别的误检率很高。针对此现象,除了让发言者调整与麦克风的距离以及自身说话的音量大小外,传统解决方法里用到了的自动增益控制算法(AGC),它的主要功能是解决在远场和近场麦克讲话时,出现发言者与麦克的距离忽远忽近的情况,从而造成输出音量忽大忽小,甚至感觉讲话断断续续的问题。利用AGC其原理,将小信号和大信号恒定在一定水平,便于声纹识别,语音转写、降噪等后续处理。
[0060] 传统自动增益的原理是通过设置阈值,对低于阈值的输入信号按照 1:1 的比例输出,对于高于阈值的电平则按照比率直接进行提升,设置好目标电平,声音信号就可以稳定的输出。自动增益控制是通过改变输入输出压缩比例来自动控制增益的幅度。当弱信号输入时对信号进行放大处理,保证输出声信号的强度;当输入信号强度达到一定程度时,对信号进行压缩处理,使声输出幅度降低。该算法通过判断一个时间周期内平均能量的大小,动态调整增益因子,即声音大的时候衰减增益,声音小的时候提高增益。但是传统AGC算法需要设置触发增益控制的阈值、目标增益、增益比例等等。实际场景中,环境复杂多变导致自动增益控制算法工作时声音并不能做到平滑,导致声音输出忽大忽小,尤其是发言者声音从小到大跨过阈值阶段,传统算法的弊端呈现得更严重。由于这种不平滑,可以通过降低增益的调整比例或牺牲目标增益的大小方式解决。降低增益的调整比例会导致增益调节速度不够快、语音处理灵敏度不足,牺牲目标增益的大小会导致增益达不到要求,其本质都是对AGC算法预期效果的损失。
[0061] 基于上述现象,本实施例以多目标(信号能量、频谱特征、音频信号)的方式训练语音信号的增益因子,对语音信号进行处理,进一步提高处理后的语音信号质量。
[0062] 获取待处理的语音音频信号,需要说明的是,语音音频信号可以是时域的PCM(Pulse‑code modulation,脉冲编码调制)信号,PCM通过对原始采集到的语音模拟信号进行采样、量化与编码得到的数字信号,人耳听到的是模拟信号,将声音从模拟信号转化为数字信号,原理是用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击),把这些脉冲的幅值按一定精度进行量化,这些量化后的数值被连续的输出、传输、处理或记录到存储介质中,首先对声音按照一定精度的采样(比如常见采样频率为44.1kHZ,16kHZ等),采样完成,对声音进行一定精度的量化,得到量化后的数字信号,将量化后的数字信号从十进制转二进制得到二进制方波的PCM。
[0063] 进一步地,可以以预设时长(如十毫秒等)为一帧语音音频信号,以一帧信号为一个处理单位对语音音频信号进行后续语音处理。
[0064] 步骤S20,将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;
[0065] 可将时域的目标音频信号转换到频域,进而提取频域的目标音频信号的频谱特征,通常可通过傅里叶变换、短时傅里叶变换、快速傅里叶变换、奈奎斯特变换、小波变换和莱斯变换等方式将时域的目标音频信号转换到频域,然后在进一步转换到频域后的目标音频信号的频谱特征,其中上述频谱特征可以包括频谱特征和相位特征,比如在得到频域的目标音频信号后进行频谱功率计算和滤波,最后根据滤波后的信号进行幅值提取和相位提取。
[0066] 步骤S30,确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;
[0067] 本实施例中,以一帧目标音频信号为处理单位,可计算此帧目标音频信信号的信号能量,将此信号能量作为目标信号能量,优选地,计算此帧目标音频信号的RMS(Root Mean Square,均方根)能量,将此RMS能量作为目标信号能量。进一步地,还可以计算在此帧目标音频信号之前的预设帧数(如9帧、10帧等)的每一帧历史语音音频信号的信号能量,将每一帧历史历史语音音频信号的信号能量与目标音频信号的信号能量作为目标信号能量。例如,假设当前帧的目标音频信号的信号能量为A、当前帧的目标音频信号往前9帧的历史语音音频信号的信号能量按时间顺序依次为B、C、D、E、F、G、H、I、J,那么目标信号能量为【A、B、C、D、E、F、G、H、I、J】。
[0068] 步骤S40,将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0069] 将目标音频信号、频谱特征、目标信号能量作为特征参数输入到预训练的语音处理模型中进行处理,其中,预训练的语音处理模型可以是基于卷积神经网络的深度学习模型,例如参照图3,将目标音频信号以PCM为例、频谱特征、目标信号能量作为特征参数输入到预训练的语音处理模型(语音处理模型可以包括基于卷积神经网络的深度学习的DNN模型)中进行处理,输出得到处理后的语音音频信号。对于处理后的语音音频信号可还原出模拟信号后输出人耳可提听见的语音,如可以对处理后的语音音频信号进行检波和平滑滤波,还原出模拟信号后输出人耳可听见的语音。处理效果如图4、图5所示,图4为输入的目标音频信号波形图,如PCM波形图,图5为处理后输出的语音音频信号波形图,两者叠加的效果对比参照图6,图6中黑色为输入的PCM波形图,灰色为模型处理输出的PCM波形图。
[0070] 预训练的语音处理模型网络结构主要由三个链路作为输入,分别为PCM、频谱特征、目标信号能量。语音处理模型以DNN模型为例,可以依次包括预设数量层(如3层)卷积Conve1D、LSTM(Long Short‑Term Memory,长短时神经记忆网络)层、MatMul函数作用于输入的目标音频信号得到处理后的语音音频信号,卷积层可以使用PReLU作为激活函数,LSTM层激活函数可以使用Sigmoid,LSTM层输出为目标音频信号的每一采样点对应的增益因子,将该增益因子通过MatMul作用于输入的目标音频信号得到处理后的语音音频信号。例如,假设目标音频信号为PCM,且包括有128个采样点,提取到PCM的256个频谱特征信息,通过三层卷积Conve1D(512),激活函数用PReLU,输出分成四组输入到四个独立的LSTM(32)层,激活函数采用Sigmoid,LSTM层输出为目标音频信号的128个增益因子。将该128个增益因子通过MatMul作用于输入的PCM得到处理后的PCM,该PCM即为期望的输出。
[0071] 对语音处理模型的预训练过程可以为,先获取原始语音数据集,如原始语音数据集可以包括为ICASSP 2022 DNS‑challenge全频段和EUROM、VCTK和LJ语音数据集,包括纯净语音数据与噪声数据,纯净语音数据来自对多名说话者的语音进行采集得到,噪声数据可来自DEMAND、RNNoise数据集,噪声数据的噪声类型包括谐波噪声类型,如发动机、电脑风扇,办公室,人群,飞机,汽车,火车,建筑等噪声。
[0072] 按照预设比例从原始语音数据集中随机读取纯净语音数据与噪声数据,将读取到的纯净语音数据和噪声数据作为训练的输入语料库,如训练时输入语料从纯净语音数据和噪声数据中按90:10的比例随机从原始语音数据集里读取。当输入为纯净语音数据时,将语音整体音量调整到最大并归一化,然后乘以一个随机的因子作为模型的输入语料,如该随机因子在(0.1,1.0)之间,期望输出为自身最大归一化后的语音乘以一个固定因子,如0.8。让不同增益大小的输入都往自身调整到最大并归一化后的0.8倍为目标靠近。当输入为噪声数据时,直接将该噪声数据作为输入,期望的输出为该噪声数据乘以另一固定因子,如
0.5,即将噪声减半作为目标输出,抑制噪声。
[0073] 获取原始语音数据集,从原始语音数据集中读取语音数据,其中,所述语音数据包括纯净语音数据与噪声数据;
[0074] 将所述纯净语音数据的语音音量最大归一化得到归一化后的第一语音音量,以第一预设固定因子调整所述第一语音音量得到调整后的第一语音音量;
[0075] 将所述噪声数据的语音音量最大归一化得到归一化后的第二语音音量,以第二预设固定因子调整所述第二语音音量得到调整后的第二语音音量,其中,所述第一预设固定因子大于所述第二预设固定因子;
[0076] 以所述第一语音音量与所述第二语音音量为输入语料,所述调整后的第一语音音量作为所述第一语音音量对应的第一输出语料,所述调整后的第二语音音量作为所述第二语音音量对应的第二输出语料;
[0077] 依据所述输入语料、所述第一输出语料与第二输出语料训练得到语音处理模型[0078] 本实施例中语音处理软件获取到待处理的语音音频信号后,将语音音频信号作为目标音频信号,提取目标音频信号的频谱特征,将目标信号能量、目标音频信号与频谱特征作为特征参数输入到预训练的语音处理模型中,输出得到处理后的语音音频信号,完成对语音信号的处理。如此,相比于现有通过判断一个时间周期内语音信号的平均信号能量的大小,动态调整增益因子的自动增益控制方法而言,本申请实施例不仅仅是基于语音信号的信号能量对语音信号进行处理,还考虑语音信号的频谱特征,基于语音信号的信号能量与频谱特征多方位处理语音信号,从而,有效地提高了语音信号的处理质量。
[0079] 进一步地,基于上述本申请的第一实施例,提出本申请语音处理方法的第二实施例,在本实施例中,上述实施例步骤S30,确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数步骤的细化,包括:
[0080] 步骤a,获取预设信号帧数的历史语音音频信号,确定每一帧所述历史语音音频信号的第一信号能量;
[0081] 步骤b,确定所述目标音频信号的第二信号能量,将各所述第一信号能量与所述第二信号能量作为目标信号能量。
[0082] 以预设时长为一个信号帧,以一帧语音音频信号为单位进行语音处理,每处理一帧语音音频信号时,可记录当前帧的语音音频信号的信号能量,由此,获取到预设信号帧数的历史语音音频信号,可进一步获取到每一帧历史语音音频信号的第一信号能,将当前帧的目标音频信号的第二信号能量与各第一信号能量作为模型输入的目标信号能量,考虑历史语音音频信号的信号能量,可进一步提高语音信号的处理质量。
[0083] 在一实施例中,所述目标音频信号包括多个采样点,所述将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号的步骤,包括:
[0084] 步骤c,将所述特征参数输入到预训练的语音处理模型中的输入层,以通过所述语音处理模型中的神经网络层基于所述特征参数得到所述目标音频信号中每一采样点对应的增益因子;
[0085] 步骤d,通过所述语音处理模型将所述每一采样点对应的增益因子传递至所述语音处理模型中的输出层,以通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号,并将调整后的所述目标音频信号作为处理后的语音音频信号进行输出。
[0086] 本实施例中,语音处理模型中的神经网络层可以包括卷积层(如一维卷积神经网络层)与LSTM层,输入层中的特征参数包括目标音频信号、频谱特征与目标信号能量,参照图7,假设目标音频信号为具有128个采样点的PCM、频谱特征为256个频谱特征信息、目标信号能量为10帧语音音频信号的信号能量,PCM、频谱特征、信号能量输入到语音处理模型的输入层后,PCM经过FC(128)(Fully Connectedlayer,全连接层)、频谱特征经过BN(256)(Batch Normalization,批量样本归一化)与FC(256)、信号能量经过FC(10)后依次经过三层卷积层(第一卷积层、第二卷积层与第三卷积层),第一卷积层为Conv1D(512)、BN(512)与激活函数PReLU(512),第二卷积层为Conv1D(256)、BN(256)与激活函数PReLU(256)、第三卷积层为Conv1D(128)、BN(128)与激活函数PReLU(128),三层卷积后的输出分成四组输入到四个独立的LSTM(32)层,激活函数采用Sigmoid,使用Dropout函数防止过拟合,LSTM层输出为128个增益因子,通过MatMul函数进行张量积运算作用于输入的PCM,对输入的PCM进行调整,得到调整后的PCM,并进行输出。
[0087] 进一步地,语音处理模型的损失函数由两部分组成,一部分是音频信号的相似度采用距离相似度计算,另一部分是频谱包络相似度,采用皮尔逊相关系数计算,音频信号相似度记为Lg,频谱包络相似度记为LG,综合损失函数记为Lp,则 ,其中,α与β为预设的微调损失权重参数,两者可自行设置,可相同也可不同, ,其中,以目标音频信号为PCM为例,i为PCM的第i个采样点,N为PCM的总采样点个数, 为模型估计的PCM, 为期望的PCM,由用户提前设置,
[0088] ,其中,为模型估计的PCM频谱包络, 为期望的PCM频谱包络,ρ表示相似度,σ表示标准差,cov表示协方差,E表示期望,µ表示均值。
[0089] 在本实施例中,通过语音处理模型中自动基于出入的目标音频信号、频谱特征与目标信号能量生成增益因子对目标音频信号进行调整,得到处理后的语音音频信号,不需要像传统AGC调试设置增益控制的阈值、目标增益、增益比例等等参数,可自动对语音信号进行调整,实现了对语音信号的智能化与自动化处理。
[0090] 在一实施例中,所述通过所述输出层根据各所述增益因子对所述目标音频信号进行调整得到调整后的目标音频信号的步骤,包括:
[0091] 步骤e,依次遍历所述目标音频信号中的每一采样点得到每一采样点各自对应的第一信号采样值和第一增益因子;
[0092] 步骤f,以所述第一增益因子对所述第一信号采样值进行调整得到调整后的第一信号采样值,以调整后的第一信号采样值更新目标音频信号。
[0093] 可以理解地,是目标音频信号中每一采样点对应具有一个信号采样值,则依次遍历所述目标音频信号中的每一采样点,可得到每一采样点各自对应的第一信号采样值和第一增益因子。
[0094] 在本实施例中,以第一增益因子对所述第一信号采样值进行调整,可以是以第一因子乘以第一信号采样值,得到遍历的采样点对应的新信号采样值,并以新信号采样值更新目标音频信号,由此在对所有的采样点遍历完成后,得到每一采样点均更新信号采样值的目标音频信号,对目标音频信号中的每一所述采样点依次进行调整,而不是整体增益调整,提高语音信号处理的处理细度。
[0095] 在一实施例中,所述将所述语音音频信号作为目标音频信号的步骤,包括:
[0096] 步骤g,确定所述语音音频信号包括的信号帧数;
[0097] 步骤h,若所述信号帧数包括一个,将所述语音音频信号作为目标音频信号;
[0098] 步骤i,若所述信号帧数包括多个,依次遍历所述语音音频信号的每一帧信号,将遍历的所述语音音频信号的每一帧信号作为目标音频信号。
[0099] 在本实施例中,以一个信号帧的目标音频信号为单位进行语音处理。可以理解地,语音音频信号也可以是提前采集好在存储在预设存储区域的语音音频信号,若语音音频信号是从预设存储区域获取得到的,可以对获取到的语音音频信号进行分帧处理,以每一帧语音音频信号为一个处理单位进行语音处理,每次处理一帧目标音频信号,保证了对语音的标准化处理,且减少了语音处理模型中的参数调整次数。
[0100] 在一实施例中,所述频谱特征包括相位特征和幅值特征,所述提取所述目标音频信号的频谱特征的步骤,包括:
[0101] 步骤j,对所述目标音频信号进行快速傅里叶变换,得到变换后的音频信号频谱;
[0102] 步骤k,提取所述音频信号频谱的所述幅值特征和所述相位特征,将所述幅值特征和相位特征作为频谱特征。
[0103] 进一步地,还可以对目标音频信号进行傅里叶变换、短时傅里叶变换、快速傅里叶变换、奈奎斯特变换、小波变换和莱斯变换等方式,得到变换后的音频信号频谱,得到音频信号频谱后可对音频信号频谱进行频谱功率计算和滤波,最后根据滤波后的信号进行幅值提取和相位提取,得到幅值特征和相位特征。
[0104] 在本实施例中对所述目标音频信号进行快速傅里叶变换,得到变换后的音频信号频谱,提取所述音频信号频谱的幅值特征和相位特征,将幅值特征和相位特征作为频谱特征,保证了频谱特征的有效获取。
[0105] 在一实施例中,在所述获取待处理的语音音频信号的步骤之前,所述方法还包括:
[0106] 步骤l,采集原始语音源的模拟语音信号,对所述模拟语音信号进行脉冲编码调制得到时域的数字波形信号,将所述数字波形信号作为语音音频信号。
[0107] 本实施例中,原始语音源的模拟语音信号可以使麦克风、耳机或其他信号采集设备采集到的信号,对模拟信号进行脉冲编码调制,包括采样、量化与编码得到时域的数字波形信号,将计算机可识别的数字波形信号作为语音音频信号,从而实现了对语音信号的有效处理。
[0108] 在一实施例中,在所述获取待处理的语音音频信号的步骤之前,所述方法还包括:
[0109] 步骤m,获取原始语音数据集,从所述原始语音数据集中读取语音数据,其中,所述语音数据至少包括纯净语音数据与噪声数据;
[0110] 原始语音数据集可由用户提前设置,如原始语音数据集可以包括为ICASSP 2022 DNS‑challenge全频段和EUROM、VCTK和LJ语音数据集,可选地,按照预设比例从原始语音数据集中随机读取纯净语音数据与噪声数据,其中,预设比例也是可由用户提前设置,如纯净语音数据与噪声数据的比例为90:10。
[0111] 步骤n,以第一预设方式调整所述纯净语音数据得到调整后的纯净语音数据,其中,所述第一预设方式包括将所述纯净语音数据的语音音量进行最大归一化得到归一化后的纯净语音数据,并以第一预设固定因子调整所述归一化后的纯净语音数据的语音音量;
[0112] 可以理解地是,以第一预设方式调整纯净语音数据可以包括,对纯净语音数据的语音音量做最大归一化处理后,在以第一预设固定因子对最大归一化后的语音音量进行调整,其中调整可以为以第一预设固定因子乘以最大归一化后的语音音量。进一步地,可以对最大归一化的后的语音音量乘以一个随机因子(随机因子可在0.1 1之间随机取值)得到调~整后的第一纯净语音数据。举例来说,假设获取到的纯净语音数据的语音音量最大归一化后为100,第一预设固定因子为0.8,则以一预设方式调整纯净语音数据后的纯净语音数据的语音音量为80,假设随机因子为0.2,则第一纯净语音数据的语音音量为20。
[0113] 步骤o,以第二预设方式调整所述噪声数据得到调整后的噪声数据,其中,所述第二预设方式包括以第二预设固定因子调整所述噪声数据的语音音量;
[0114] 噪声数据的调整与纯净语音数据类似,可以理解地,模型期望噪声数据的语音音量做衰减,对噪声数据以第二预设固定因子乘以噪声数据的语音音量。
[0115] 步骤p,将所述纯净语音数据与所述噪声数据作为输入语料,将所述调整后的纯净语音数据作为所述纯净语音数据对应的第一输出语料,将所述调整后的噪声数据作为所述噪声数据对应的第二输出语料;
[0116] 可以理解地,这里输入语料中的纯净语音数据可以是第一纯净语音数据。
[0117] 调整后的纯净语音数据作为纯净语音数据对应的第一输出语料。
[0118] 步骤q,依据所述输入语料、所述第一输出语料与所述二输出语料训练得到语音处理模型。
[0119] 可以理解地,依据所述输入语料、第一输出语料与二输出语料对语音处理模型进行训练得到完成预训练的语音处理模型。
[0120] 此外,参照图8,本申请还提供一种语音处理装置,语音处理装置包括:
[0121] 获取模块A10,用于获取待处理的语音音频信号;
[0122] 提取模块A20,用于将所述语音音频信号作为目标音频信号,提取所述目标音频信号的频谱特征;
[0123] 确定模块A30,用于确定所述目标音频信号对应的目标信号能量,将所述目标音频信号、所述频谱特征、所述目标信号能量作为特征参数;
[0124] 处理模块A40,用于将所述特征参数输入到预训练的语音处理模型中,以供所述语音处理模型输出处理后的语音音频信号。
[0125] 此外,本申请实施例还提出一种语音处理设备,语音处理设备括存储器、处理器及存储在所述存储器上并可在所述处理器上执行的语音处理程序,所述语音处理方法程序被所述处理器执行时实现如上述的语音处理方法的步骤。
[0126] 本申请语音处理方法设备具体实施方式与上述语音处理方法各实施例基本相同,在此不再赘述。
[0127] 此外,为实现上述目的,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有语音处理程序,语音处理程序被处理器执行时实现如上述的语音处理方法的步骤。
[0128] 本申请计算机可读存储介质具体实施方式与上述语音处理方法各实施例基本相同,在此不再赘述。
[0129] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0130] 上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0131] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,云端服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
[0132] 以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。