一种基于循环生成网络的语音生成方法转让专利
申请号 : CN202110860966.2
文献号 : CN113314109B
文献日 : 2021-11-02
发明人 : 汤鲲 , 朱和军 , 李磊 , 柳斌 , 王康
申请人 : 南京烽火星空通信发展有限公司
摘要 :
权利要求 :
1.一种基于循环生成网络的语音生成方法,其特征在于:包括按如下步骤i至步骤iv,获得语音序列生成器;以及按如下步骤A至步骤B,应用语音序列生成器,获得由目标语言字符串与相应音调序列组成的目标语料组所对应的目标语音序列;
步骤i.基于语言字符串与相应音调序列组成的语料组、以及语言字符串与真实语音序列组成的真实语音组,确定预设数量的样本;其中,各样本分别由彼此相同语言字符串的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii;
步骤ii.分别针对各个样本中的语料组Thc和真实语音组Yreal进行频谱合成处理,获得语料组Thc所对应的Mel频谱MT和真实语音组Yreal所对应的Mel频谱MY;然后进入步骤iii;
针对上述步骤ii设计两套方案应用,第一套方案分别针对各个样本,按如下步骤ii‑1‑
1至步骤ii‑1‑3,针对样本中的语料组Thc进行频谱合成处理,获得该语料组Thc所对应的Mel频谱MT;
步骤ii‑1‑1.应用分词/词性句法分析与文字标注多音消歧方法,获得语料组Thc所对应的音素,然后进入步骤ii‑1‑2;
步骤ii‑1‑2.应用embedding层将该语料组Thc所对应的音素转换为Embedding向量,然后进入步骤ii‑1‑3;
步骤ii‑1‑3.根据该语料组Thc所对应的Embedding向量,映射获得该语料组Thc中语言字符串所对应的音频特征,即获得该语料组Thc所对应的Mel频谱MT;
第二套方案分别针对各个样本,按如下步骤ii‑2‑1至步骤ii‑2‑3,针对样本中的真实语音组Yreal进行频谱提取处理,获得该真实语音组Yreal所对应的Mel频谱MY;
步骤ii‑2‑1.针对真实语音组Yreal中的真实语音序列执行预加重、分帧和加窗处理,获得各桢语音信号,然后进入步骤ii‑2‑2;
步骤ii‑2‑2.分别对各桢语音信号进行短时傅立叶变换STFT,获得各桢语音信号分别所对应的短时幅度谱,然后进入步骤ii‑2‑3;
步骤ii‑2‑3.应用Mel滤波器分别对各桢语音信号所对应的短时幅度谱进行滤波处理,更新各桢语音信号分别所对应的短时幅度谱,并组成获得该真实语音组Yreal所对应的Mel频谱MY;
步骤iii.基于预设第一网络模型,以样本中语料组Thc所对应Mel频谱MT为输入,相应仿真语音序列Yfake为输出,构建生成器G;
基于预设第二网络模型,以仿真语音序列Yfake与对应样本中真实语音组Yreal的真实语音序列之间的对抗损失,构建判别器D;
基于预设第三网络模型,以针对仿真语音序列Yfake进行频谱提取所获频谱Xrec、以及对应样本中语料组Thc所对应Mel频谱MT、真实语音组Yreal所对应Mel频谱MY三者之间的一致性,构建判别器Y;然后进入步骤iv;
步骤iv.基于各个样本,结合判别器D所获结果与判别器Y所获结果融合所构建的损失函数,以及预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;
步骤A.针对由目标语言字符串与相应音调序列所组成目标语料组,执行频谱合成处理,获得目标语料组所对应的Mel目标频谱,然后进入步骤B;
步骤B.针对Mel目标频谱,应用语音序列生成器,获得相对应的目标语音序列。
2.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述步骤iv中,基于各个样本,结合如下判别器D所获结果与判别器Y所获结果融合所构建的损失函数:
LGAN_y=E[logY(MT)]+E[logY(1‑P(y))]+E[logY(1‑P(G(MT)))]Lcycle=E[||G(P(y))‑y||1]+E[||P(G(MT))‑MT||1]获得损失值Loss,并结合预设损失收敛阈值,针对生成器G进行训练,所获训练后的生成器G即为语音序列生成器;其中,y表示真实语音组Yreal中的真实语音序列,G(·)表示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别器Y所对应的函数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值。
3.根据权利要求2所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设融合阈值m=0.6,所述预设损失收敛阈值等于0.01。
4.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述用于构建生成器G的预设第一网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一激活层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层;其中各第一残差网络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构,各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,第一上采样层、第二上采样层分别均为8级残差模块串联,第三上采样层、第四上采样层分别均为2级残差模块串联。
5.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设第二网络模型自其输入端至其输出端方向,依次包括第一卷积层、第一下采样层、第二卷积层、第三卷积层,其中,第一卷积层中kernel_size=15、padding=0,第二卷积层中kernel_size=5,stride=1,padding=2,第三卷积层中kernel_size=3,stride=1,padding=1,第一下采样层为4级残差模块串联。
6.根据权利要求1所述一种基于循环生成网络的语音生成方法,其特征在于:所述预设第三网络模型自其输入端至其输出端方向,依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、Dense Block2、第三卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸3x3的最大池化层、且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构成,各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
说明书 :
一种基于循环生成网络的语音生成方法
技术领域
背景技术
接,参数合成以及端到端的语音合成技术。
进行拼接,实现语音合成的功能。一般此技术需要大量的录音,录音量越大,效果越好,通常
的好的音库,录音量在50小时以上;但是由于需要的录音量大,覆盖要求高,字间协同过渡
生硬,不平滑,不是很自然。
个文本时,先将文本序列映射出对应的音频特征,再通过声学模型(声码器)将音频特征转
化为我们听得懂的声音,但是音质没有波形拼接的好,机械感强,有杂音等。
语言分析部分。所以端到端的语音合成技术,大大降低了对语言学知识的要求,且可以实现
多种语言的语音合成,不再受语言学知识的限制。通过端到端合成的音频,效果得到的进一
步的优化,声音更加贴近真人,但是性能大大降低,合成的音频背景较为单一。
音识别模型,训练样本仅仅通过人工标注大量的语音识别数据来获得,以此保证训练效果。
富度是语音识别训练过程中必不可少的环节。
化、情绪化和定制化。
合成的音频,整体感情和情绪是比较平稳的,没有很大的起伏。
发明内容
骤A至步骤B,应用语音序列生成器,获得由目标语言字符串与相应音调序列组成的目标语
料组所对应的目标语音序列;
的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii;
iii;
致性,构建判别器Y;然后进入步骤iv;
序列生成器;
的Mel频谱MT;
组Yreal所对应的Mel频谱MY;
的Mel频谱MY。
示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别器Y所对应的函
数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值。
络层、第二上采样层、第二残差网络层、第三上采样层、第三残差网络层、第四上采样层、第
四残差网络层、第二卷积层、第二激活层;其中各第一残差网络层、第二残差网络层、第三残
差网络层、第四残差网络层分别自其输入端至其输出端均包括3级残差子模块串联结构,各
残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,第一上采样层、第二上采样层分
别均为8级残差模块串联,第三上采样层、第四上采样层分别均为2级残差模块串联。
kernel_size=15、padding=0,第二卷积层中kernel_size=5,stride=1,padding=2,第
三卷积层中kernel_size=3,stride=1,padding=1,第一下采样层为4级残差模块串联。
卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸3x3的最大池化层、
且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构成,各子模块分别
均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
真实语音组Yreal所对应的Mel频谱MY,结合预设第一网络模型所构建生成器G与预设第二网
络模型所构建判别器D融合的损失函数,针对预设第一网络模型所构建生成器G进行训练,
如此在语音序列生成器的实际应用中,能够生成更加丰富的音色和情绪,将极大增强样本
的普适性和丰富性,真正做到对语音识别网络的有效训练,进而获得语音序列生成器,将有
效提高实际应用中语音获得的效率与准确率。
附图说明
具体实施方式
的语料组Thc与真实语音组Yreal所组成,然后进入步骤ii。
列”:“序列Yi”};其中对于各个字符的音调来说,音调分为5个(“0”,“1”,“2”,“3”“4”)。
iii。
得该语料组Thc所对应的Mel频谱MT。
提取处理,获得该真实语音组Yreal所对应的Mel频谱MY。
的Mel频谱MY。
模型自其输入端至其输出端方向,如图4、以及下表1所示,依次包括第一卷积层、第一激活
层、第一上采样层、第一残差网络层、第二上采样层、第二残差网络层、第三上采样层、第三
残差网络层、第四上采样层、第四残差网络层、第二卷积层、第二激活层;其中各第一残差网
络层、第二残差网络层、第三残差网络层、第四残差网络层分别自其输入端至其输出端均包
括3级残差子模块串联结构,各残差子模块分别均为3*1尺寸激活层与卷积层的串联结构,
第一上采样层、第二上采样层分别均为8级残差模块串联,第三上采样层、第四上采样层分
别均为2级残差模块串联。
第一卷积层 kernel_size=7,padding=0
第一leakYrelu Alpha=0.2
第一上采样层 8X
第一残差网络层 3*(IReLU3*1,dilation=1conv)
第二上采样层 8X
第二残差网络层 3*(IReLU3*1,dilation=1conv)
第三上采样层 2X
第三残差网络层 3*(IReLU3*1,dilation=1conv)
第四上采样层 2X
第四残差网络层 3*(IReLU3*1,dilation=1conv)
第二卷积层 kernel_size=7,padding=0
第二leakYrelu Alpha=0.2
输出 波形图
模型自其输入端至其输出端方向,如图5、下表2所示,依次包括第一卷积层、第一下采样层、
第二卷积层、第三卷积层,其中,第一卷积层中kernel_size=15、padding=0,第二卷积层
中kernel_size=5,stride=1,padding=2,第三卷积层中kernel_size=3,stride=1,
padding=1,第一下采样层为4级残差模块串联。
致性,构建判别器Y;实际应用中,如图6所示,用于构建判别器Y的预设第三网络模型自其输
入端至其输出端方向,依次包括第一卷积层、Dense Block1、第二卷积层、第一池化层、
Dense Block2、第三卷积层,其中,各卷积层的尺寸为7x7、且stride=2,第一池化层为尺寸
3x3的最大池化层、且stride=2,Dense Block1、Dense Block2分别均由12级子模块串联构
成,各子模块分别均为1x1尺寸卷积层与3x3尺寸卷积层的串联结构。
序列,G(·)表示生成器G所对应的函数,D(·)表示判别器D所对应的函数,Y(·)表示判别
器Y所对应的函数,P(·)表示频谱提取函数,E(·)表示期望函数,m表示预设融合阈值,诸
如m=0.6。
目标语音序列。
中的仿真数据,转换到空间Y中,使得仿真数据更加真实,帮助语音识别网络模型的训练。但
是以往的训练往往导致,每个Xi和每个Yi之间只能一一对应,甚至出现所有仿真数据X都会
对应到一个Yi。使用了本专利所述的循环生成网络,保证了仿真数据Xi会对应到所有的Y。
对话语音,而本方案可以生成“嘈杂的人群和餐厅”等混合噪声背景对话语音。
的普适性和丰富性,真正做到有效帮助语音识别网络训练。
MT、以及真实语音组Yreal所对应的Mel频谱MY,结合预设第一网络模型所构建生成器G与预设
第二网络模型所构建判别器D融合的损失函数,针对预设第一网络模型所构建生成器G进行
训练,如此在语音序列生成器的实际应用中,能够生成更加丰富的音色和情绪,将极大增强
样本的普适性和丰富性,真正做到对语音识别网络的有效训练,进而获得语音序列生成器,
将有效提高实际应用中语音获得的效率与准确率。
做出各种变化。