电子装置、语音合成方法和计算机可读存储介质转让专利

申请号 : CN201710874876.2

文献号 : CN107564511B

文献日 : 2018-09-11

本发明公开一种电子装置、语音合成方法和存储介质，该方法包括：在收到待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征；根据各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征；根据该识别出的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。本发明技术方案使语音合成结果的精度高，自然度和清晰度较佳。

1.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的语音合成系统，所述语音合成系统被所述处理器执行时实现如下步骤：A、在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

B、根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

C、将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征，所述预设类型识别模型的训练过程包括：C1、获取预设数量的训练文本和对应的训练语音；

C2、将各个训练文本中的语句及词组拆分成单字，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出各个训练文本对应的各个单字的语音特征；

C3、根据预先确定的单字和发音时长之间的映射关系，确定各个单字对应的发音时长，根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量；

C4、利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征，根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联，得到声学特征向量与声纹特征的关联数据；

C5、将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

C6、利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证；

C7、若准确率大于预设阈值，则模型训练结束；

C8、若准确率小于或者等于预设阈值，则增加训练文本和对应的训练语音的数量，并基于增加后的训练文本和对应的训练语音重新执行上述步骤C2、C3、C4、C5和C6；

D、根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

2.如权利要求1所述的电子装置，其特征在于，所述预设类型识别模型为深度前馈网络模型，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:136L-

75N-25S-75N-25L，L表示采用线性激活函数，N表示采用正切性激活函数，S表示采用sigmoid激活函数。

3.如权利要求1或2所述的电子装置，其特征在于，所述预设滤波器为Mel滤波器，所述利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：将各个训练语音进行预加重、分帧和加窗处理；

对每一个加窗，通过傅立叶变换得到对应的频谱；

将得到的频谱通过Mel滤波器得到Mel频谱；

在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

4.如权利要求3所述的电子装置，其特征在于，所述倒谱分析包括取对数和做逆变换。

5.一种语音合成方法，其特征在于，该方法包括步骤：

在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征，所述预设类型识别模型的训练过程包括：C1、获取预设数量的训练文本和对应的训练语音；

C5、将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

C7、若准确率大于预设阈值，则模型训练结束；

根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

6.如权利要求5所述的语音合成方法，其特征在于，所述预设类型识别模型为深度前馈网络模型，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:

136L-75N-25S-75N-25L，L表示采用线性激活函数，N表示采用正切性激活函数，S表示采用sigmoid激活函数。

7.如权利要求5或6所述的语音合成方法，其特征在于，所述预设滤波器为Mel滤波器，所述利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：将各个训练语音进行预加重、分帧和加窗处理；

对每一个加窗，通过傅立叶变换得到对应的频谱；

将得到的频谱通过Mel滤波器得到Mel频谱；

在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有语音合成系统，所述语音合成系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求5-7中的任一项所述的语音合成方法。

电子装置、语音合成方法和计算机可读存储介质

技术领域

[0001] 本发明涉及，特别涉及一种电子装置、语音合成方法和计算机可读存储介质。

背景技术

[0002] 语音合成技术，也被称为文语转换技术(Text to Speech,speech synthesis，TTS)，其目标是让机器通过识别和理解，把文本信息变成人造语音输出，是现代人工智能发展的重要分支。语音合成能够在质量检测、机器问答、残障辅助等领域发挥极大作用，方便人们的生活，而语音合成的自然度和清晰度直接决定了技术应用的有效性。目前，现有的语音合成方案通常采用传统混合高斯技术来构建语音单元，然而，语音合成归根结底是要完成一个从语素(语言学空间)到音素(声学空间)的建模映射，要达成的是一种复杂的非线性的模式映射，采用传统混合高斯技术无法实现高精度、高深度的特征挖掘和表达，容易出错。

发明内容

[0003] 本发明提供一种电子装置、语音合成方法及计算机可读存储介质，旨在使语音合成结果的具有高精度、自然度和清晰度。

[0004] 为实现上述目的，本发明提出的电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的语音合成系统，所述语音合成系统被所述处理器执行时实现如下步骤：

[0005] A、在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

[0006] B、根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

[0007] C、将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征；

[0008] D、根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

[0009] 优选地，所述预设类型识别模型为深度前馈网络模型，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:136L-75N-25S-75N-25L，L表示采用线性激活函数，N表示采用正切性激活函数，S表示采用sigmoid激活函数。

[0010] 优选地，所述预设类型识别模型的训练过程如下：

[0011] E1、获取预设数量的训练文本和对应的训练语音；

[0012] E2、将各个训练文本中的语句及词组拆分成单字，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出各个训练文本对应的各个单字的语音特征；

[0013] E3、根据预先确定的单字和发音时长之间的映射关系，确定各个单字对应的发音时长，根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量；

[0014] E4、利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征，根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联，得到声学特征向量与声纹特征的关联数据；

[0015] E5、将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

[0016] E6、利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证；

[0017] E7、若准确率大于预设阈值，则模型训练结束；

[0018] E8、若准确率小于或者等于预设阈值，则增加训练文本和对应的训练语音的数量，并基于增加后的训练文本和对应的训练语音重新执行上述步骤E2、E3、E4、E5和E6。

[0019] 优选地，所述预设滤波器为Mel滤波器，所述利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：

[0020] 将各个训练语音进行预加重、分帧和加窗处理；

[0021] 对每一个加窗，通过傅立叶变换得到对应的频谱；

[0022] 将得到的频谱通过Mel滤波器得到Mel频谱；

[0023] 在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

[0024] 优选地，所述倒谱分析包括取对数和做逆变换。

[0025] 本发明还提出一种自动合成语音方法，该方法包括步骤：

[0026] 在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

[0027] 根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

[0028] 将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征；

[0029] 根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

[0030] 优选地，所述预设类型识别模型为深度前馈网络模型，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:136L-75N-25S-75N-25L，L表示采用线性激活函数，N表示采用正切性激活函数，S表示采用sigmoid激活函数。

[0031] 优选地，所述预设类型识别模型的训练过程如下：

[0032] E1、获取预设数量的训练文本和对应的训练语音；

[0033] E2、将各个训练文本中的语句及词组拆分成单字，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出各个训练文本对应的各个单字的语音特征；

[0034] E3、根据预先确定的单字和发音时长之间的映射关系，确定各个单字对应的发音时长，根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量；

[0035] E4、利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征，根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联，得到声学特征向量与声纹特征的关联数据；

[0036] E5、将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

[0037] E6、利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证；

[0038] E7、若准确率大于预设阈值，则模型训练结束；

[0039] E8、若准确率小于或者等于预设阈值，则增加训练文本和对应的训练语音的数量，并基于增加后的训练文本和对应的训练语音重新执行上述步骤E2、E3、E4、E5和E6。

[0040] 优选地，所述预设滤波器为Mel滤波器，所述利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：

[0041] 将各个训练语音进行预加重、分帧和加窗处理；

[0042] 对每一个加窗，通过傅立叶变换得到对应的频谱；

[0043] 将得到的频谱通过Mel滤波器得到Mel频谱；

[0044] 在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

[0045] 本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有语音合成系统，所述语音合成系统可被至少一个处理器执行，以使所述至少一个处理器执行上述任一项所述的语音合成方法。

[0046] 本发明技术方案首先将待合成文本中的词组、语句拆分成单字，并确定各个单字对应的发音基频、发音时长和语音特征；然后，根据待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；再用训练好的预设类型识别模型对提取出的预设类型声学特征向量进行识别，从而识别出该待合成文本对应的声纹特征；最终根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。与现有技术采用传统混合高斯技术构建语音单元的方式相比，本案通过采用训练好的预设类型识别模型来识别待合成文本对应的声纹特征，该预设类型识别模型为预先通过大量数据已经训练完成的，因此，识别得到的待合成文本对应的声纹特征的精确度高，进而，根据该待合成文本对应的声纹特征和各个单字的发音基频，生成的该待合成文本对应的语音，自然度和清晰度都较佳，且不易出错。

附图说明

[0047] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

[0048] 图1为本发明语音合成方法较佳实施例的流程示意图；

[0049] 图2为本发明语音合成方法较佳实施例中预设类型识别模型的训练过程的流程示意图；

[0050] 图3为本发明语音合成系统较佳实施例的运行环境示意图；

[0051] 图4为本发明语音合成系统较佳实施例的程序模块图。

[0052] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0053] 以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

[0054] 如图1所示，图1为本发明语音合成方法较佳实施例的流程示意图。

[0055] 本实施例中，该语音合成方法包括：

[0056] 步骤S10，在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

[0057] 发音基频：有时候也可以称为音高，指的是发音的基础频率，当发声体由于振动而发出声音时，发出的声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基频。音素：指的是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素，如〔ma〕包含〔m〕、〔a〕两个发音动作，是两个音素，相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。例如“普通话”，由三个音节“pu、tong、hua”组成，可以分析成“p，u，t，o，ng，h，u，a”八个音素。本实施例中，单字的发音基频和发音时长(即音长)可以通过预先训练的模型确定，比如通过预先训练的隐马尔科夫模型(Hidden Markov Model，HMM)确定；所述预设类型语音特征，例如可以包括音节、音素、声母、韵母。语音合成系统在接收到待进行语音合成的待合成文本后，对该待合成文本中的文字语句和词组进行拆分，以拆分成多个单字的形式；系统中具有预先确定的发音字典(例如，普通话发音字典、粤语发音字典等)以及预先确定的单字、发音时长、发音基频这三者之间的映射表，语音合成系统在将待合成文本中的语句和词组拆分成单字后，再通过查找该映射表就能找出各个单字对应的发音时长和发音音频，以及根据该预先确定的发音字典将各个单字再拆分成预设类型语音特征，从而得到该待合成文本对应的各个单字的语音特征。

[0058] 步骤S20，根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

[0059] 例如，所述预设类型声学特征向量为声学和语言学特征向量，所述预设类型声学特征向量包括下表1中的声学和语言学特征向量，即包括：因素类型、音长、音高、重音位置、口型、韵母|辅音类型、发音部位、韵母|辅音是否发音，以及是否重音、音节位置、音素在音节中的位置、音节在字中的位置。

[0060] 表1 声学特征向量示例

[0061]模型训练输入输出特征名称发音特征
1.当前音素的发音特征 1.音素类型(元音辅音、声母韵母)
2.前一个音素的发音特征 2.音长
3.下一个音素的发音特征 3.音高
4.当前音素在字中的位置 4.重音位置
5.当前音素的音节特征 5.口形
6.前一个音素的音节特征 6.韵母|辅音类型
7.后一个音素的音节特征 7.发音部位
8.当前音素所在的字在句子中的位置 8.韵母|辅音是否发音
9.时序特征(输出) 音节特征
10.发音长度(输出) 1.是否重音
11.音素状态信息(输入) 2.音节位置
3.音素在音节中的位置
4.音节在字中的位置

[0062] 步骤S30，将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征；

[0063] 语音合成系统预先训练好了预设类型识别模型，该预设类型识别模型训练时输入输出特征名称可参照上表1；语音合成系统在提取出该待合成文本对应的预设类型声学特征向量后，将提取出的预设类型声学特征向量输入到该训练好的预设类型识别模型中，该识别模型识别出该待合成文本对应的声纹特征。

[0064] 步骤S40，根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

[0065] 当语音合成系统得到待合成文本对应的声纹特征后，语音合成系统即可根据该得到的声纹特征和各个单字的发音基频，生成该合成文本对应的语音，如此即完成待合成文本的语音合成。

[0066] 本实施例方案首先将待合成文本中的词组、语句拆分成单字，并确定各个单字对应的发音基频、发音时长和语音特征；然后，根据待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；再用训练好的预设类型识别模型对提取出的预设类型声学特征向量进行识别，从而识别出该待合成文本对应的声纹特征；最终根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。与现有技术采用传统混合高斯技术构建语音单元的方式相比，本实施例方案通过采用训练好的预设类型识别模型来识别待合成文本对应的声纹特征，该预设类型识别模型为预先通过大量数据已经训练完成的，因此，识别得到的待合成文本对应的声纹特征的精确度高，进而，根据该待合成文本对应的声纹特征和各个单字的发音基频，生成的该待合成文本对应的语音，自然度和清晰度都较佳，且不易出错。

[0067] 优选地，本实施例中，所述预设类型识别模型为深度前馈网络模型(deep feedforward network model，DNN)，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:136L-75N-25S-75N-25L，L表示采用线性激活函数(Linear
Activation Function)，N表示采用正切性激活函数(tanh Tangent Activation
Function)，S表示采用sigmoid激活函数。

[0068] 优选地，如图2所示，所述预设类型识别模型的训练过程如下：

[0069] 步骤E1，获取预设数量的训练文本和对应的训练语音；

[0070] 例如，预设数量为10万个，即获取10万个训练文本和该10万个训练文本对应的训练语音。本实施例中，所述训练文本包括但不限于汉语普通话的单字、词组、语句；例如，所述训练文本还可包括英文的字母、词组、语句等。

[0071] 步骤E2，将各个训练文本中的语句及词组拆分成单字，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出各个训练文本对应的各个单字的语音特征；

[0072] 语音合成系统先将各个训练文本中的语句和词组全部拆分成单字，再通过语音合成系统中预先确定的发音字典将各个单字拆分成预设类型语音特征，从而确定出每个训练文本对应的各个单字的语音特征；其中，该预设类型语音特征例如包括音节、音素、声母、韵母。

[0073] 步骤E3，根据预先确定的单字和发音时长之间的映射关系，确定各个单字对应的发音时长，根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量；

[0074] 语音合成系统中具有单字和发音时长之间的映射表，根据该映射表就可以查询到各个训练文本所对应的各个单字的发音时长；在确定了各个训练文本对应的各个单字的发音时长后，语音合成系统则根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量。例如，该预设类型声学特征向量为声学和语言学特征向量，该预设类型声学特征向量具体包括上述表1中的声学和语言学特征向量。

[0075] 步骤E4，利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征，根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联，得到声学特征向量与声纹特征的关联数据；

[0076] 本实施例中，所述预设滤波器例如为梅尔(Mel)滤波器。语音合成系统利用该预设滤波器对各个训练文本对应的训练语音进行处理，以提取出各个训练语音的预设类型声纹特征，再根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征关联，从而得到声学特征向量与声纹特征的关联数据。本实施例中，该预设类型声纹特征可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，所述训练语音的所有系数对应一个特征矩阵。

[0077] 步骤E5，将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

[0078] 从所述声纹特征向量与声纹特征的关联数据中分出一个训练集和一个验证集，所述训练集和验证集分别占所述关联数据的第一百分比和第二百分比，所述第一百分比和第二百分比之和小于或者等于100％，即可以是将整个关联数据刚好分成所述训练集和验证集，也可以是将所述关联数据中的一部分分成所述训练集和验证集；例如，所述第一百分比为65％，所述第二百分比为30％。

[0079] 步骤E6，利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证；

[0080] 系统通过采用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，在所述预设类型识别模型训练完成后，再通过验证集对该预设类型识别模型进行准确率的验证。

[0081] 步骤E7，若准确率大于预设阈值，则模型训练结束；

[0082] 如果经过验证集对该预设类型识别模型的验证，得到的准确率超过了预设阈值(例如，98.5％)，则说明对该预设类型识别模型的训练效果已经达到了预期标准，则结束模型训练，语音合成系统可将该训练的预设类型识别模型进行运用。

[0083] 步骤E8，若准确率小于或者等于预设阈值，则增加训练文本和对应的训练语音的数量，并基于增加后的训练文本和对应的训练语音重新执行上述步骤E2、E3、E4、E5和E6。

[0084] 如果经过验证集对该预设类型识别模型的验证，得到的准确率小于或等于预设阈值，说明对该预设类型识别模型的训练效果还没有达到预期标准，可能是训练集数量不够或验证集数量不够，所以，在这种情况时，则增加训练文本和对应的训练语音的数量(例如，每次增加固定数量或每次增加随机数量)，然后在这基础上，重新执行上述步骤E2、E3、E4、E5和E6，如此循环执行，直至达到了步骤E7的要求，则结束模型训练。

[0085] 本实施例优选所述预设滤波器为Mel滤波器(梅尔滤波器)；所述步骤E4中，利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：

[0086] 将各个训练语音进行预加重、分帧和加窗处理；

[0087] 首先对各个训练语音均进行预加重、分帧及加窗处理；其中，预加重就是对训练语音高频分量进行补偿。

[0088] 对每一个加窗，通过傅立叶变换得到对应的频谱；

[0089] 然后，再对各个训练语音的每一个加窗进行傅立叶变换(即FFT变换)，以得到对应的频谱。

[0090] 将得到的频谱通过Mel滤波器得到Mel频谱；

[0091] 接着将经傅里叶变换得到的频谱通过Mel滤波器，如此得到Mel频谱。

[0092] 在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

[0093] 本实施例的倒谱分析包括取对数、做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数。

[0094] 本发明还提出一种语音合成系统。

[0095] 请参阅图3，是本发明语音合成系统10较佳实施例的运行环境示意图。

[0096] 在本实施例中，语音合成系统10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括，但不仅限于，存储器11、处理器12及显示器13。图3仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

[0097] 存储器11为一种计算机存储介质，在一些实施例中可以是电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据，例如语音合成系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

[0098] 处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行语音合成系统10等。

[0099] 显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面，例如业务定制界面等。电子装置1的部件11-13通过系统总线相互通信。

[0100] 请参阅图4，是本发明语音合成系统10较佳实施例的程序模块图。在本实施例中，语音合成系统10可以被分割成一个或多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本发明。例如，在图4中，语音合成系统10可以被分割成确定模块101、提取模块102、识别模块103及生成模块104。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述语音合成系统10在电子装置1中的执行过程，其中：

[0101] 确定模块101，用于在收到待进行语音合成的待合成文本后，将该待合成文本中的语句及词组拆分成单字，根据预先确定的单字、发音时长、发音基频三者之间的映射关系，确定各个单字对应的发音时长和发音基频，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出该待合成文本对应的各个单字的语音特征；

[0102] 本实施例中，单字的发音基频和发音时长(即音长)可以通过预先训练的模型确定，比如通过预先训练的隐马尔科夫模型(Hidden Markov Model，HMM)确定；所述预设类型语音特征，例如可以包括音节、音素、声母、韵母。语音合成系统在接收到待进行语音合成的待合成文本后，对该待合成文本中的文字语句和词组进行拆分，以拆分成多个单字的形式；系统中具有预先确定的发音字典(例如，普通话发音字典、粤语发音字典等)以及预先确定的单字、发音时长、发音基频这三者之间的映射表，语音合成系统在将待合成文本中的语句和词组拆分成单字后，再通过查找该映射表就能找出各个单字对应的发音时长和发音音频，以及根据该预先确定的发音字典将各个单字再拆分成预设类型语音特征，从而得到该待合成文本对应的各个单字的语音特征。

[0103] 提取模块102，用于根据该待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；

[0104] 例如，所述预设类型声学特征向量为声学和语言学特征向量，所述预设类型声学特征向量包括下表2中的声学和语言学特征向量，即包括：因素类型、音长、音高、重音位置、口型、韵母|辅音类型、发音部位、韵母|辅音是否发音，以及是否重音、音节位置、音素在音节中的位置、音节在字中的位置。

[0105] 表2 声学特征向量示例

[0106]

[0107]

[0108] 识别模块103，用于将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中，识别出该待合成文本对应的声纹特征；

[0109] 语音合成系统预先训练好了预设类型识别模型，该预设类型识别模型训练时输入输出特征名称可参照上表1；语音合成系统在提取出该待合成文本对应的预设类型声学特征向量后，将提取出的预设类型声学特征向量输入到该训练好的预设类型识别模型中，该识别模型识别出该待合成文本对应的声纹特征。

[0110] 生成模块104，用于根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。

[0111] 当语音合成系统得到待合成文本对应的声纹特征后，语音合成系统即可根据该得到的声纹特征和各个单字的发音基频，生成该合成文本对应的语音，如此即完成待合成文本的语音合成。

[0112] 本实施例方案首先将待合成文本中的词组、语句拆分成单字，并确定各个单字对应的发音基频、发音时长和语音特征；然后，根据待合成文本对应的各个单字的语音特征和发音时长，提取出该待合成文本对应的预设类型声学特征向量；再用训练好的预设类型识别模型对提取出的预设类型声学特征向量进行识别，从而识别出该待合成文本对应的声纹特征；最终根据该待合成文本对应的声纹特征和各个单字的发音基频，生成该待合成文本对应的语音。与现有技术采用传统混合高斯技术构建语音单元的方式相比，本实施例方案通过采用训练好的预设类型识别模型来识别待合成文本对应的声纹特征，该预设类型识别模型为预先通过大量数据已经训练完成的，因此，识别得到的待合成文本对应的声纹特征的精确度高，进而，根据该待合成文本对应的声纹特征和各个单字的发音基频，生成的该待合成文本对应的语音，自然度和清晰度都较佳，且不易出错。

[0113] 优选地，本实施例中，所述预设类型识别模型为深度前馈网络模型(deep feedforward network model，DNN)，该深度前馈网络模型是一个五层的神经网络，各层的神经元节点数目分别为:136L-75N-25S-75N-25L，L表示采用线性激活函数(Linear
Activation Function)，N表示采用正切性激活函数(tanh Tangent Activation
Function)，S表示采用sigmoid激活函数。

[0114] 具体地，本实施例中的所述预设类型识别模型的训练过程如下：

[0115] 步骤E1，获取预设数量的训练文本和对应的训练语音；

[0116] 例如，预设数量为10万个，即获取10万个训练文本和该10万个训练文本对应的训练语音。本实施例中，所述训练文本包括但不限于汉语普通话的单字、词组、语句；例如，所述训练文本还可包括英文的字母、词组、语句等。

[0117] 步骤E2，将各个训练文本中的语句及词组拆分成单字，根据预先确定的发音字典将各个单字拆分成预设类型语音特征，确定出各个训练文本对应的各个单字的语音特征；

[0118] 语音合成系统先将各个训练文本中的语句和词组全部拆分成单字，再通过语音合成系统中预先确定的发音字典将各个单字拆分成预设类型语音特征，从而确定出每个训练文本对应的各个单字的语音特征；其中，该预设类型语音特征例如包括音节、音素、声母、韵母。

[0119] 步骤E3，根据预先确定的单字和发音时长之间的映射关系，确定各个单字对应的发音时长，根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量；

[0120] 语音合成系统中具有单字和发音时长之间的映射表，根据该映射表就可以查询到各个训练文本所对应的各个单字的发音时长；在确定了各个训练文本对应的各个单字的发音时长后，语音合成系统则根据各个训练文本对应的各个单字的语音特征和发音时长，提取出各个训练文本对应的预设类型声学特征向量。例如，该预设类型声学特征向量为声学和语言学特征向量，该预设类型声学特征向量具体包括上述表2中的声学和语言学特征向量。

[0121] 步骤E4，利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征，根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联，得到声学特征向量与声纹特征的关联数据；

[0122] 本实施例中，所述预设滤波器例如为梅尔(Mel)滤波器。语音合成系统利用该预设滤波器对各个训练文本对应的训练语音进行处理，以提取出各个训练语音的预设类型声纹特征，再根据训练文本和训练语音的映射关系，将各个训练文本的声学特征向量与对应的训练语音的声纹特征关联，从而得到声学特征向量与声纹特征的关联数据。本实施例中，该预设类型声纹特征可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，所述训练语音的所有系数对应一个特征矩阵。

[0123] 步骤E5，将所述关联数据分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；

[0124] 从所述声纹特征向量与声纹特征的关联数据中分出一个训练集和一个验证集，所述训练集和验证集分别占所述关联数据的第一百分比和第二百分比，所述第一百分比和第二百分比之和小于或者等于100％，即可以是将整个关联数据刚好分成所述训练集和验证集，也可以是将所述关联数据中的一部分分成所述训练集和验证集；例如，所述第一百分比为65％，所述第二百分比为30％。

[0125] 步骤E6，利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证；

[0126] 系统通过采用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练，在所述预设类型识别模型训练完成后，再通过验证集对该预设类型识别模型进行准确率的验证。

[0127] 步骤E7，若准确率大于预设阈值，则模型训练结束；

[0128] 如果经过验证集对该预设类型识别模型的验证，得到的准确率超过了预设阈值(例如，98.5％)，则说明对该预设类型识别模型的训练效果已经达到了预期标准，则结束模型训练，语音合成系统可将该训练的预设类型识别模型进行运用。

[0129] 步骤E8，若准确率小于或者等于预设阈值，则增加训练文本和对应的训练语音的数量，并基于增加后的训练文本和对应的训练语音重新执行上述步骤E2、E3、E4、E5和E6。

[0130] 如果经过验证集对该预设类型识别模型的验证，得到的准确率小于或等于预设阈值，说明对该预设类型识别模型的训练效果还没有达到预期标准，可能是训练集数量不够或验证集数量不够，所以，在这种情况时，则增加训练文本和对应的训练语音的数量(例如，每次增加固定数量或每次增加随机数量)，然后在这基础上，重新执行上述步骤E2、E3、E4、E5和E6，如此循环执行，直至达到了步骤E7的要求，则结束模型训练。

[0131] 本实施例优选所述预设滤波器为Mel滤波器(梅尔滤波器)；上述步骤E4中，利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征的步骤包括：

[0132] 将各个训练语音进行预加重、分帧和加窗处理；

[0133] 首先对各个训练语音均进行预加重、分帧及加窗处理；其中，预加重就是对训练语音高频分量进行补偿。

[0134] 对每一个加窗，通过傅立叶变换得到对应的频谱；

[0135] 然后，再对各个训练语音的每一个加窗进行傅立叶变换(即FFT变换)，以得到对应的频谱。

[0136] 将得到的频谱通过Mel滤波器得到Mel频谱；

[0137] 接着将经傅里叶变换得到的频谱通过Mel滤波器，如此得到Mel频谱。

[0138] 在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，该MFCC就是这帧语音的声纹特征。

[0139] 本实施例的倒谱分析包括取对数、做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数。

[0140] 本发明还提出一种计算机可读存储介质，该计算机可读存储介质存储有语音合成系统，所述语音合成系统可被至少一个处理器执行，以使所述至少一个处理器执行上述任一实施例中的语音合成方法。

[0141] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

电子装置、语音合成方法和计算机可读存储介质转让专利

申请号 : CN201710874876.2

文献号 : CN107564511B

文献日 : 2018-09-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁浩 , 程宁 , 王健宗 , 肖京

申请人 : 平安科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :