语音合成方法、装置和计算机存储介质转让专利
申请号 : CN202110264110.9
文献号 : CN112687258B
文献日 : 2021-07-09
发明人 : 智鹏鹏 , 杨嵩
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种语音合成方法,其特征在于,包括:获取待合成的混合序列,其中,所述混合序列包括待合成文本和待合成图形,所述待合成图形包括图形文本和图形公式中的至少一个;
将所述混合序列所包括的所述待合成文本和所述待合成图形分离;
将所述待合成图形输入图形识别模型,识别所述图形文本所包括的识别文本,并将所述图形公式识别为LaTeX字符;
根据所述图形文本和所述图形公式在所述混合序列中的位置,对所述待合成文本、所述识别文本和所述LaTeX字符进行合并,获得文本序列;
将所述文本序列输入语音合成模型,通过所述语音合成模型将所述文本序列转换为音频;
所述将所述待合成图形输入图形识别模型,识别所述图形文本所包括的识别文本,并将所述图形公式识别为LaTeX字符,包括:通过所述图形识别模型包括的卷积神经网络CNN部分,提取所述待合成图形的特征图;
将所述特征图的每一列作为一个时间片,输入所述图形识别模型包括的循环神经网络RNN部分,获得用于表征文本序列特征的序列特征矩阵;
将所述序列特征矩阵输入softmax函数,获得后验概率矩阵;
根据所述后验概率矩阵,确定所述图形文本所包括的识别文本或所述图形公式对应的LaTeX字符。
2.根据权利要求1所述的方法,其特征在于,所述根据所述后验概率矩阵,确定所述图形文本所包括的识别文本或所述图形公式对应的LaTeX字符,包括:分别将所述后验概率矩阵的每一列输入argmax函数,获得所述argmax函数的输出结果;
针对所述后验概率矩阵的每一列,根据所述argmax函数的输出结果,确定所述待合成图形中对应列区域的字符;
根据所述待合成图形中各列区域的字符,确定所述图形文本所包括的识别文本或所述图形公式对应的LaTeX字符。
3.根据权利要求1或2所述的方法,其特征在于,所述RNN部分包括深层双向长短时记忆网络LSTM。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本序列输入语音合成模型,通过所述语音合成模型将所述文本序列转换为音频,包括:将所述文本序列转换为音素序列;
对所述音素序列进行字符嵌入处理,获得特征向量;
将所述特征向量输入所述语音合成模型包括的编码器,通过所述编码器对所述特征向量进行编码,获得维度向量;
将所述维度向量输入所述语音合成模型中解码器所包括的注意力循环神经网络,通过所述注意力循环神经网络对所述维度向量进行处理,获得注意力权重;
将所述注意力权重输入所述解码器所包括的注意力过渡模块,通过正向递归算法计算每个时间步长的修正注意概率,以使所述注意力循环神经网络确定在所述解码器的每个时间步长向前移动或停留;
将所述注意力循环神经网络输出的所述注意力权重输入所述解码器所包括的解码循环神经网络,使所述解码循环神经网络基于输入的所述注意力权重生成频谱图;
通过所述语音合成模型包括的声码器将所述频谱图转换为所述音频。
5.根据权利要求4所述的方法,其特征在于,所述通过所述编码器对所述特征向量进行编码,获得维度向量,包括:
通过所述编码器包括的3层1维卷积层对所述特征向量进行卷积;
将对所述特征向量进行卷积处理的结果,输入所述语音合成模型包括的双向LSTM层,获得所述双向LSTM层输出的所述维度向量。
6.根据权利要求4所述的方法,其特征在于,所述将所述注意力循环神经网络输出的所述注意力权重输入所述解码器所包括的解码循环神经网络,使所述解码循环神经网络基于输入的所述注意力权重生成频谱图,包括:将所述解码器所包括的逐步优化循环网络PReNet输出的频谱转换向量,及所述注意力权重,输入所述解码循环神经网络,通过所述解码循环神经网络根据所述频谱转换向量和所述注意力权重,按照帧级别生成所述频谱图。
7.根据权利要求4至6中任一所述的方法,其特征在于,所述声码器包括griffin‑lim声码器或神经声码器。
8.一种语音合成装置,其特征在于,包括:一个文本获取模块,用于获取待合成的混合序列,其中,所述混合序列包括待合成文本和待合成图形,所述待合成图形包括图形文本和图形公式中的至少一个;
一个文本分离模块,用于将所述文本获取模块获取到的所述混合序列所包括的所述待合成文本和所述待合成图形分离;
一个图形识别模块,用于将所述文本分离模块分离出的所述待合成图形输入图形识别模型,识别所述图形文本所包括的识别文本,并将所述图形公式识别为LaTeX字符;
一个文本合并模块,用于根据所述图形文本和所述图形公式在所述混合序列中的位置,对所述文本分离模块分离出的所述待合成文本,及所述图形识别模块识别出的所述识别文本和所述LaTeX字符进行合并,获得文本序列;
一个音频转换模块,用于将所述文本合并模块获得的所述文本序列输入语音合成模型,通过所述语音合成模型将所述文本序列转换为音频;
所述图形识别模块,用于通过所述图形识别模型包括的卷积神经网络CNN部分,提取所述待合成图形的特征图;将所述特征图的每一列作为一个时间片,输入所述图形识别模型包括的循环神经网络RNN部分,获得用于表征文本序列特征的序列特征矩阵;将所述序列特征矩阵输入softmax函数,获得后验概率矩阵;根据所述后验概率矩阵,确定所述图形文本所包括的识别文本或图形公式对应的LaTeX字符。
9.一种语音合成装置,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序实现上述权利要求1‑7中任一项所述的语音合成方法。
10.一种计算机存储介质,其特征在于,包括:所述计算机存储介质存储有计算机程序,在处理器执行所述计算机程序时,实现上述权利要求1‑7中任一项所述的语音合成方法。
说明书 :
语音合成方法、装置和计算机存储介质
技术领域
背景技术
朗读、教学内容朗读等,使用户可以通过语音听取相关信息,而不必直接对文字信息进行阅
读。
学文本中参杂有印刷公式或手写公式,目前的语音合成方式无法识别图形文本和图形公
式,因此会将输入文本中参杂的图形文本和图形公式滤除,仅将输入文本中的纯文本内容
转换成音频,此时所合成的音频内容不完整,并不能反映输入文本的全部信息,导致语音合
成准确度较差。
发明内容
包括:
括:
个时间步长向前移动或停留;
述解码循环神经网络基于输入的所述注意力权重生成频谱图,包括:
量和所述注意力权重,按照帧级别生成所述频谱图。
经声码器。
识别文本和所述LaTeX字符进行合并,获得文本序列;
计算机程序实现上述第一方面及第一方面的任一可能的实现方式所提供的语音合成方法。
任一可能的实现方式所提供的语音合成方法。
通过图形识别模型对图形文本和图形公式进行识别,获得能够被语音合成模型识别的识别
文本和LaTeX字符,然后将识别出的识别文本和LaTeX字符,与混合文本序列中原本包括的
待合成文本进行合并,获得文本序列,然后通过语音合成模型将文本序列转换为音频,实现
混合序列的语音合成。在对混合序列进行语音合成之前,首先将混合序列中不能被语音合
成模型识别的图形文本和图形公式,转换为能够被语音合成模型识别的文本和LaTeX字符,
然后将识别出的文本和LaTeX字符与混合序列中原本包括的文本进行合并,将合并所获得
的文本序列作为语音合成模型的输入,通过语音合成模型将文本序列转换为音频,保证所
合成音频内容的完整性,从而能够提高对混合序列进行语音合成的准确度。
附图说明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。
具体实施方式
施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请所提供的实施例,本领域
普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
文本格式的文本数据,比如待合成文本为中文文本、英文文本或者中文与英文的混合文本。
待合成图形为包括文本信息的图片,具体可以包括图形文本和/或图形公式,图形文本是包
括有纯文本数据的图片,比如图形文本可以是包括中文文本和/或英文文本的照片、扫描图
像等,图形公式是包括有数学公式的图片,比如图形公式可以是包括印刷公式和/或手写公
式的图片。
待合成图形转换成语音合成模型可以识别和处理的格式后,再输入语音合成模型转换成音
频,为此需要将混合序列所包括的待合成文本与待合成图形分离,以便后续将待合成图形
转换成语音合成模型可以识别的格式。
根据数据格式将待合成文本与待合成图形分离。
本进行文本识别,输出图形文本所包括的识别文本。如果待合成图形包括图形公式,将图形
公式输入图形识别模型后,图形识别模型将图形公式识别为LaTeX字符。
LaTeX字符转换为语音,从而实现将待合成图形转换为自然语音。
成所合成音频的语音信息错误和不符合自然语音的表达方式,进而影响语音合成的效果。
为此,在将待合成图形识别为识别文本和/或LaTeX字符后,根据混合序列中待合成文本与
图形文本和/或图形公式的相对位置,对待合成文本、识别文本和/或LaTeX字符进行合并,
获得文本序列,使得文本序列中待合成文本、识别文本和LaTeX字符的相对位置,与混合序
列中待合成文本、图形文本和图形公式的相对位置保持一致,进而将文本序列作为语音合
成模型的输入进行语音合成,保证所合成的音频不会丢失上下文信息。
别文本和/或LaTeX字符后,根据所记录的相对位置信息对待合成文本、识别文本和/或
LaTeX字符进行合并,获得文本序列。
的文本序列后,将文本序列作为语音合成模型的输入,通过语音合成模型将文本序列转换
为符合自然语音阅读规则的音频,实现将混合序列转换为自然语音。
列中分离出来,通过图形识别模型对图形文本和图形公式进行识别,获得能够被语音合成
模型识别的识别文本和LaTeX字符,然后将识别出的识别文本和LaTeX字符,与混合文本序
列中原本包括的待合成文本进行合并,获得文本序列,然后通过语音合成模型将文本序列
转换为音频,实现混合序列的语音合成。在对混合序列进行语音合成之前,首先将混合序列
中不能被语音合成模型识别的图形文本和图形公式,转换为能够被语音合成模型识别的文
本和LaTeX字符,然后将识别出的文本和LaTeX字符与混合序列中原本包括的文本进行合
并,将合并所获得的文本序列作为语音合成模型的输入,通过语音合成模型将文本序列转
换为音频,保证所合成音频内容的完整性,从而能够提高对混合序列进行语音合成的准确
度。
学文本语音合成的应用场景。图2是本申请实施例二提供的一种语音合成方法的流程图。参
见图2,本申请实施例二提供的语音合成方法包括如下步骤:
采用卷积神经网络(Convolutional Neural Networks,CNN)加循环神经网络(Recurrent
Neural Network,RNN)的结构。具体地,图形识别模型包括卷积层、循环层和转录层,卷积层
通过CNN实现,循环层包括一个深层双向长短时记忆网络(Long Short‑Term Memory,
LSTM),转录层通过softmax函数实现。
后,获得字符输出,基于所获得字符输出与样本图像中文本或公式的偏差,对CNN、LSTM的模
型参数进行调整。重复上述过程,直至达到训练结束条件,比如达到设定的训练次数或损失
值在设定范围内等。
成模型包括编码器和解码器,编码器包括3层1维卷积层(5卷积核,512单元)和1层256单元
的双向长短时记忆网络(Bidirectional Long Short‑term Memory,BLSTM)层,解码器包括
PReNet(progressive recurrent network,逐步优化循环网络)、Attention‑RNN和
Decoder‑RNN,Decoder‑RNN为两层residual GRU。解码器采用注意力机制和注意力过渡机
制,注意力机制为position sensitive attention结构,position sensitive attention
结构为一层包含128个GRU的RNN,注意力过渡机制利用正向算法递归计算每个时间步长的
修正注意概率,使得注意力机制在解码器的每个时间步长做出向前移动还是停留的决定。
在解码器中加入前向注意力过渡机制,计算每个时间步长的修正注意概率,以使注意力机
制在解码器的每个时间步长向前移动或停留,避免在对较长文本进行语音合成时出现漏
读。
特征向量生成维度向量,维度向量输入Attention‑RNN获得注意力权重,将PReNet的输出和
Attention‑RNN的输出作为输入,经过GRU单元后输入到Decoder‑RNN中,Decoder‑RNN按照
帧级别生成频谱图,进而通过声码器将频谱图转换为音频,基于所获得音频与样本所对应
音频的偏差,对编码器和解码器的训练参数调整。重复上述过程,直至达到训练结束条件,
比如达到设定的训练次数或损失值在设定范围内等。
施例提供的语音合成可以从步骤203开始执行,直接利用已经训练好的图形识别模型和语
音合成模型对混合序列进行语音合成。
公式中的至少一个。例如,用户所输入的混合序列包括中文文本、英文文本、包括中文文本
和英文文本的图片以及包括印刷和手写公式的图片,则中文文本和英文文本为待合成文
本,包括中文文本和英文文本的图片和包括印刷和手写公式的图片为待合成图形,包括中
文文本和英文文本的图片为图形文本,包括印刷和手写公式的图片为图形公式。
函数。在将待合成图形输入图形识别模型后,首先通过CNN部分提取待合成图形的特征图,
然后将特征图的每一列作为一个时间片输入到RNN部分,获得用于表征文本序列特征的序
列特征矩阵,然后将序列特征矩阵输入softmax函数,获得后验概率矩阵。如果待合成图形
为图形文本,则可以根据后验概率矩阵确定图形文本所包括的识别文本,如果待合成图形
为图形公式,则可以根据后验概率矩阵确定图形公式对应的LaTeX字符。
中。设Feature map大小为m·T,时间序列t从t=1开始,即1≤t≤T。将Feature map定义为X
1 2 T t
=(x ,x ,...,x),其中X的每一列x为
函数,softmax函数的输出Y是一个后验概率矩阵,定义为Y=(y ,y ,...,y ,...,y),其中,
t
Y的每一列y为 n代表需要识别的字符集合长度。由于yn表征概率,所
以服从概率假设
出结果确定待合成图形中对应列区域的字符。在确定出待合成图形中各列区域的字符后,
如果待合成图形为图形文本,则根据待合成图形中各列区域的字符确定图形文本所包括的
识别文本,如果待合成图形为图形公式,则根据待合成图形中各列区域的字符确定图形公
式对应的LaTeX字符。
可以基于每列中最大元素确定该列输出字符的类别。
文本识别的准确性。
文本、识别文本和LaTeX字符进行合并,获得文本序列,使得文本序列中识别文本和LaTeX字
符相对于待合成文本的位置,与混合序列中图形文本和图形公式相对于待合成文本的位置
相同。
别文本,并将图形公式识别为LaTeX字符后,将识别文本插入待合成文本的第24段与第25段
之间,并将LaTeX字符插入到待合成文本第36段的末尾,实现待合成文本与识别文本和
LaTeX字符的合并,获得文本序列。
列转换为音素序列。
卷积,将对特征向量进行卷积处理后的结果输入BLSTM层,获得BLSTM层输出的维度向量。维
度向量将被输入注意力循环神经网络和解码器进行对齐和联合训练。
residual GRU包括256个GRU单元。Attention‑RNN为position sensitive attention,其结
构为一层包含128个GRU的RNN。编码器中的BLSTM将所生成的维度向量输入Attention‑RNN
后,Attention‑RNN输出注意力权重。
码器的每个时间步长做出是向前移动还是停留的决定。
种指示符,用于描述解码器在第t个时间步长中所参加的phone(音素)应前进到下一个
phone的概率。解码器在一个时间步长停留,是指字符位置保持不变;解码器在一个时间步
长向前移动,是指向前移动一步。
停留的决定,基于相邻字符的上下文关系进行语音合成,能够避免文本序列中文本较长而
导致的漏读问题。
Decoder‑RNN根据频谱转换向量和注意力权重,按照帧级别生成频谱图。
提供的一种语音合成方法的过程示意图。参见图3,本申请实施例三停工的语音合成方法包
括:输入混合序列后进行文本分离,将混合序列包括的待合成文本和待合成图形分离;对待
合成图形包括的图形文本和图形公式进行分离;对图形文本进行中的纯文本进行识别,获
得识别文本;将图形公式识别为LaTeX字符;将待合成文本、识别文本和LaTeX字符进行合
并,获得文本序列;将文本序列输入前端模块,生成音素序列后进行字符嵌入,获得特征向
量;将特征向量输入编码器,获得维度向量;将维度向量输入注意力神经网络,获得注意力
权重;将注意力权重输入注意力过渡模块,控制注意力神经网络在编码器的每个时间步长
前向移动或停留;将注意力权重输入编码器,获得频谱图;将频谱图输入声码器,生成音频。
seq2seq模型的架构参见图4所示,seq2seq模型通常分为两个部分:
(1) (2) (n)
本序列信息可以为RNN单元,将所述文本序列信息X={x ,x ,...,x }依次输入到RNN单
元中,经过一定顺序排列的RNN单元的处理后,以最后一个RNN的单元状态来作为最终的输
出的上下文信息C,确定所述上下文信息C为语言学编码特征。
(1) (2) (n)
,y ,...,y },确定所述序列Y为初始频谱信息。
成方法。图5是本申请实施例四提供的一种语音合成装置的示意图。参见图5,本申请实施例
四提供的语音合成装置包括:
进行合并,获得文本序列;
实施例一中的步骤103,文本合并模块504可用于执行上述实施例一中的步骤104,音频转换
模块505可用于执行上述实施例一中的步骤105。
形识别模型包括的循环神经网络RNN部分,获得用于表征文本序列特征的序列特征矩阵;将
序列特征矩阵输入softmax函数,获得后验概率矩阵;根据后验概率矩阵,确定图形文本所
包括的识别文本或图形公式对应的LaTeX字符。
数的输出结果,确定待合成图形中对应列区域的字符;根据待合成图形中各列区域的字符,
确定图形文本所包括的识别文本或图形公式对应的LaTeX字符。
器,通过编码器对特征向量进行编码,获得维度向量;将维度向量输入语音合成模型中解码
器所包括的注意力循环神经网络,通过注意力循环神经网络对维度向量进行处理,获得注
意力权重;将注意力权重输入解码器所包括的注意力过渡模块,通过正向递归算法计算每
个时间步长的修正注意概率,以使注意力循环神经网络确定在解码器的每个时间步长向前
移动或停留;将注意力循环神经网络输出的注意力权重输入解码器所包括的解码循环神经
网络,使解码循环神经网络基于输入的注意力权重生成频谱图;通过语音合成模型包括的
声码器将频谱图转换为音频。
向LSTM层,获得双向LSTM层输出的维度向量。
神经网络根据频谱转换向量和注意力权重,按照帧级别生成频谱图。
图形识别模型对图形文本和图形公式进行识别,获得能够被语音合成模型识别的识别文本
和LaTeX字符,然后将识别出的识别文本和LaTeX字符,与混合文本序列中原本包括的待合
成文本进行合并,获得文本序列,然后通过语音合成模型将文本序列转换为音频,实现混合
序列的语音合成。在对混合序列进行语音合成之前,首先将混合序列中不能被语音合成模
型识别的图形文本和图形公式,转换为能够被语音合成模型识别的文本和LaTeX字符,然后
将识别出的文本和LaTeX字符与混合序列中原本包括的文本进行合并,将合并所获得的文
本序列作为语音合成模型的输入,通过语音合成模型将文本序列转换为音频,保证所合成
音频内容的完整性,从而能够提高对混合序列进行语音合成的准确度。
成方法。图6是本申请实施例五提供的一种语音合成装置的示意图。参见图6,本申请实施例
五提供的语音合成装置60包括:至少一个处理器(processor)602、存储器(memory)604、总
线606及通信接口(Communications Interface)608。其中,
路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可
以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
图形识别模型对图形文本和图形公式进行识别,获得能够被语音合成模型识别的识别文本
和LaTeX字符,然后将识别出的识别文本和LaTeX字符,与混合文本序列中原本包括的待合
成文本进行合并,获得文本序列,然后通过语音合成模型将文本序列转换为音频,实现混合
序列的语音合成。在对混合序列进行语音合成之前,首先将混合序列中不能被语音合成模
型识别的图形文本和图形公式,转换为能够被语音合成模型识别的文本和LaTeX字符,然后
将识别出的文本和LaTeX字符与混合序列中原本包括的文本进行合并,将合并所获得的文
本序列作为语音合成模型的输入,通过语音合成模型将文本序列转换为音频,保证所合成
音频内容的完整性,从而能够提高对混合序列进行语音合成的准确度。
端手机等。
可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺
序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形
式。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
示例。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算
机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述
要素的过程、方法、商品或者设备中还存在另外的相同要素。
形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形
式。
件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由
通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以
位于包括存储设备在内的本地和远程计算机存储介质中。
施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
替换、改进等,均应包含在本申请的权利要求范围之内。