韵律层级预测模型的生成及韵律层级预测方法和装置转让专利

申请号 : CN201510477652.9

文献号 : CN105185373B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李秀林张辉杨鹏徐扬凯白锦峰付晓寅

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。

权利要求 :

1.一种韵律层级预测模型的生成方法,其特征在于,包括:根据精标数据集生成初始的韵律层级预测模型;

收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置,所述特征信息是停顿信息;

根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;

根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。

2.根据权利要求1所述的方法,其特征在于,所述检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置,包括:采用人工或者自动的方式,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置。

3.根据权利要求2所述的方法,其特征在于,所述自动的方式包括:基于文本数据与语音强制对齐的结果;或者,基于语音识别解码的最优序列;或者,

基于幅度的简单检测。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述收集语音及对应的文本数据,包括:收集海量的语音及对应的文本数据,所述海量的语音是指数量大于预设值的语音。

5.一种韵律层级预测方法,其特征在于,获取文本处理后的输入文本;

获取韵律层级预测模型;

根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果;

其中,所述韵律层级预测模型采用如权利要求1-4任一项所述的方法生成。

6.一种韵律层级预测模型的生成装置,其特征在于,包括:第一生成模块,用于根据精标数据集生成初始的韵律层级预测模型;

处理模块,用于收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置,所述特征信息是停顿信息;

预测模块,用于根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;

第二生成模块,用于根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。

7.根据权利要求6所述的装置,其特征在于,所述处理模块用于检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置,包括:采用人工或者自动的方式,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置。

8.根据权利要求7所述的装置,其特征在于,所述自动的方式包括:基于文本数据与语音强制对齐的结果;或者,基于语音识别解码的最优序列;或者,

基于幅度的简单检测。

9.根据权利要求6-8任一项所述的装置,其特征在于,所述处理模块用于收集语音及对应的文本数据,包括:收集海量的语音及对应的文本数据,所述海量的语音是指数量大于预设值的语音。

10.一种韵律层级预测装置,其特征在于,包括:第一获取模块,用于获取文本处理后的输入文本;

第二获取模块,用于获取韵律层级预测模型;

预测模块,用于根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果;

其中,所述韵律层级预测模型采用如权利要求1-4任一项所述的方法生成。

说明书 :

韵律层级预测模型的生成及韵律层级预测方法和装置

技术领域

[0001] 本发明涉及语音处理技术领域,尤其涉及一种韵律层级预测模型的生成及韵律层级预测方法和装置。

背景技术

[0002] 语音合成,又称文语转换(Text to Speech,TTS)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。语音合成的一个关键步骤是韵律预测,韵律预测又可以细分为韵律层级预测、时长预测和音高预测等。在韵律层级预测时,是采用训练阶段生成的韵律层级预测模型对文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果,韵律层级预测结果会影响语音合成的效果。
[0003] 现有技术中,韵律层级预测模型是将精标数据集作为训练数据,对训练数据进行训练后生成的,精标数据集是指由专业人员对收集的数据集进行精细标注后得到的数据集。但是,由于精标数据集需要专业人员的标注,标注周期长,所需投入大,所以精标数据集往往规模较小,导致所训练的韵律层级预测模型的准确性较差,从而影响韵律层级预测的准确性,影响语音合成的效果。

发明内容

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此,本发明的一个目的在于提出一种韵律层级预测模型的生成方法,该方法可以提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
[0006] 本发明的另一个目的在于提出一种韵律层级预测方法,该方法可以采用准确性较高的韵律层级预测模型,提高韵律层级预测的准确性,从而提高语言合成效果。
[0007] 本发明的另一个目的在于提出一种韵律层级预测模型的生成装置。
[0008] 本发明的另一个目的在于提出一种韵律层级预测装置。
[0009] 为达到上述目的,本发明第一方面实施例提出的韵律层级预测模型的生成方法,包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0010] 本发明第一方面实施例提出的韵律层级预测模型的生成方法,通过在模型训练时,不仅根据精标数据集还根据初始的韵律层级预测结果,可以扩大训练数据的规模,提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
[0011] 为达到上述目的,本发明第二方面实施例提出的韵律层级预测方法,包括:获取文本处理后的输入文本;获取韵律层级预测模型;根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果;其中,所述韵律层级预测模型采用如本发明第一方面实施例任一项所述的方法生成。
[0012] 本发明第二方面实施例提出的韵律层级预测方法,通过选择上述的韵律层级预测模型,该韵律层级预测模型相当于已有的模型更加准确,由于采用了更加准确的韵律层级预测模型,可以提高韵律层级预测的准确性,进而提高语言合成的效果。
[0013] 为达到上述目的,本发明第三方面实施例提出的韵律层级预测模型的生成装置,包括:第一生成模块,用于根据精标数据集生成初始的韵律层级预测模型;处理模块,用于收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;预测模块,用于根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;第二生成模块,用于根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0014] 本发明第三方面实施例提出的韵律层级预测模型的生成装置,通过在模型训练时,不仅根据精标数据集还根据初始的韵律层级预测结果,可以扩大训练数据的规模,提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
[0015] 为达到上述目的,本发明第四方面实施例提出的韵律层级预测装置,包括:第一获取模块,用于获取文本处理后的输入文本;第二获取模块,用于获取韵律层级预测模型;预测模块,用于根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果;其中,所述韵律层级预测模型采用如本发明第一方面任一项所述的方法生成。
[0016] 本发明第四方面实施例提出的韵律层级预测装置,通过选择上述的韵律层级预测模型,该韵律层级预测模型相当于已有的模型更加准确,由于采用了更加准确的韵律层级预测模型,可以提高韵律层级预测的准确性,进而提高语言合成的效果。
[0017] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0018] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0019] 图1是本发明一实施例提出的韵律层级预测模型的生成方法的流程示意图;
[0020] 图2是本发明实施例中训练过程和预测过程的示意图;
[0021] 图3是本发明另一实施例提出的韵律层级预测方法的流程示意图;
[0022] 图4是本发明实施例中语音合成的流程示意图;
[0023] 图5是本发明另一实施例提出的韵律层级预测模型的生成装置的结构示意图;
[0024] 图6是本发明另一实施例提出的韵律层级预测装置的结构示意图。

具体实施方式

[0025] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026] 图1是本发明一实施例提出的韵律层级预测模型的生成方法的流程示意图,该方法包括:
[0027] S11:根据精标数据集生成初始的韵律层级预测模型。
[0028] 具体的,图2是本发明实施例中训练过程和预测过程的示意图。参见图2,其中的根据精标数据集生成初始的韵律层级预测模型的流程包括:
[0029] S21:根据精标数据集生成训练数据。
[0030] 其中,精标数据集是指由专业人员精细标注后得到的数据集,可以采用已有方式获取。
[0031] 在获取到精标数据集后,可以将精标数据集作为训练数据。
[0032] S22:采用机器学习算法对训练数据进行训练,生成初始的韵律层级预测模型。
[0033] 以中文韵律层级预测为例,韵律层级主要包括:韵律词、韵律短语和语调短语。其中,韵律词相对稳定,预测准确率较高;韵律短语相对灵活;语调短语,可以看作是一组韵律短语,往往会产生明显的停顿,是更大的层级结构,也是对人的听感和理解更为关键的。
[0034] 不同韵律位置的单元,具有不同的特点,是有明显区分性的,主要包括时长差异、音高差异和停顿差异等。比如,《韵律单元边界特征的声学语音学研究》一文的研究表明,韵律单元起首音节韵母的时长不受韵律层级的影响,既不会拉长也不会缩短,而韵律单元末尾音节韵母的时长则明显受到韵律层级的影响,韵律词末尾音节韵母时长不会拉长反而缩短,其他层级韵律单元的末尾音节韵母的时长均有不同程度的拉长。韵律短语末,通常没有明显的停顿;语调短语末,往往会有明显的停顿和音高重置。
[0035] 初始的韵律层级预测模型是基于语调短语预测其他层级的模型,用公式表示为:W=argMax(P(Yi|X,Y3)),
[0036] 其中,i=0,1,2,分别对应语法词、韵律词、韵律短语,Y3对应语调短语,W是初始的韵律层级预测模型,X是训练数据中的已知文本信息,如分词、词性等。
[0037] 训练过程的具体机器学习算法可以采用决策树,条件随机场,最大熵模型,隐马尔科夫模型,深度神经网络等。
[0038] 韵律层级预测模型,可以逐级训练/预测,也可以同时训练/预测多个韵律层级。对于逐级预测,即训练一组模型,分别预测不同的韵律层级,并在上一层级的基础上,进行下一层级的预测。比如:输入文本“获取海量数据是机器学习算法成功应用的一个重要方面”这句话,首先通过文本处理,获得分词结果“获取海量数据是机器学习算法成功应用的一个重要方面”。之后分别通过韵律词模型、韵律短语模型和语调短语模型,分别得到如下结果:
[0039] 韵律词预测结果:获取#1 海量#1 数据#1 是#1 机器#1 学习#1 算法#1 成功#1 应用的#1 一个#1 重要#1 方面#1
[0040] 韵律短语预测结果:获取#1 海量#1 数据#2 是#1 机器#1 学习#1 算法#2 成功#1 应用的#2 一个#1 重要#1 方面#2
[0041] 语调短语预测结果:获取#1 海量#1 数据#3 是#1 机器#1 学习#1 算法#2 成功#1 应用的#3 一个#1 重要#1 方面#3
[0042] 其中,#1、#2、#3分别代表韵律词、韵律短语、语调短语三个层次。这个问题,是已知文本信息(分词、词性等),记为X,训练集的标注信息Yi(i=0,1,2,3,i=0时相当于语法词),训练过程是最大化P(Yi|X,Yi-1),得到模型W。预测过程,是已知模型和前一级预测的层级信息(对于韵律词,前一级为语法词,即分词的边界信息),预测作为下一韵律层级的概率,即P(Yi|X,W,Yi-1)。
[0043] 如果把多个层级同时进行预测,相当于训练模型,使得P(Y|X)最大化;预测时,根据P(Y|X,W)进行层级判断。
[0044] 也就是说,在获取上述的W=argMax(P(Yi|X,Y3))时,可以采用逐级训练的方式,或者,也可以采用多个层级同时训练的方式获取,具体的逐级训练方式或同时训练方式可以参见上述模型训练的描述。
[0045] S12:收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置。
[0046] 一些实施例中,采用的特征信息可以具体是指停顿信息。
[0047] 收集的语音可以具体是指海量语音,海量语音是指数量大于预设值的语音,从而扩大训练数据集的规模。
[0048] 参见图2,S12可以具体包括:
[0049] S23:收集海量的语音及对应的文本数据。
[0050] 其中,可以在已有的资源中进行收集,获取海量的语音。对应的文本数据可以是对相应的语音进行语音识别后得到的文本结果,或者,也可以人工收集的与语音对应的已有的经过人工整理的文本。
[0051] S24:检测语音中的停顿信息,在文本数据中标注停顿信息,以实现将停顿信息加入文本数据的对应位置。
[0052] 其中,可以采用自动或人工方式,检测停顿信息并进行标注。
[0053] 例如,采用人工方式时,可以人工根据语音,对相应的文本数据的分词进行逐一分析,在文本数据中标注停顿信息。或者,
[0054] 采用自动方式时,可以基于文本与语音强制对齐的结果,也可以是基于语音识别解码的最优序列,或者,也可以是基于幅度的简单检测,检测出停顿信息(静音段),并在文本数据的相应位置标记为语调短语#3。
[0055] S13:根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果。
[0056] 例如,参见图2,以初始的韵律层级预测结果称为自动标注的海量数据集为例,在文本数据中加入停顿信息后,该方法还包括:
[0057] S25:采用初始的韵律层级预测模型,对加入停顿信息的文本数据进行韵律层级预测,得到自动标注的海量数据集。
[0058] 具体的,根据W=argMax(P(Yi|X,Y3))以及标注了停顿信息的文本数据,计算P(Yi|X,W,Y3),得到海量文本数据对应的自动标注的海量数据集。
[0059] S14:根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0060] 与现有技术中只将精标数据集作为训练数据相比,本实施例中的训练数据还包括初始的韵律层级预测结果,也就是自动标注的海量数据集,从而可以有效扩大训练数据的规模,提高模型的准确性。
[0061] 例如,参见图2,在训练过程中还包括:
[0062] S26:采用机器学习算法,根据精标数据集和初始的韵律层级预测结果,得到更新后的韵律层级预测模型。
[0063] 更新后的韵律层级预测模块用W’表示,用公式可以表示为:
[0064] W’=argMax(P(Yi|X)),
[0065] 其中i=0,1,2,3分别对应语法词、韵律词、韵律短语、语调短语。
[0066] X是训练数据中的已知文本信息,训练数据包括精标数据集和初始的韵律层级预测结果。
[0067] 具体的机器学习算法可以采用决策树,条件随机场,最大熵模型,隐马尔科夫模型,深度神经网络等。
[0068] 本实施例中,通过在模型训练时,不仅根据精标数据集还根据初始的韵律层级预测结果,可以扩大训练数据的规模,提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。进一步的,通过采用停顿信息,由于相对于其他特征,停顿信息更容易检测,可以使得检测结果更加稳定可靠。由于停顿信息与语调短语的对应关系,以及语调短语对人的听感有更强的影响,语调短语的预测准确性提升,降低了听者对合成语音理解的难度。另外,初始的韵律层级预测结果是根据收集的海量数据得到的,大大提升了数据的量级,可以涵盖更加丰富的语言现象,同时节约了人工标注的成本,改善了预测的准确性,以及合成语音的自然度。另外,在模型训练时,可以采用逐级训练或同时训练的方式生成模型,在停顿信息检测和标注时可以采用人工或自动方式实现,提高了实现灵活性。
[0069] 图3是本发明另一实施例提出的韵律层级预测方法的流程示意图,该方法可以应用在预测过程,该方法包括:
[0070] S31:获取文本处理后的输入文本。
[0071] 其中,输入文本是指要进行语音合成的文本。
[0072] 参见图2,输入文本进入语音合成系统后,可以先对输入文本进行文本处理(S27)。
[0073] 参见图4,文本处理的流程可以包括:
[0074] S41:文本预处理;
[0075] S42:分词;
[0076] S43:词性标注;
[0077] S44:注音;
[0078] 其中,S41~S44是语音合成系统中通常会采用的步骤,因此可以采用已有技术实现。
[0079] 经过注音后的文本可以作为文本处理后的输入文本,进行后续的韵律层级预测。
[0080] S32:获取韵律层级预测模型。
[0081] 其中,参见图2,在预测过程中,采用的韵律层级预测模型是训练过程中生成的模型,具体的生成方法可以参见上述实施例中的相关描述,在此不再赘述。
[0082] S33:根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果。
[0083] 在获取到韵律层级预测模型后,就可以采用该模型进行韵律层级预测(图2中的S28或图4中的S45的韵律预测包括韵律层级预测)。
[0084] 与现有技术相比,本实施例采用的韵律层级预测模型更加准确,而在获取韵律层级预测模型后,具体的韵律层级预测算法可以采用已有算法。
[0085] 通过韵律层级预测,可以预测句子中不同词语对应的韵律层级,作为后续声学参数生成模块的上下文信息。
[0086] 进一步的,在语音合成时,在韵律层级预测之后还存在其他的后续流程,例如参见图4,语音合成流程还包括:
[0087] S46:声学参数生成;
[0088] 例如,根据韵律预测的结果生成声学参数。
[0089] S47:语音合成。
[0090] 在生成声学参数后,可以直接通过声码器合成声音,或者,根据声学参数从录音语料库中挑选语音单元进行拼接,合成声音。
[0091] 本实施例中,通过选择上述的韵律层级预测模型,该韵律层级预测模型相当于已有的模型更加准确,由于采用了更加准确的韵律层级预测模型,可以提高韵律层级预测的准确性,进而提高语言合成的效果。
[0092] 图5是本发明另一实施例提出的韵律层级预测模型的生成装置的结构示意图,该装置50包括:第一生成模块51、处理模块52、预测模块53和第二生成模块54。
[0093] 第一生成模块51,用于根据精标数据集生成初始的韵律层级预测模型;
[0094] 其中,具体的生成方法可以参见图2所示的相关流程,在此不再赘述。
[0095] 精标数据集的规模较小,致使初始的韵律层级预测模型准确性较低,如果直接用于语音合成的韵律层级预测会降低韵律层级预测的准确性。
[0096] 处理模块52,用于收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;
[0097] 一些实施例中,采用的特征信息可以具体是指停顿信息。
[0098] 收集的语音可以具体是指海量语音,海量语音是指数量大于预设值的语音,从而扩大训练数据集的规模。
[0099] 可选的,所述处理模块52用于收集语音及对应的文本数据,包括:
[0100] 收集海量的语音及对应的文本数据,所述海量的语音是指数量大于预设值的语音。
[0101] 其中,可以在已有的资源中进行收集,获取海量的语音。对应的文本数据可以是对相应的语音进行语音识别后得到的文本结果,或者,也可以人工收集的与语音对应的已有的经过人工整理的文本。
[0102] 可选的,所述处理模块52用于检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置,包括:
[0103] 采用人工或者自动的方式,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置。
[0104] 可选的,所述自动的方式包括:
[0105] 基于文本数据与语音强制对齐的结果;或者,
[0106] 基于语音识别解码的最优序列;或者,
[0107] 基于幅度的简单检测。
[0108] 例如,采用人工方式时,可以人工根据语音,对相应的文本数据的分词进行逐一分析,在文本数据中标注停顿信息。或者,
[0109] 采用自动方式时,可以基于文本与语音强制对齐的结果,也可以是基于语音识别解码的最优序列,或者,也可以是基于幅度的简单检测,检测出停顿信息(静音段),并在文本数据的相应位置标记为语调短语#3。
[0110] 预测模块53,用于根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;
[0111] 以初始的韵律层级预测结果称为自动标注的海量数据集为例,具体的,根据W=argMax(P(Yi|X,Y3))以及标注了停顿信息的文本数据,计算P(Yi|X,W,Y3),得到海量文本数据对应的自动标注的海量数据集。
[0112] 第二生成模块54,用于根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0113] 与现有技术中只将精标数据集作为训练数据相比,本实施例中的训练数据还包括初始的韵律层级预测结果,也就是自动标注的海量数据集,从而可以有效扩大训练数据的规模,提高模型的准确性。
[0114] 更新后的韵律层级预测模块用W’表示,用公式可以表示为:
[0115] W’=argMax(P(Yi|X)),
[0116] 其中i=0,1,2,3分别对应语法词、韵律词、韵律短语、语调短语。
[0117] X是训练数据中的已知文本信息,训练数据包括精标数据集和初始的韵律层级预测结果。
[0118] 具体的机器学习算法可以采用决策树,条件随机场,最大熵模型,隐马尔科夫模型,深度神经网络等。
[0119] 本实施例中,通过在模型训练时,不仅根据精标数据集还根据初始的韵律层级预测结果,可以扩大训练数据的规模,提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。进一步的,通过采用停顿信息,由于相对于其他特征,停顿信息更容易检测,可以使得检测结果更加稳定可靠。由于停顿信息与语调短语的对应关系,以及语调短语对人的听感有更强的影响,语调短语的预测准确性提升,降低了听者对合成语音理解的难度。另外,初始的韵律层级预测结果是根据收集的海量数据得到的,大大提升了数据的量级,可以涵盖更加丰富的语言现象,同时节约了人工标注的成本。结果是改善了预测的准确性,以及合成语音的自然度。另外,在模型训练时,可以采用逐级训练或同时训练的方式生成模型。在停顿信息检测和标注时可以采用人工或自动方式实现,提高了实现灵活性。
[0120] 图6是本发明另一实施例提出的韵律层级预测装置的结构示意图,该装置60包括:第一获取模块61、第二获取模块62和预测模块63。
[0121] 第一获取模块61,用于获取文本处理后的输入文本;
[0122] 其中,输入文本是指要进行语音合成的文本。
[0123] 具体的文本处理的流程可以参见图4中的相关描述,在此不再赘述。
[0124] 第二获取模块62,用于获取韵律层级预测模型;
[0125] 其中,参见图2,在预测过程中,采用的韵律层级预测模型是训练过程中生成的模型,具体的生成方法可以参见上述实施例中的相关描述,在此不再赘述。
[0126] 预测模块63,用于根据所述韵律层级预测模型,对所述文本处理后的输入文本进行韵律层级预测,得到韵律层级预测结果;
[0127] 在获取到韵律层级预测模型后,就可以采用该模型进行韵律层级预测(图2中的S28或图4中的S45)。
[0128] 与现有技术相比,本实施例采用的韵律层级预测模型更加准确,而在获取韵律层级预测模型后,具体的韵律层级预测算法可以采用已有算法。
[0129] 通过韵律层级预测,可以预测句子中不同词语对应的韵律层级,作为后续声学参数生成模块的上下文信息。
[0130] 本实施例中,通过选择上述的韵律层级预测模型,该韵律层级预测模型相当于已有的模型更加准确,由于采用了更加准确的韵律层级预测模型,可以提高韵律层级预测的准确性,进而提高语言合成的效果。
[0131] 另外,本发明实施例还可以提供一种语音合成方法,包括上述的韵律层级预测模型的生成方法以及韵律层级预测方法。本发明实施例还可以提供一种语音合成系统,包括图5所示的装置以及图6所述的装置。
[0132] 需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0133] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0134] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0135] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0136] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0137] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0138] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0139] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。