一种个性化歌唱语音的合成方法转让专利

申请号 : CN200810107114.0

文献号 : CN101308652B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王玉平江源凌震华胡国平胡郁刘庆峰王仁华

申请人 : 安徽科大讯飞信息科技股份有限公司

摘要 :

本发明涉及一种个性化歌唱语音的合成方法,包括以下步骤:对语音的线谱频率系数进行建模,并训练得到相关的决策树模型;录制特定用户的朗读风格语音,得到该用户的线谱频率系数模型;得到简谱中的歌词上下文相关的属性集,根据决策树模型和个性化线谱频率系数模型预测出歌词对应的频谱参数和声韵母时长信息;根据简谱约定生成基频信息,并与生成的时长、频谱参数合并后,得到所有的合成参数,将这些参数输入参数化语音合成声码器,可合成出个性化的歌唱语音。本发明提供了只要对少数的韵律参数进行调整,就能合成出歌唱风格的合成语音,只要能录制一个少量的朗读风格库,就能合成出歌唱风格语音的合成方法。

权利要求 :

1.一种个性化歌唱语音的合成方法,其特征在于包括以下步骤实现:

(1)在大规模标准语音数据库上,用隐马尔科夫模型对语音的线谱频率系数进行建模,并训练得到基于上下文相关属性集的线谱频率系数和声韵母时长的决策树模型;

(2)录制特定用户的少量朗读风格语音,并在录音数据库上对线谱频率系数的隐马尔科夫模型进行自适应,得到该用户的个性化的线谱频率系数模型;

(3)对文本化的简谱中的歌词,经过文本处理分析后,得到上下文相关的属性集,然后根据(1)训练得到的决策树模型和(2)得到个性化线谱频率系数模型预测出歌词对应的频谱参数和声韵母时长信息;

(4)根据简谱对于唱歌的音调、节拍的约定,生成基频信息,并对(3)中预测得到的时长信息进行调整;

(5)得到(4)生成的时长、基频与(3)中预测得到的频谱参数合并后,就生成了最后的参数;这些参数是既具有目标说话人特征,又具有歌唱特征的基频、时长和线谱频率参数,将这些参数输入参数化语音合成声码器,即可合成出个性化的歌唱语音。

2.根据权利要求1所述的一种个性化歌唱语音的合成方法,其特征在于所述的个性化的线谱频率系数模型,通过标准线谱频率系数模型自适应训练得到,而标准线谱频率系数通过在一个或多个大规模的标准语音库上训练得到。

3.根据权利要求1所述的一种个性化歌唱语音的合成方法,其特征在于在录音数据库上对线谱频率系数的隐马尔科夫模型进行自适应的语音录音所对应的文本是经过音素覆盖率搜索设计的文本。

4.根据权利要求1所述的一种个性化歌唱语音的合成方法,其特征在于所述的步骤(2)中自适应方法是基于最大似然的线性回归的模型自适应方法。

5.根据权利要求4所述的一种个性化歌唱语音的合成方法,其特征在于所述的基于最大似然的线性回归的模型自适应方法是根据最大似然准则估计一系列的线性变换,让这些变换抓住当前模型与目标模型之间的差异,对模型中所有的分布作调整。

6.根据权利要求1所述的一种个性化歌唱语音的合成方法,其特征在于所述的步骤(4)中对所述基频参数的预测为由曲谱信息直接赋值。

7.根据权利要求1所述的一种个性化歌唱语音的合成方法,其特征在于所述步骤(4)中时长信息的调整是按照曲谱给定的信息来进行时长调整。

8.根据权利要求7所述的一种个性化歌唱语音的合成方法,其特征在于所述时长信息的调整是采用按比例分配曲谱给定的信息来对时长进行调整。

说明书 :

一种个性化歌唱语音的合成方法

技术领域

[0001] 本发明涉及一种语音合成方法,具体涉及一种在只有少量朗读风格训练数据的情况下,合成出目标发音人歌唱风格语音的合成方法。

背景技术

[0002] 近年来,语音合成技术获得了很大的发展,由于现在合成语音的音质和自然度都不错,大家对合成系统提出了更多的需求,比如多样化的语音合成,包括多个发音人、多种发音风格、多语种等,所以在可训练语音合成技术基础上发展起来的模型自适应技术得到了越来越广泛的应用,模型自适应技术在合成朗读风格语音的时候可以取得很好的效果,但是在针对歌唱风格的语音合成时缺乏足够的应用研究。
[0003] 此外,为了合成出具有歌唱风格的合成语音,有关研究机构也进行了相关研究,主要方法是借鉴朗读风格的语音合成方法,首先录制一个规模较大的歌唱风格库,然后根据可训练语音合成方法来合成出歌唱风格的语音,这种方法可以合成比较自然真实的合成语音,但是由于歌唱时的控制很难,所以歌唱风格库的录制难度要远高于朗读风格库的录制,而且,如果要合成另外一个发音人的歌唱语音时,需要对这个发音人再录制一个歌唱风格库,对于大多数普通人来说,录制这样一个规模的歌唱风格库基本上是不可能的。

发明内容

[0004] 本发明针对现有技术的不足,提供了只要对少数的韵律参数进行调整,就能合成出歌唱风格的合成语音,只要能录制一个少量的朗读风格库,就能合成出歌唱风格语音的合成方法。
[0005] 本发明是通过以下技术方案实现的:
[0006] 一种个性化歌唱语音的合成方法,包括以下步骤实现:
[0007] (1)在大规模标准语音数据库上,用隐马尔科夫模型对语音的线谱频率系数进行建模,并训练得到基于上下文相关属性集的线谱频率系数和声韵母时长的决策树模型;
[0008] (2)录制特定用户的少量朗读风格语音,并在录音数据库上对线谱频率系数的隐马尔科夫模型进行自适应,得到该用户的个性化的线谱频率系数模型;
[0009] (3)对文本化的简谱中的歌词,经过文本处理分析后,得到上下文相关的属性集,然后根据(1)训练得到的决策树模型和(2)得到个性化线谱频率系数模型预测出歌词对应的频谱参数和声韵母时长信息;
[0010] (4)根据简谱对于唱歌的音调、节拍的约定,生成基频信息,并对(3)中预测得到的时长信息进行调整;
[0011] (5)得到(4)生成的时长、基频与(3)中预测得到的频谱参数合并后,就生成了最后的参数,这些参数是既具有目标说话人特征,又具有歌唱特征的基频、时长和线谱频率参数。将这些参数输入参数化语音合成声码器,即可合成出个性化的歌唱语音。
[0012] 一种个性化歌唱语音的合成方法,所述的个性化的线谱频率系数模型,通过标准线谱频率系数模型自适应训练得到,而标准线谱频率系数通过在一个或多个大规模的标准语音库上训练得到。
[0013] 一种个性化歌唱语音的合成方法,所述的用于线谱频率系数模型自适应的语音录音所对应的文本是经过音素覆盖率搜索设计的文本。
[0014] 一种个性化歌唱语音的合成方法,所述的步骤(2)中自适应方法是基于最大似然的线性回归的模型自适应方法。
[0015] 一种个性化歌唱语音的合成方法,所述的基于最大似然的线性回归的模型自适应方法是根据最大似然准则估计一系列的线性变换,让这些变换抓住当前模型与目标模型之间的差异,对模型中所有的分布作调整。
[0016] 一种个性化歌唱语音的合成方法,所述的步骤(4)中对所述基频参数的预测为由曲谱信息直接赋值。
[0017] 一种个性化歌唱语音的合成方法,所述的步骤(4)中所述时长信息的调整是按照曲谱给定的信息来进行时长调整。
[0018] 一种个性化歌唱语音的合成方法,所述的时长信息的调整是采用按比例分配来对时长进行调整。
[0019] 本发明在可训练语音合成系统的基础上,将模型自适应和歌唱语音合成相结合,在Trainable TTS中将模型自适应方法和歌唱语音合成方法有机结合起来,使得在只有少量训练数据的前提下,合成的语音既具有目标说话人的特征,又具有歌唱风格,这样就不需要录制大量的各种发音人风格的歌曲风格库,使具有发音人个性化风格歌唱语音的合成成为现实,并极大的提高了合成系统的可扩展性和娱乐性。

附图说明

[0020] 图1为个性化歌唱语音的合成方法的流程图。
[0021] 图2为本发明模型自适应方法流程图。

具体实施方式

[0022] 参见附图1、2所示。
[0023] 1、可训练语音合成,此发明基于可训练的语音合成方法。此方法在训练阶段运用隐马尔科夫模型(HMM)对语音信号三个方面的参数进行建模,这三个方面的参数分别是:基频、时长和线谱频率系数LSF;所有模型都在一个语音库上用隐马尔科夫模型进行模型的训练;语音库的规模一般在1000句话左右(1.5~2小时的录音量),训练得到三个参数的隐马尔科夫模型;而在合成阶段,根据输入的文本进行文本分析得到的上下文相关属性,根据这些属性分别对时长、基频和谱参数的聚类决策树进行决策,并得到相应的模型序列,最后根据模型基于参数生成算法来生成基频和谱参数,并通过合成器合成出最终的语音。
[0024] 2、模型自适应:现在对于多样化语音合成有比较大的需求,需要可训练语音合成在少量目标数据的基础上,通过模型自适应的方法快速形成一个目标合成系统。这里采用的模型自适应方法是基于最大似然的线性回归(MLLR)的模型自适应方法,根据最大似然准则估计一系列的线性变换,让这些变换抓住当前模型与目标模型之间的差异,用来对模型中所有的分布作调整,可以用相对较少的数据取得较好的效果。
[0025] 3、歌唱合成:以上步骤1、2都在训练阶段完成,得到时长、基频和频谱参数的HMM模型,在合成阶段,利用这些资源,根据输入的歌词和曲谱,合成出具有歌唱风格的语音。首先,由文本化的简谱,经过前端分析歌词后,得到上下文相关的属性集,然后根据时长、基频和频谱模型分别预测出对应的参数,由于朗读风格与歌唱风格在韵律方面存在很大的差异,所以为了在朗读库的基础上合成出歌唱风格的语音,需要对韵律参数进行调整,调整主要是以下几个方面:
[0026] 1)基频参数的调整,舍弃决策得到的基频参数,直接由曲谱信息赋值;
[0027] 2)时长参数的调整,由于曲谱中的音阶是带有时长信息的(比如四分音符,八分之一拍等),所以按照曲谱给定的信息来进行时长调整,但是存在两个问题,首先曲谱时长是相对的,所以无法确定一拍是多长,另外曲谱时长是音节层的,而建模的基本单位是音素,所以此时的时长怎么分配。针对问题一,我们由用户确定一拍唱多长,也就是说用户可以根据自己的喜好来确定;而对于问题二,一般采用比例分配,做一些特殊的调整,一是限制声母时长,使得声母发音短促一些,此时可使吐字清脆饱满,更符合歌唱风格,另外,对超长的音素采用非比例分配五个状态,扩大中间状态的时长,缩小边界状态的时长分配,令发声更稳定协调。