韵律短语预测方法转让专利

申请号 : CN201010294552.X

文献号 : CN102063898B

文献日 : 2012-09-26

本发明提供了一种韵律短语预测方法，包括：最大熵模型预测，分析句子的特征，并对韵律短语进行预测；语法边界预测，分析句子的特征，根据语法规则对语法边界进行预测；对最大熵模型预测结果进行调整，通过预测出的语法边界，对最大熵模型预测结果进行调整，并根据调整后的概率结果确定韵律短语边界。本发明的韵律短语预测方法中通过对句子进行成分分析，得出语法短语边界，然后对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大，将非语法短语边界处是韵律短语边界的概率减小，提高了韵律短语预测的准确性。

1.一种韵律短语预测方法，其特征在于，包括：

最大熵模型预测，分析句子的特征，并对韵律短语进行预测；

语法边界预测，分析句子的特征，根据语法规则对语法边界进行预测；

对最大熵模型预测结果进行调整，通过预测出的语法边界，对最大熵模型预测结果进行调整，并根据调整后的概率结果确定韵律短语边界；

其中，所述语法边界预测还包括根据语法规则将句子进行短语划分，并解析为多个短语组合的形式，然后根据句子的语法结构规则，分析出语法边界；

所述对最大熵模型预测结果的调整包括将最大熵模型预测结果中语法边界处是韵律短语边界的概率增大，非语法边界处是韵律短语边界的概率降低。

2.如权利要求1所述的韵律短语预测方法，其特征在于，所述最大熵模型预测之前还包括建立最大熵模型，建立最大熵模型包括选择最大熵模型特征、准备训练数据及最大熵模型训练。

3.如权利要求2所述的韵律短语预测方法，其特征在于，所述最大熵模型预测包括解析出句子中分词边界等特征，并根据确定的特征进行标注，然后将标注后的数据送入最大熵模型进行预测，得出词与词之间是否为韵律短语边界的概率。

4.如权利要求2所述的韵律短语预测方法，其特征在于，所述最大熵模型解析出的特征包括前一词的词性、词长，后一词的词性、词长或者词性与词长的组合。

5.如权利要求1所述的韵律短语预测方法，其特征在于，所述语法边界预测之前还包括总结语法规则，并根据语法规则确定句子中的短语在句中的成分及句子的结构。

6.如权利要求5所述的韵律短语预测方法，其特征在于，所述语法规则的总结根据汉语结构特点进行。

韵律短语预测方法

技术领域

[0001] 本发明涉及一种语音合成技术领域，特别是涉及一种韵律短语预测方法。背景技术

[0002] 随着技术的发展，语音合成技术已经越来越多的受到人们的关注。现阶段合成语音的可懂度已经达到相当高的水平，但自然度还不够高，韵律层次预测的不准确。 [0003] 由于现有的语音合成系统大多只能生成固定语调模式的语句，对语句中的停顿、轻重、长短、速度及升降调等出现不当处理，使合成语音听起来枯燥、呆板。韵律生成的主要障碍在于确定韵律的层次，常见的韵律层次是把韵律结构自下而上划分为韵律词、次韵律短语、主韵律短语和呼吸群。近年来，越来越多的研究都集中于预测韵律结构。多通过首先设计或收集一个标注好的语料数据库，然后用某种学习算法建立一个训练模型，并用从数据库中提取出的语法和韵律特征参数对模型进行训练，从而得到最终的韵律预测模型。 [0004] 然而，因为汉语语言结构非常复杂，采用目前常见韵律预测模型对于韵律短语边界预测的正确率并不高，阻碍了自然度的进一步提高。

发明内容

[0005] 本发明所要解决的技术问题是提供一种韵律短语预测方法，能够提高韵律短语边界预测的准确性。

[0006] 为了解决上述问题，本发明公开了一种韵律短语预测方法，包括：最大熵模型预测，分析句子的特征，并对韵律短语进行预测；语法边界预测，分析句子的特征，根据语法规则对语法边界进行预测；对最大熵模型预测结果进行调整，通过预测出的语法边界，对最大熵模型预测结果进行调整，并根据调整后的概率结果确定韵律短语边界；

[0007] 其中，所述语法边界预测还包括根据语法规则将句子进行短语划分，并解析为多个短语组合的形式，然后根据句子的语法结构规则，分析出语法边界；

[0008] 所述对最大熵模型预测结果的调整包括将最大熵模型预测结果中语法边界处是韵律短语边界的概率增大，非语法边界处是韵律短语边界的概率降低。

[0009] 进一步地，该最大熵模型预测之前还包括建立最大熵模型，建立最大熵模型包括选择最大熵模型特征、准备训练数据及最大熵模型训练。

[0010] 进一步地，该最大熵模型预测包括解析出句子中分词边界等特征，并根据确定的特征进行标注，然后将标注后的数据送入最大熵模型进行预测，得出词与词之间是否为韵律短语边界的概率。

[0011] 进一步地，该最大熵模型解析出的特征包括前一词的词性、词长，后一词的词性、词长或者词性与词长的组合。

[0012] 进一步地，该语法边界预测之前还包括总结语法规则，并根据语法规则确定句子中的短语在句中的成分及句子的结构。

[0013] 进一步地，该语法规则的总结根据汉语结构特点进行。

[0014] 与现有技术相比，本发明具有以下优点：

[0015] 本发明的韵律短语预测方法中首先采用最大熵模型对韵律短语进行预测，然后对句子进行成分分析，得出语法短语边界，如主谓边界、谓宾边界等。然后通过这些语法短语边界对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大，将非语法短语边界处是韵律短语边界的概率减小。因为韵律短语边界一定是语法短语边界，而语法短语边界不一定是韵律短语边界，因此提高了韵律短语预测的准确性。 [0016] 附图说明

[0017] 图1是本发明实施例的韵律短语预测方法的流程图。

[0018] 图2是图1所示韵律短语预测方法中的语法规则分析的流程图。

具体实施方式

[0019] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0020] 请参阅图1，本发明的韵律短语预测方法首先采用最大熵模型对韵律短语边界进行预测；然后对句子进行成分分析，得出语法短语边界，如主谓边界、谓宾边界等。然后通过这些语法短语边界对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大，将非语法短语边界处是韵律短语边界的概率减小。因为韵律短语边界一定是语法短语边界，而语法短语边界不一定是韵律短语边界，故若最大熵模型预测出的韵律短语边界不在语法短语边界上，则预测错误的可能性就比较大。下面对本发明的韵律短语预测方法进行详细说明。

[0021] 在预测之前还包括建立最大熵模型及总结语法规则。其中，建立最大熵模型包括：

[0022] (1)选择最大熵模型特征

[0023] 选择与韵律短语位置有关的特征作为最大熵模型的特征，例如，前一词的词性、词长，后一词的词性、词长，或者前一词的词性与词长的组合。

[0024] (2)准备训练数据

[0025] 在选择最大熵模型的特征之后，进行训练数据的准备，需要确定模型中分词边界的特征。如前一词的词性、词长，后一词的词性、词长等等，即上述模型中的x。然后进行数据准备，准备一些语料，并根据确定的特征进行标注。

[0026] 考虑一个随机过程p(y|x)，它根据能观测到的向量x，以一定的概率输出某个y，y属于一个有限集合Y。在韵律短语边界预测中，Y＝{1，0}，分别表示韵律短语边界和非韵律短语边界。x代表与韵律短语位置有关的特征，即待判决的边界的上下文环境，包括前一词的词性、词长，后一词的词性、词长等等。为了重建随机过程p(y|x)，我们对其输出进行采样，得到N个训练样例(x1，y1)，(x2，y2)，......，(xN，yN)。由于这些训练样例由此随机过程产生，所以我们假设某个事件在训练样例中的经验概率，等于该事件在已知p(y|x)时的期望概率。

[0027] (3)训练最大熵模型

[0028] 在准备好训练数据后，利用准备好的训练数据来训练最大熵模型。将上一步标注了词性、词长、正确的韵律短语位置后的数据送入最大熵模型训练，数据格式为：是否是韵律短语边界，特征1，特征2，特征3，......。

[0029] 某个事件可以用一个表征函数fi(x，y)来表示。如果样例(xj，yj)中发生了此事件，则fi(xi，yi)＝1；否则为0。例如：如果x满足右边第一个词是连词，且y为韵律短语边界，则fi(x，y)＝1；其他情况，则fi(x，y)＝0。该事件在训练样例中的经验概率表示为： [0030]

[0031] 其中，是样例(x，y)在训练样例中出现的概率，在训练语料中的出现次数。

[0032] 如果已知p(y|x)，则事件fi(x，y)的期望概率表示为：

[0033]

[0034] 其中，p(x)是训练例中x的概率。

[0035] 根据我们的假设有即：

[0036]

[0037] 我们称表征函数fi(x，y)为特征函数，或简称特征。所以上式被称为关于特征fi(x，y)的一个约束方程，简称为约束。约束是随机过程p(y|x)和训练样例关于某一特征的一个等式，它对p(y|x)的分布做了某些限制，使之产生的样例在特征指示的方面，从统计意义上接近训练样例。

[0038] 假设已经定义了n个特征，满足这n个特征的所有随机过程构成一个集合： [0039]

[0040] 一般地，|C|＞1。我们选取其中熵最大的那个随机过程作为重建出来的模型。这里的熵是条件熵，表示为：

[0041]

[0042] 则我们最终重建出来的模型为：p*＝arg max p∈CH(p) (6)

[0043] 该模型称之为最大熵模型。熵最大的原则保证了最大熵模型具有很好的泛化效果。最大熵模型的表达形式和参数计算

[0044] 求解(6)式得到最大熵模型具有如下的形式：

[0045]

[0046] 上式中，λi是特征fi(x，y)的权重，可以使用IIS或L-BFGS迭代算法，从训练语料中训练得到。Z(x)是归一化系数。

[0047] 总结语法规则包括：

[0048] 请参阅图2，对输入的句子进行短语划分，并确定各短语的词性，再根据汉语结构特点对语法规则进行总结。比如，名词可以为主语，形容词可以为定语，以及一些其他的复合规则，如：状语+谓语+补语，可以为动词短语等。具体的总结主要是根据现实中的一些句子来总结，比如在多个名词可以组合成名词短语，假设四个名词组合成名词短语，则可以总结规则为“名词加名词加名词加名词可以组成名词短语”。当然，名词的数量并未限制，为了减少规则，则可以将上述规则总结为两条规则：“名词加名词是名词短语”、“名词加名词短语是名词短语”。然后根据句子语法结构规则确定各种短语在句子中的成分及句子的结构，并解析为多个短语组合的形式。比如，名词短语可以做主语、宾语，形容词可以做状语等。句子结构可以为“主语+谓语+宾语”等等。

[0049] 在对最大熵模型训练及总结语法规则之后，便可以采用对韵律短语进行预测，预测过程如下：

[0050] S101，最大熵模型预测。

[0051] 首先最大熵模型对输入句子进行解析，解析出最大熵的输入特征，如词性、词长等特征。然后将这些特征输入最大熵模型进行预测，最大熵模型会给出词与词之间是否为韵律短语边界的概率。如果该概率很大，则该边界被认为是一个韵律短语边界。

[0052] S102，语法边界预测。

[0053] 根据总结的语法规则对输入的句子进行分析，将输入句子进行短语划分最终将句子解析为多个短语组合的形式。如，短语1+短语2+短语3+......，然后根据句子的语法结构规则，分析出语法边界，如主谓边界、谓宾边界等，得到句子的语法结构。比如，短语1可以做主语、宾语，短语2可以做谓语，短语3可以作宾语，由于句子结构可以为“主语+谓语+宾语”。则可以确定短语1为主语、短语2为谓语，短语3为宾语。

[0054] S103，调整最大熵模型

[0055] 预测出语法边界之后，对最大熵模型预测结果进行调整，因为韵律短语边界一定是语法短语边界，而语法短语边界不一定是韵律短语边界。因此，将语法边界处是韵律短语边界的概率调大，将非语法边界处是韵律短语边界的概率调小，最后根据调整后的概率结果确定韵律短语边界。

[0056] 下面结合实例对上述方法进行说明：

[0057] 首先，对输入文本进行解析，得到最大熵的输入特征，例如，输入句子为“最大熵模型预测韵律短语边界”，则需要进行分词，词性标注等处理，如：“最大熵/名词、模型/名词、预测/动词、韵律/名词、短语/名词、边界/名词”等，即解析出最大熵的输入特征，然后根据最大熵训练出来的每个特征的概率，得到此处是韵律短语边界的概率。“最大熵”、“模型”、“韵律”、“短语”、“边界”等都是名词，根据最大熵模型，相邻的“最大熵”及“模型”是韵律短语边界的概率较大，同时相邻的“韵律”、“短语”、“边界”是韵律短语边界的概率也较大。

[0058] 然后，根据总结的语法规则，将输入的句子进行短语划分。例如，“最大熵”、“模型”是名词，此处，两个名词组合成名词短语，“预测”是动词，“韵律”、“短语”、“边界”也是名词，此处，三个名词组合成名词短语。根据语法规则，名词短语可以为主语也可以为宾语，而动词前的名词短语为主语，动词后的名词短语为宾语。则可以分析出，此处，“最大熵模型”可以做主语，“预测”可以做谓语，“韵律短语边界”可以做宾语，则“最大熵模型”和“预测”之间是主谓边界，“预测”和“韵律短语边界”之间是谓宾边界。

[0059] 最后，对最大熵模型预测的概率进行调整，在语法边界处是韵律短语的概率调大，非语法边界处是韵律短语的概率调小，然后根据调整后的概率确定韵律短语边界。即，将“最大熵模型”整体及“韵律短语边界”整体做为韵律短语的概率调大，而将单一的名词做为韵律短语的概率调小。另外，由于不同的语法边界处是韵律短语边界的可能性不一样，故在对最大熵预测的概率进行调整时，需要根据不同的语法边界调整不同的幅度。

[0060] 本发明的韵律短语预测方法中，通过采用语法短语边界来调整最大熵模型，将语法短语边界是韵律短语边界的概率增大，将非语法短语边界处是韵律短语边界的概率减小，可以避免一些统计模型预测的错误，提高了韵律短语边界预测的准确性。

[0061] 以上对本发明所提供的一种韵律短语预测方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

韵律短语预测方法转让专利

申请号 : CN201010294552.X

文献号 : CN102063898B

文献日 : 2012-09-26

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李健 , 张连毅 , 武卫东

申请人 : 北京捷通华声语音技术有限公司

摘要 :

权利要求 :

说明书 :

韵律短语预测方法

技术领域

发明内容

具体实施方式