一种语料处理方法、装置及存储介质转让专利

申请号 : CN201910430352.3

文献号 : CN110276070A

文献日 : 2019-09-24

本发明公开了一种语料处理方法，包括步骤：获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量。根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。本发明还公开了一种语料处理装置和存储介质。本发明为语料的选取提供了可靠的标准，从而可提高在筛选时选取语料句子的可靠性，有效地提高了大量文本语料的筛选效率，适合大规模的语料信息筛选任务。

1.一种语料处理方法，其特征在于，包括步骤：

获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量；

根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

2.如权利要求1所述的一种语料处理方法，其特征在于，所述频次参数为音素频次参数与句长频次参数的和；其中，所述音素频次参数与所述句子中所有音素的音素频次的倒数之和正相关；所述句长频次参数与所述句子的句长频次的倒数正相关。

3.如权利要求2所述的一种语料处理方法，其特征在于，所述音素频次参数与所述音素频次满足关系：所述句长频次参数与所述句长频次满足关系：

其中，Y为音素频次参数，y1为音素频次，W为句长频次参数，w1为句长频次，a为第一预设权重，b为第二预设权重。

4.如权利要求1至3任一项所述的一种语料处理方法，其特征在于，还包括更新目标语料库；

所述更新目标语料库包括步骤：

获取所述原有语料中得分最高的句子，作为待定句子；

计算所述待定句子所有音素在预设的目标语料库中的数量，取所述数量的平均数作为待定音素数量；

计算所述待定句子的句子长度在预设的目标语料库中的数量，作为待定句长数量；

判断所述待定音素数量是否满足第一预设阈值的要求，所述待定句长数量是否满足第二预设阈值的要求；

若同时满足，则将所述待定句子作为目标语料，加入所述目标语料库。

5.如权利要求4所述的一种语料处理方法，其特征在于，还包括步骤：若所述待定句子未同时满足所述第一预设阈值的要求和所述第二预设阈值的要求时，将所述待定句子加入备选语料；

若所述原有语料中的句子经过一次筛选，且所述目标语料的数量小于第三预设阈值，根据预设的调整步长调整所述第一预设阈值和所述第二预设阈值，并以所述备选语料作为新的原有语料，并重新获取待定句子。

6.如权利要求5所述的一种语料处理方法，其特征在于，所述第一预设阈值初始值的设置满足关系：所述第二预设阈值初始值的设置满足关系：

其中，α为第一预设阈值，β为第二预设阈值，M为第三预设阈值，y为原有语料中音素的总数，w为原有语料中句子的总数，y2为原有语料中音素类别数量，w2为原有语料中句长类别数量。

7.如权利要求6所述的一种语料处理方法，其特征在于，所述调整所述第一预设阈值时的调整步长满足关系：所述调整所述第二预设阈值时的调整步长满足关系：

其中，α1为第一预设阈值的调整步长，β1为第二预设阈值的调整步长，N为所述目标语料的数量。

8.一种语料处理装置，其特征在于，包括获取模块和计算模块；

所述获取模块，用于获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量；

所述计算模块，用于根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

9.一种语料处理装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的一种语料处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的一种语料处理方法。

一种语料处理方法、装置及存储介质

技术领域

[0001] 本发明涉及语言处理技术领域，尤其涉及一种语料处理方法、装置及存储介质。

背景技术

[0002] 近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域，语音合成技术给社会生活带来便利与丰富性，具有潜在广阔的使用价值。因此，筛选优质语料对于提高语音合成的研发效率和适应业务场景都是很必要的。

[0003] 现有技术中，在有限的硬件资源下，在语音合成任务中，需要大量的标注语料支持，并且耗费较长时间来训练以得到一个较优的模型。为了提高训练效率，同时控制训练成本，一般采用从大量的标注语料中筛选小量语料进行训练的方式。

[0004] 在实施本发明的过程中，发明人发现，现有技术中对语料的选取缺乏可靠的标准，若随机从大量的标注语料中选择小量语料进行训练，很可能丢失原语料的大部分信息，从而使得训练的模型效果欠佳；若对大量的标注语料进行逐一、全部筛选，从而获取保留原有语料大部分信息的小量语料，需要耗费较多的研发时间。

发明内容

[0005] 本发明实施例的目的是提供一种语料处理方法、装置及存储介质，为语料的选取提供了可靠的标准，从而可提高在筛选时选取语料句子的可靠性，有效地提高了大量文本语料的筛选效率，适合大规模的语料信息筛选任务。

[0006] 为实现上述目的，本发明实施例提供一种语料处理方法，包括步骤：

[0007] 获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量。

[0008] 根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

[0009] 作为上述方案的改进，所述频次参数为音素频次参数与句长频次参数的和；其中，所述音素频次参数与所述句子中所有音素的音素频次的倒数之和正相关；所述句长频次参数与所述句子的句长频次的倒数正相关。

[0010] 作为上述方案的改进，所述音素频次参数与所述音素频次满足关系：

[0011]

[0012] 所述句长频次参数与所述句长频次满足关系：

[0013]

[0014] 其中，Y为音素频次参数，y1为音素频次，W为句长频次参数，w1为句长频次，a为第一预设权重，b为第二预设权重。

[0015] 作为上述方案的改进，还包括更新目标语料库。

[0016] 所述更新目标语料库包括步骤：

[0017] 获取所述原有语料中得分最高的句子，作为待定句子。

[0018] 计算所述待定句子所有音素在预设的目标语料库中的数量，取所述数量的平均数作为待定音素数量。

[0019] 计算所述待定句子的句子长度在预设的目标语料库中的数量，作为待定句长数量。

[0020] 判断所述待定音素数量是否满足第一预设阈值的要求，所述待定句长数量是否满足第二预设阈值的要求。

[0021] 若同时满足，则将所述待定句子作为目标语料，加入所述目标语料库。

[0022] 作为上述方案的改进，还包括步骤：

[0023] 若所述待定句子未同时满足所述第一预设阈值的要求和所述第二预设阈值的要求时，将所述待定句子加入备选语料。

[0024] 若所述原有语料中的句子经过一次筛选，且所述目标语料的数量小于第三预设阈值，根据预设的调整步长调整所述第一预设阈值和所述第二预设阈值，并以所述备选语料作为新的原有语料，并重新获取待定句子。

[0025] 作为上述方案的改进，所述第一预设阈值初始值的设置满足关系：

[0026]

[0027] 所述第二预设阈值初始值的设置满足关系：

[0028]

[0029] 其中，α为第一预设阈值，β为第二预设阈值，M为第三预设阈值，y为原有语料中音素的总数，w为原有语料中句子的总数，y2为原有语料中音素类别数量，w2为原有语料中句长类别数量。

[0030] 作为上述方案的改进，所述调整所述第一预设阈值时的调整步长满足关系：

[0031]

[0032] 所述调整所述第二预设阈值时的调整步长满足关系：

[0033]

[0034] 其中，α1为第一预设阈值的调整步长，β1为第二预设阈值的调整步长，N为所述目标语料的数量。

[0035] 本发明实施例还提供一种语料处理装置，包括获取模块和计算模块；

[0036] 所述获取模块，用于获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量。

[0037] 所述计算模块，用于根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

[0038] 本发明实施例还提供一种语料处理装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的一种语料处理方法。

[0039] 本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的一种语料处理方法。

[0040] 与现有技术相比，本发明实施例公开的一种语料处理方法、装置及存储介质，根据原有语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序进行语料句子的获取，可提高在选取语料句子时的可靠性，有效地提高了大量语料的筛选效率，适合大规模的语料信息筛选任务。

附图说明

[0041] 图1是本发明实施例1提供的一种语料处理方法的流程示意图。

[0042] 图2是本发明实施例2提供的一种语料处理方法中更新目标语料库的流程示意图。

[0043] 图3是本发明实施例3提供的另一种语料处理方法中更新目标语料库的流程示意图。

[0044] 图4是本发明实施例4提供的一种语料处理装置的结构示意图。

[0045] 图5是本发明实施例5提供的另一种语料处理装置的结构示意图。

具体实施方式

[0046] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0047] 参见图1，是本发明实施例1提供的一种语料处理方法的流程示意图。本发明实施例1提供的一种语料处理方法包括步骤S11至步骤S12。

[0048] S11、获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量。

[0049] 具体地，可以预先统计相同的音素在原有语料中出现的频次，作为每一音素的音素频次；预先计算原有语料中每一句子的长度，统计每一具有相同句子长度的句子在原有语料中出现的频次，作为每一句子的句长频次，以预先得到的音素频次和句长频次生成频次文件并存储。在进行语料处理时，通过读取所述频次文件，以获取所述音素频次和所述句长频次。

[0050] 也可以在进行语料处理时，手动输入原有语料中每一音素的所述音素频次和每一句子的句长频次，从而获得所述音素频次和所述句长频次，均不影响本发明取得的有益效果。

[0051] 优选地，步骤S11可以包括对所述原有语料进行预处理。作为举例，所述预处理包括步骤S111至步骤S112。

[0052] S111、将原有语料中的句子转换为音素的相关表示形式。

[0053] 将所述原有语料中的句子转换为音素的相关表示形式，所述音素的相关表示形式包括但不限于拼音形式、音素形式、拼音和音素的组合形式、拼音或音素的ngram形式。

[0054] S112、对原有语料中音素和句长的相关参数进行统计以得到所述音素频次和所述句长频次。

[0055] 可以根据原有语料中的音素和句子，统计相同音素的音素数量，从而得到每一音素的音素频次；统计具有相同句子长度的句子数量，从而得到每一句子的句长频次。

[0056] 可以理解地，也可以是以相同音素为同一类别，对原有语料中所有音素进行类别划分，统计同一类别的音素的数量，作为同一类别内每一音素的音素频次；计算原有语料中所有句子的句子长度，以具有同一句子长度的句子为同一类别进行划分，统计同一类别的句子的数量，作为同一类别内每一句子的句长频次，均不影响本发明取得的有益效果。

[0057] 更优选地，还可以是以相同音素为同一类别，对原有语料中所有音素进行类别划分，以具有同一句子长度的句子为同一类别进行划分后，对原有语料中的音素总数、音素的类别数量、各类别音素的数量、句子总数、句长的类别数量和各类别句子的数量等数据进行统计，以方便在进行原有语料的相关数据计算时调用，例如直接获取各类别音素的数量作为所述音素频次，各类别句子的数量作为所述句长频次。

[0058] S12、根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

[0059] 可以是通过预先设定的评分原则，当原有语料中的每一句子的音素频次越小和句长频次越小时，所述句子的得分也越高。通过这一评分原则，预先设定使频次参数满足与音素频次负相关，且与句长频次负相关的关系式，根据所述关系式，计算原有语料中的每一句子的频次参数，以所述频次参数作为所述句子的得分，从而得到原有语料中每一句子所得分数。

[0060] 可以理解地，也可以分别设置音素频次阈值和句长频次阈值，比较原有语料中的每一句子的音素频次与音素频次阈值的大小、句长频次与句长频次阈值的大小。每一句子中小于音素频次阈值的音素频次越多、小于句频次阈值的句长频次越多，所述句子的频次参数则越大，从而计算频次参数，作为所述句子的得分。均不影响本发明取得的有益效果。

[0061] 优选地，所述频次参数为音素频次参数与句长频次参数的和；其中，所述音素频次参数与所述句子中所有音素的音素频次的倒数之和正相关；所述句长频次参数与所述句子的句长频次的倒数正相关。

[0062] 可以通过设置使所述音素频次参数与所述句子中所有音素的所述音素频次的倒数之和呈正相关的关系式，从而计算出所述音素频次参数；设置使所述句长频次参数与所述句子的所述句长频次的倒数呈正相关的关系式，从而计算出所述句长频次参数，以所述音素频次参数与所述句长频次参数的和作为所述频次参数。

[0063] 可以理解地，也可以直接以所有音素的所述音素频次的倒数之和作为音素频次参数、所述句长频次的倒数作为句长频次参数，以所述音素频次参数与句长频次参数的和作为所述频次参数。均不影响本发明取得的有益效果。

[0064] 优选地，所述音素频次参数与所述音素频次满足关系：

[0065]

[0066] 所述句长频次参数与所述句长频次满足关系：

[0067]

[0068] 其中，Y为音素频次参数，y1为音素频次，W为句长频次参数，w1为句长频次，a为第一预设权重，b为第二预设权重。所述第一预设权重a表示所述音素频次在所述句子中所占权重，所述第二预设权重b表示所述句长频次在所述句子中所占权重。例如，可以设所述第一预设权重与所述第二预设权重之和为1，即a+b＝1，如设所述第一预设权重的数值可以为0.5，相应地设所述第二预设权重的数值则为0.5。若所述句子的音素频次在所述句子中所占的重要程度相较句长频次更高，也可以将所述第一预设权重的数值设置为0.6，所述第二预设权重的数值相应设置为0.4。可以理解地，所述第一预设权重与所述第二预设权重之和还可以是更大或更小，均不影响本发明可取得的有益效果。

[0069] 可以理解地，以上所涉及的数值仅作为举例，也可以根据所述句子中音素频次和句长频次在所述句子中所占的重要程度，将所述第一预设权重和所述第二预设权重设置为其他任意常数值，并可以根据实际情况进行调整，均不影响本发明取得的有益效果。

[0070] 作为举例，假设所述第一预设阈值为0.5，所述第二预设阈值为0.5，所述句子所包含音素a的个数为2，音素b的个数为1，音素c的个数为1。在原有语料中，所述句子的句长频次为10，音素a的音素频次为3，音素b的音素频次为4，音素c的音素频次为6，则所述句子的音素频次参数Y1满足:

[0071]

[0072] 所述句子的句长频次参数W1满足：

[0073]

[0074] 可以理解地，以上所涉及的数值仅作为举例，在实际筛选过程中，可以根据实际的数量进行调整和计算，均不影响本发明取得的有益效果。

[0075] 本发明实施例1提供了一种语料处理方法，根据原有文本语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序进行语料句子的抽取，可提高在选取语料句子时的可靠性，有效地提高了大量语料的筛选效率，大大地节省了筛选的时间成本，适合大规模的语料信息筛选任务。

[0076] 本发明实施例2提供了另一种语料处理方法，在如实施例1所述的语料处理方法的基础上，还包括更新目标语料库。

[0077] 参见图2，是本发明实施例2提供的一种语料处理方法中更新目标语料库的流程示意图，所述目标语料库的更新包括步骤S21至S25。

[0078] S21、获取所述原有语料中得分最高的句子，作为待定句子。

[0079] 在对原有语料中的每一句子进行评分之后，可以根据每一句子的得分，比较每一句子的得分高低，获取其中得分最高的句子，作为待定句子。

[0080] 也可以通过比较每一个句子的得分，按照得分高低对每一句子进行降序排列，并对降序排列后的句子队列进行存储。根据需求，获取其中第一个句子，也即得分最高的句子，作为所述待定句子。

[0081] S22、计算所述待定句子所有音素在预设的目标语料库中的数量，取所述数量的平均数作为待定音素数量。

[0082] 预先设置目标语料库以存储筛选后符合条件的目标语料。根据所述待定句子中的所有音素，计算每种音素在目标语料库中的数量，取每一种音素在目标语料库中的数量的平均值作为待定音素数量。

[0083] 例如，所述待定句子中包含三种不同的音素，每一种音素在目标语料库中存有的数量分别是3、4和5，则所述待定音素数量为4。可以理解地，当所述目标语料库中不存在所述目标语料时，所包含的音素的初始数量也为零，此时所述待定句子中每一种音素在目标语料库中的数量的平均值，即所述待定音素数量也必然为零。当筛选出符合条件的目标语料并加入目标语料库时，目标语料库中的音素的数量也将相应增加，则会影响下一待定句子的待定音素数量值。

[0084] 可以理解地，以上所涉及数值仅作为举例，在实际的筛选过程中，根据待定句子的变化，所包含的音素不同，目标语料库所存音素数量也不同，可以是根据实际情况计算所得的其他数值，均不影响本发明取得的有益效果。

[0085] S23、计算所述待定句子的句子长度在预设的目标语料库中的数量，作为待定句长数量。

[0086] 根据所述待定句子的句子长度，计算与所述句子长度相同的句子在目标语料库中的数量，作为待定句长数量。

[0087] 例如，所述待定句子的句子长度为10，在目标语料库所存句子中，句子长度为10的句子的数量为3，则所述待定句长数量为3。可以理解地，当所述目标语料库中不存在所述目标语料时，所包含的句子的初始数量也为零，此时与所述待定句子的句子长度相同的句子的数量，即所述待定句长数量也必然为零。当筛选出符合条件的目标语料并加入目标语料库时，目标语料库中的句子的数量也将相应增加，则会影响下一待定句子的待定句长数量值。

[0088] 可以理解地，以上所涉及数值仅作为举例，在实际的筛选过程中，根据待定句子的变化，其句子长度也不同，目标语料库存有的同一句子长度的句子数量也不同，可以是根据实际情况计算所得的其他数值，均不影响本发明取得的有益效果。

[0089] 可以理解地，步骤S22和步骤S23的执行时机可以相互替换，或同时进行，均不影响本发明取得的有益效果。

[0090] 优选地，还可以建立音素数量库和句长数量库，以相同音素作为同一音素类别，以相同句子长度作为同一句长类别。所述音素数量库用于存储目标语料库中每一音素类别的数量，所述句长数量库用于存储目标语料库中每一句长类别的数量。相应地，当目标语料库中不存在目标语料时，即所存音素为零、所存句子为零时，所述音素数量库中每一音素类别的数量都为零，所述句长数量库中每一句长类别的数量都为零。可以理解地，根据实际情况，当目标语料库中存有符合筛选条件的目标语料时，所述音素数量库和所述句长数量库中，对应目标语料的音素类别和句长类别的数量也会相应增加，均不影响本发明取得的有益效果。

[0091] S24、判断所述待定音素数量是否满足第一预设阈值的要求，所述待定句长数量是否满足第二预设阈值的要求。

[0092] 预先设定第一预设阈值和第二预设阈值，当所述待定音素数量小于第一预设阈值时，判断所述待定音素数量满足第一预设阈值要求。当所述待定句长数量小于第二预设阈值时，判断所述待定句长数量满足第二预设阈值要求。

[0093] 所述第一预设阈值和所述第二预设阈值可以为任意常数值，且可以根据实际情况进行调整。例如当需要筛选得到的语料句子的数量较少时，例如低于1000条，则可以将所述第一预设阈值和所述第一预设阈值设置为1。当需要得到的语料句子数量较大时，可以根据实际需求，设置所述第一预设阈值和第二预设阈值为10。可以理解地，以上所涉及的数值仅作为举例，在实际筛选过程中，可以根据实际需求，对所述第一预设阈值和所述第二预设阈值做相应的调整，均不影响本发明取得的有益效果。

[0094] 可以理解地，根据所以第一预设阈值和所述第二预设阈值的要求的设置不同，也可以是当所述待定音素数量达到或大于第一预设阈值时，判断所述待定音素数量满足第一预设阈值要求；可以是当所述待定句长数量达到或大于第二预设阈值时，判断所述待定句长数量满足第二预设阈值要求，均不影响本发明取得的有益效果。

[0095] S25、若同时满足，则将所述待定句子作为目标语料，加入所述目标语料库。

[0096] 具体地，当所述待定音素数量小于第一预设阈值，且所述待定句长数量小于第二预设阈值时，所述待定句子同时满足要求，则将所述待定句子作为目标语料，并将所述待定句子从原有语料中调出，加入所述目标语料库。此时，在所述音素数量库中，将所述待定句子包含的所有音素的数量全部加1，在所述句长数量库中，所述待定句子的句子长度的数量也加1。若所述待定句子不满足所述第一预设阈值的要求，或不满足所述第二阈值的要求，或同时不满足，则所述待定句子不加入目标语料库，此时所述音素数量库和所述句长数量库也将保持不变。

[0097] 本发明实施例2提供了一种语料处理方法，根据原有文本语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序获取语料句子进行筛选，通过对目标语料中相同音素的音素数量、相同句长的句子数量和句子总数等数据的阈值设置，从大量原有语料中自动筛选出音素和句长分布全面均衡的小语料，有效地节省了人力资源，减少数据计算量，提高了筛选效率和筛选精准度，适合大规模的语料信息筛选任务。

[0098] 参见图3，是本发明实施例3提供的另一种语料处理方法中更新目标语料库的流程图。本发明实施例3所提供的语料处理方法在实施例2的基础上，在步骤S25之后，还包括步骤：

[0099] S36、若所述待定句子未同时满足所述第一预设阈值的要求和所述第二预设阈值的要求时，将所述待定句子加入备选语料。

[0100] 若所述待定句子不满足所述第一预设阈值的要求，或不满足所述第二阈值的要求，或同时不满足，则将所述待定句子加入备选语料。

[0101] S37、若所述原有语料中的句子经过一次筛选，且所述目标语料的数量小于第三预设阈值，根据预设的调整步长调整所述第一预设阈值和所述第二预设阈值，并以所述备选语料作为新的原有语料，并重新获取待定句子。

[0102] 按原有语料中的句子的得分顺序依次获取所述待定句子并判断所述待定句子是否满足预设阈值的要求。当所述原有语料中的句子经过一次筛选后，判断所述目标语料的数量和第三预设阈值的大小关系，若此时所述目标语料的数量小于第三预设阈值，则以备选语料中的句子作为新的原有语料，根据预设的调整步长，适当提高所述第一预设阈值和所述第二预设阈值，按照备选语料中句子的得分高低，重新依次获取待定句子并判断是否满足要求。

[0103] 例如，所述第一预设阈值和所述第二预设阈值的初始设置都为1时，经过一次筛选后目标语料的数量远小于所述第三预设阈值，也即所需筛选得到的目标语料数量较大时，可以设置所述第一预设阈值和所述第二预设阈值的数值为10。可以理解地，若所需要筛选得到的目标语料很大，或要求筛选的运行速度较快时，也可以将所述第一预设阈值和所述第二预设阈值的数值调整为50等。或根据实际需求，将所述第一预设阈值和所述第二预设阈值的数值设置为其他相同的或不同的数值，均不影响本发明取得的有益效果。

[0104] 具体地，可以是在在对原有语料中的句子进行筛选的过程中，获取其中最高分的句子作为待定句子，判断其是否满足第一预设阈值和第二预设阈值的要求。在判断完毕后，可以通过将所述待定句子从原有语料中调出，若所述待定句子同时满足要求，则加入所述目标语料库，未同时满足时则加入备选语料，以使在获取下一待定句子时，仍获取所述原有语料中的最高分的句子作为下一待定句子。而当原有语料中的句子经过一次筛选后，原有语料为空，进而判断是否需要调整所述第一预设阈值和所述第二预设阈值，进行下一轮的筛选。

[0105] 可以理解地，也可以在判断所述待定句子是否满足第一预设阈值和第二预设阈值的要求后，将同时满足要求的待定句子从原有语料中调出，加入所述目标语料库，而对未同时满足要求的待定句子留在原有语料中，并进行标记。在获取下一待定句子时，需获取原有语料中得分最高且不被标记的句子作为待定句子并进行判断。则当原有语料中的所有句子都经过一次筛选后，原有语料中存有备选语料，再判断是否需要调整所述第一预设阈值和所述第二预设阈值并进行下一轮的筛选。均不影响本发明取得的有益效果。

[0106] 可以理解地，若所述原有语料中的句子未完全经过一次筛选，所述目标语料的数量已达到所述第三预设阈值，或所述原有语料中的句子经过一次筛选后，所述目标语料的数量远远大于所述第三预设阈值，可以根据预设的调整步长，降低所述第一预设阈值和所述第二预设阈值，进而重新筛选目标语料，均不影响本发明取得的有益效果。

[0107] 优选地，所述第一预设阈值初始值的设置满足关系：

[0108]

[0109] 所述第二预设阈值初始值的设置满足关系：

[0110]

[0111] 其中，α为第一预设阈值，β为第二预设阈值，M为第三预设阈值，y为原有语料中音素的总数，w为原有语料中句子的总数，y2为原有语料中音素类别数量，w2为原有语料中句长类别数量。

[0112] 其中，所述音素类别数量表示所述在原有语料中，以相同的音素作为同一音素类别时，所划分音素类别的数量。所述句长类别数量表示在所述原有语料中，以相同的句子长度作为同一句长类别时，所划分句长类别的数量。

[0113] 优选地，所述调整所述第一预设阈值时的调整步长满足关系：

[0114]

[0115] 所述调整所述第二预设阈值时的调整步长满足关系：

[0116]

[0117] 其中，α1为第一预设阈值的调整步长，β1为第二预设阈值的调整步长，N为所述目标语料的数量。

[0118] 本发明实施例3提供了一种语料处理方法，根据原有文本语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序获取语料句子进行筛选，通过对目标语料的相同音素的音素数量、相同句长的句子数量和句子总数等数据的阈值设置，从大量原有语料中自动筛选出音素和句长分布全面均衡的小语料，有效地节省了人力资源，减少数据计算量，提高了筛选效率和筛选精准度，适合大规模的语料信息筛选任务。

[0119] 本发明实施例4提供了一种语料处理装置40，包括获取模块41和计算模块42。参见图4，是本发明实施例4提供的一种语料处理装置40的结构示意图。

[0120] 所述获取模块41，用于获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量。

[0121] 所述计算模块42，用于根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

[0122] 所述语料处理装置40的工作过程可执行实施例1至实施例3中任意一项所提供的语料处理方法，在此不作赘述。

[0123] 本发明实施例4提供了一种语料处理装置，根据原有文本语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序获取语料句子进行筛选，通过对目标语料的相同音素的音素数量、相同句长的句子数量和句子总数等数据的阈值设置，从大量原有语料中自动筛选出音素和句长分布全面均衡的小语料，有效地节省了人力资源，减少数据计算量，提高了筛选效率和筛选精准度，适合大规模的语料信息筛选任务。

[0124] 参见图5，是本发明实施例5提供的另一种语料处理装置的结构示意图。本发明实施例5提供了一种语料处理装置50，包括处理器51、存储器52以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，例如更新目标语料库的程序。所述处理器执行所述计算机程序时实现上述更新目标语料库方法实施例中的步骤，例如图2所示的步骤S21至步骤S25。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实施例4所述的语料处理装置。

[0125] 示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器52中，并由所述处理器51执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述语料处理装置50中的执行过程。例如，所述计算机程序可以被分割成获取模块和计算模块，各模块具体功能如下：获取模块，用于获取原有语料中每一音素的音素频次和每一句子的句长频次；其中，每一音素的所述音素频次表示在所述原有语料中相同音素的数量，每一句子的所述句长频次表示在所述原有语料中的相同句子长度的句子数量；计算模块，用于根据所述音素频次和所述句长频次计算每一所述句子的频次参数，以所述频次参数作为所述句子的得分；其中，所述频次参数与所述音素频次负相关，且与所述句长频次负相关。

[0126] 所述语料处理装置50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语料处理装置50可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，所述示意图仅仅是语料处理装置50的示例，并不构成对语料处理装置50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述语料处理装置50还可以包括输入输出设备、网络接入设备、总线等。

[0127] 所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器52是所述语料处理装置50的控制中心，利用各种接口和线路连接整个语料处理装置50的各个部分。

[0128] 所述存储器52可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述语料处理装置50的各种功能。所述存储器52可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

[0129] 其中，所述语料处理装置50集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

[0130] 需说明的是，以上所描述的语料处理装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0131] 本发明实施例5提供了一种语料处理装置，根据原有文本语料中音素和句长的频次对原有语料的句子进行评分，使原有语料中音素和句长的频次较低的句子得分较高，为语料的选取提供了可靠的标准。在对大量语料进行筛选的过程中，按照评分顺序获取语料句子进行筛选，通过对目标语料的相同音素的音素数量、相同句长的句子数量和句子总数等数据的阈值设置，从大量原有语料中自动筛选出音素和句长分布全面均衡的小语料，有效地节省了人力资源，减少数据计算量，提高了筛选效率和筛选精准度，适合大规模的语料信息筛选任务。

[0132] 以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

一种语料处理方法、装置及存储介质转让专利

申请号 : CN201910430352.3

文献号 : CN110276070A

文献日 : 2019-09-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 徐波

申请人 : 广州多益网络股份有限公司 , 广东利为网络科技有限公司 , 多益网络有限公司

摘要 :

权利要求 :

说明书 :