逆文本标准化方法及系统转让专利

申请号 : CN202011583283.9

文献号 : CN112687265B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨鹏杨吉丛蕲

申请人 : 思必驰科技股份有限公司

摘要 :

本发明实施例提供一种逆文本标准化方法。该方法包括:提取识别模块并发输出的多条原始语音识别结果中的关键字;基于关键字对多条原始语音识别结果进行场景划分,确定多条原始语音识别结果的场景;分别将多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。本发明实施例还提供一种逆文本标准化系统。本发明实施例通过该实施方式可以看出,分而治之的计算模式下,大大降低了线上ITN的计算资源占用,用更小的成本提供更高的服务能力。更灵活的支持用户了专用词语的标准化转换。对某些场景规则无法高效支持的场景,做深入的模型优化,也可以通过将bad case加入到其他场景的规则中来规避模型不能解决的问题。

权利要求 :

1.一种逆文本标准化方法,包括:

提取识别模块并发输出的多条原始语音识别结果中的关键字;

基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;

分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果,其中,所述方法还包括:

当一个原始语音识别结果有多个场景时,将所述原始语音识别结果输入至所述多个场景中任一场景对应的ITN资源中,将所述ITN资源输出的逆文本标准化的语音识别结果输入至所述多个场景中剩余的任一场景对应的ITN资源中,直至经过所有场景对应的ITN资源处理,输出逆文本标准化的最终语音识别结果,或者,当一个原始语音识别结果有多个场景时,分别将所述原始语音识别结果输入至多个场景各自对应的ITN资源,输出多条所述原始语音识别结果的逆文本标准化的语音识别结果;

对所述多条所述原始语音识别结果的逆文本标准化的语音识别结果进行归一化,得到逆文本标准化的最终语音识别结果。

2.根据权利要求1所述的方法,其中,当所述原始语音识别结果有多个场景时,所述方法还包括:判断所述多个场景的优先级;

基于所述多个场景的优先级,将所述原始语音识别结果输入至所述多个场景内场景对应的ITN资源,直至经过所有场景对应的ITN资源处理,输出逆文本标准化的最终语音识别结果。

3.根据权利要求1所述的方法,其中,所述场景包括:中文数字场景、英文场景、数学运算场景、量词场景、时间日期场景、号码场景、地址场景。

4.根据权利要求1‑3中任一项所述的方法,其中,所述场景还包括定制化场景,用于优先将原始语音识别结果输入至所述定制化场景对应的ITN资源中。

5.根据权利要求2所述的方法,其中,所述多个场景的优先级降序顺序依次为:中文数字场景、时间日期场景、号码场景、地址场景、数学运算场景、量词场景、英文场景。

6.一种逆文本标准化系统,包括:

关键字提取程序模块,用于提取识别模块并发输出的多条原始语音识别结果中的关键字;

场景确定程序模块,用于基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;

逆文本标准化程序模块,用于分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果,其中逆文本标准化程序模块还用于:

当一个原始语音识别结果有多个场景时,将所述原始语音识别结果输入至所述多个场景中任一场景对应的ITN资源中,将所述ITN资源输出的逆文本标准化的语音识别结果输入至所述多个场景中剩余的任一场景对应的ITN资源中,直至经过所有场景对应的ITN资源处理,输出逆文本标准化的最终语音识别结果,或者,当一个原始语音识别结果有多个场景时,分别将所述原始语音识别结果输入至多个场景各自对应的ITN资源,输出多条所述原始语音识别结果的逆文本标准化的语音识别结果;

对所述多条所述原始语音识别结果的逆文本标准化的语音识别结果进行归一化,得到逆文本标准化的最终语音识别结果。

7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑5中任一项所述方法的步骤。

8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1‑5中任一项所述方法的步骤。

说明书 :

逆文本标准化方法及系统

技术领域

[0001] 本发明涉及智能语音领域,尤其涉及一种逆文本标准化方法及系统。

背景技术

[0002] ITN(Inverse Text Normalization,逆文本标准化)是智能语音识别之后一个必要的处理流程,作用是将原始的语音识别结果再进行一层转换,以便更符合阅读或的习惯或接下来其他流程的处理。以中英文识别为例,识别得到的文本都是中英文的字词而不含有数字及符号。但是从我们的书写习惯来说,某些标准化格式的表达方式会符合阅读的习惯,比如日期、百分比、电话号码等。ITN就是用来对识别的结果做这一层标准化的转换。
[0003] 在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
[0004] 当开启ITN功能后,会将每次得到的识别结果都作为ITN的输入进行准化转换。由于ITN的实现使用了大量的规则匹配搜索技术或者通过生成模型生成得到标准化后的结果,在单并发时并没有展现出过多的时延,但是当并发数比较高时会让ITN的时延成指数级增长,会极大影响服务支持的并发数。

发明内容

[0005] 为了至少解决现有技术中对于并发数较高时,ITN的延时较高,影响最大服务支持的并发数的问题。
[0006] 第一方面,本发明实施例提供一种逆文本标准化方法,包括:
[0007] 提取识别模块并发输出的多条原始语音识别结果中的关键字;
[0008] 基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;
[0009] 分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。
[0010] 第二方面,本发明实施例提供一种逆文本标准化系统,包括:
[0011] 关键字提取程序模块,用于提取识别模块并发输出的多条原始语音识别结果中的关键字;
[0012] 场景确定程序模块,用于基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;
[0013] 逆文本标准化程序模块,用于分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。
[0014] 第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的逆文本标准化方法的步骤。
[0015] 第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的逆文本标准化方法的步骤。
[0016] 本发明实施例的有益效果在于:通过该实施方式可以看出,分而治之的计算模式下,大大降低了线上ITN的计算资源占用,用更小的成本提供更高的服务能力。更灵活的支持用户了专用词语的标准化转换。另外对某些场景规则无法很好、很高效支持的场景,做深入的模型优化,也可以通过将bad case加入到其他场景的规则中来规避模型不能解决的问题。让规则和模型在不同场景下搭配使用从而达到效果和效率的最优,同时确定出对这些环境排出优先级,确保各ITN资源均衡使用。

附图说明

[0017] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1是本发明一实施例提供的一种逆文本标准化方法的流程图;
[0019] 图2是本发明一实施例提供的一种逆文本标准化方法的优先级流程图;
[0020] 图3是本发明一实施例提供的一种逆文本标准化系统的结构示意图。

具体实施方式

[0021] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0022] 如图1所示为本发明一实施例提供的一种逆文本标准化方法的流程图,包括如下步骤:
[0023] S11:提取识别模块并发输出的多条原始语音识别结果中的关键字;
[0024] S12:基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;
[0025] S13:分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。
[0026] 在本实施方式中,在不改动原有ITN模块的计算复杂度基础上,通过场景划分来细化ITN的处理逻辑,从而起到降低计算量的目的。
[0027] 对于步骤S11,语音处理云服务在对来自各个用户进行语音处理时,通过识别模块对这些大量语音进行处理,通过语音处理云服务中的识别模块识别出这些大量语音的多条原始语音识别结果。为了将原始的语音识别结果再进行一层转换,以便更符合阅读或的习惯或接下来其他流程的处理。
[0028] 考虑到ITN资源的分而治之,就需要使用对应的关键字进行区分,划分到不同的ITN资源中。因此提取识别模块并发输出的多条原始语音识别结果中的关键字,例如,“开启八点二十五的闹铃”,其中“八点二十五”就是关键字。又例如,“请将快递帮我送到道理十六道街二百三十一号”,其中“道理十六道街二百三十一号”就是关键字。关键字可以通过不同场景的词典进行划分,也可以使用其他方法,在此不做限定。
[0029] 对于步骤S12,基于在步骤S11中确定的每个原始语音识别结果中各自的关键字,通过关键字确定对应的场景,例如,“开启八点二十五的闹铃”中“八点二十五”对应的场景为时间日期场景;“请将快递帮我送到道理十六道街二百三十一号”中“道理十六道街二百三十一号”对应的为地址场景。
[0030] 作为一种实施方式,为了确保有效精确的划分,所述场景包括:中文数字场景、英文场景、数学运算场景、量词场景、时间日期场景、号码场景、地址场景。
[0031] 针对于上述不同场景,时间日期场景和地址场景已经举例,其余场景不再赘述。
[0032] 对于步骤S13,例如,现有方法在处理“开启八点二十五的闹铃”、“请将快递帮我送到道理十六道街二百三十一号”等多条语句时,需要使用同一个整体ITN资源进行处理,这样整体ITN资源处理较大,时延指数级增长。
[0033] 而本方法,由于将整体的ITN资源进行了分而治之,每一个不同的环境都对应有各自的ITN资源,例如,在处理上述多条语句时,会将“开启八点二十五的闹铃”输入至时间日期场景对应的ITN资源中,“请将快递帮我送到道理十六道街二百三十一号”会输入至地址场景对应的ITN资源中。这样多条原始语音识别结果会输入到不同的ITN资源中,得到多条逆文本标准化的语音识别结果。
[0034] 通过该实施方式可以看出,分而治之的计算模式下,大大降低了线上ITN的计算资源占用,用更小的成本提供更高的服务能力。
[0035] 作为一种实施方式,在本实施例中,所述方法还包括:
[0036] 当一个原始语音识别结果有多个场景时,将所述原始语音识别结果输入至所述多个场景中任一场景对应的ITN资源中,将所述ITN资源输出的逆文本标准化的语音识别结果输入至所述多个场景中剩余的任一场景对应的ITN资源中,直至经过所有场景对应的ITN资源处理,输出逆文本标准化的最终语音识别结果。
[0037] 在本实施方式中,如果一个原始语音识别结果有多个场景时,会需要将原始语音识别结果输入至多个场景中任一一个场景对应的ITN资源中,在该ITN资源处理后,会输入到下一个场景对应的ITN资源中。例如,“收货地址是果戈里大街某某号一零二室,小明收,一七六某某某某六六七七”,其中,示例中的“某”指代数字汉字,这一句话中,既有号码场景,又有地址场景。在ITN处理中,可以在这两个场景中随意选择一个对应的ITN资源进行处理(例如,可以根据哪个ITN资源空闲,又或者其他),例如,首先输入到号码场景对应的ITN资源中,在号码场景对应的ITN资源输出后,再输入至地址环境对应的ITN资源。先得到“收货地址是果戈里大街某某号一零二室小明收176****6677”,其中,“*”指代阿拉伯数字。再将这句话输入至地址环境对应的ITN资源,得到“收货地址是果戈里大街**号102室小明收176****6677”。
[0038] 作为另一种实施方式,在本实施例中,所述方法还包括:
[0039] 当一个原始语音识别结果有多个场景时,分别将所述原始语音识别结果输入至多个场景各自对应的ITN资源,输出多条所述原始语音识别结果的逆文本标准化的语音识别结果;
[0040] 对所述多条所述原始语音识别结果的逆文本标准化的语音识别结果进行归一化,得到逆文本标准化的最终语音识别结果。
[0041] 还是以同样的例子,“收货地址是果戈里大街某某号一零二室,小明收,一七六某某某某六六七七”这一句话中,既有号码场景,又有地址场景。
[0042] 分别将这句话分别输入到号码场景对应的ITN资源和地址场景对应的ITN资源。分别得到
[0043] “收货地址是果戈里大街某某号一零二室,小明收,176****6677”和“收货地址是果戈里大街**号102室,小明收,一七六某某某某六六七七”。得到这两个语句后,可以进行归一化,保留各句子中不同的内容,最终得到“收货地址是果戈里大街**号102室小明收176****6677”。
[0044] 通过该实施方式可以看出,对于分而治之有着不同的调度模式,可以根据ITN资源被占用的状态进行适应调整,选择最佳模式,降低ITN资源占用,提高服务能力。
[0045] 作为一种实施方式,在本实施例中,当所述原始语音识别结果有多个场景时,所述方法还包括:
[0046] 判断所述多个场景的优先级;
[0047] 基于所述多个场景的优先级,将所述原始语音识别结果输入至所述多个场景内场景对应的ITN资源,直至经过所有场景对应的ITN资源处理,输出逆文本标准化的最终语音识别结果。
[0048] 所述场景还包括定制化场景,用于优先将原始语音识别结果输入至所述定制化场景对应的ITN资源中。
[0049] 所述多个场景的优先级降序顺序依次为:中文数字场景、时间日期场景、号码场景、地址场景、数学运算场景、量词场景、英文场景。
[0050] 在本实施方式中,考虑到各场景对应的ITN资源处理可能会有所影响,例如,如果先进行号码场景的ITN资源,之后再进行中文数字场景的ITN资源处理,可能号码对应的ITN资源处理后,中文数字场景的ITN资源就没有内容可以处理,使得场景划分不够精准,有的场景ITN资源处理的操作会过多,而有的场景INT资源处理的操作又过少,不均衡。因此,避免这种情况,对这些场景进行了优先级划分。如图2所示。
[0051] 定制化的ITN功能,主要是考虑到客户对我们内置的通用规则之外可能还存在其他的专有名词转换的需求,所以我们预留了定制ITN规则的方法。定制化的ITN功能是基于规则匹配来实现的,在实际使用中客户定制的规则的数量都很小,主要是用在其自身专业领域的某些专有名字上。
[0052] Step1:得到识别文本后首先判断是该请求所属的客户是否有配置定制化的ITN资源,如果有配置则进入Step2否则进入Step3。
[0053] Step2:将识别的文本作为定制化ITN资源的输入,得到计算后的输出后进入Step3。
[0054] Step3:判断识别的文本中是否包含中文数字(判断中文数字场景),如果不包含则进入Step:16,如果包含则进入Step4;
[0055] Step4:判断文本是否含有时间和日期的关键词,如果不包含则进入Step6,如果包含则进入Step5;
[0056] Step5:将文本作为时间和日期的ITN资源的输入,计算之后作为下一步的输入进入Step6;
[0057] Step6:判断文本是否包含电话或者身份证等的关键字,如果不包含则进入Step8,如果包含则进入Step7;
[0058] Step7:将文本作为电话或者身份证等号码的ITN资源的输入,计算之后作为下一步的输入进入Step8;
[0059] Step8:判断文本是否含有地址关键字,如果不包含则进入Step10,如果包含则进入Step9;
[0060] Step9:将文本作为地址的ITN资源的输入,计算之后作为下一步的输入进入Step10;
[0061] Step10:判断文本是否包含数学运算关键字,如果不包含则进入Step12,如果包含则进入Step11;
[0062] Step11:将文本作为数学运算的ITN资源的输入,计算之后作为下一步的输入进入Step12;
[0063] Step12:判断文本是否包含金额重量长度等量词关键字,如果不包含则进入Step14,如果包含则进入Step13;
[0064] Step13:将文本作为金额重量长度等量词的ITN资源的输入,计算之后作为下一步的输入进入Step14;
[0065] Step14:判断文本是否包含中文数字,如果不包含则进入Step16,如果包含则进入Step15;
[0066] Step15:将文本作为其他中文数字场景的ITN资源的输入,计算之后作为下一步的输入进入Step16;
[0067] Step16:判断文本是否包含英文,如果包含则进入Step17,否则退出。
[0068] Step17:将文本作为英文的ITN资源的输入,计算之后作为ITN最终结果输出。
[0069] 通过该实施方式可以看出,更灵活的支持用户了专用词语的标准化转换。另外对某些场景规则无法很好、很高效支持的场景,做深入的模型优化,也可以通过将bad case加入到其他场景的规则中来规避模型不能解决的问题。让规则和模型在不同场景下搭配使用从而达到效果和效率的最优,同时确定出对这些环境排出优先级,确保各ITN资源均衡使用。
[0070] 如图3所示为本发明一实施例提供的一种逆文本标准化系统的结构示意图,该系统可执行上述任意实施例所述的逆文本标准化方法,并配置在终端中。
[0071] 本实施例提供的一种逆文本标准化系统10包括:关键字提取程序模块11,场景确定程序模块12和逆文本标准化程序模块13。
[0072] 其中,关键字提取程序模块11用于提取识别模块并发输出的多条原始语音识别结果中的关键字;场景确定程序模块12用于基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;逆文本标准化程序模块13用于分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。
[0073] 本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的逆文本标准化方法;
[0074] 作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0075] 提取识别模块并发输出的多条原始语音识别结果中的关键字;
[0076] 基于所述关键字对所述多条原始语音识别结果进行场景划分,确定所述多条原始语音识别结果的场景;
[0077] 分别将所述多条原始语音识别结果输入至各自场景所对应的ITN资源中,输出多条逆文本标准化的语音识别结果。
[0078] 作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的逆文本标准化方法。
[0079] 非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0080] 本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的逆文本标准化方法的步骤。
[0081] 本申请实施例的电子设备以多种形式存在,包括但不限于:
[0082] (1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
[0083] (2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
[0084] (3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0085] (4)其他具有数据处理功能的电子装置。
[0086] 在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0087] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0088] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0089] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。