一种基于语音识别的终端ID文本的校正方法、设备及介质转让专利

申请号 : CN202310039517.0

文献号 : CN116312509B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李思琰李周年王树青李敏李月超程林君

申请人 : 山东三宏信息科技有限公司

摘要 :

本发明公开了一种基于语音识别的终端ID文本的校正方法、设备及介质,该方法包括:获取语音中的待校正移动终端ID数字字符串,移动终端ID包括n位网络ID、m位地区编码ID和i位用户编码ID;识别数字字符串中包含的网络ID;识别网络ID后的m+1位数字字符中相邻的m位数字字符为地区编码ID;识别地区编码ID后的用户编码ID;将识别到的所有ID重新组合,获得包括所有移动终端ID的集合;将所有移动终端ID的集合中的所有移动终端ID逐一与检测数据库进行对比,排除检测数据库中不存在的移动终端ID。本发明既增强了语音识别的校正功能,提高语音识别的准确率,又减少了人力劳动校正移动终端ID,提高语音转换效率。

权利要求 :

1.基于语音识别的终端ID文本的校正方法,移动终端ID包括网络ID、地区编码ID和用户编码ID,其中,所述网络ID为n位数字字符串,地区编码ID为m位数字字符串,用户编码ID为i位数字字符串,其特征在于,所述方法包括如下步骤:S101,获取语音识别出的文本中的待校正数字字符串,所述待校正数字字符串由连续的且数量大于或等于预设长度L的数字字符构成,所述预设长度L根据n,m和i确定,其中,如果待校正数字字符串的长度G等于预设长度L,那么所述待校正数字字符串即为正确的移动终端ID,如果待校正数字字符串的长度G小于L,那么所述待校正数字字符串不是移动终端ID,不执行步骤S102至步骤S106,直接输出该数字字符串,如果待校正数字字符串的长度G大于L,那么执行步骤S102至步骤S106;

S102,识别所述待校正数字字符串中包含的网络ID,其中,所述识别所述待校正移动终端ID数字字符串中包含的网络ID,包括:S1021,基于待校正的数字字符串,所述数字字符串的长度为G,获取CxCx+1......Cx+n‑1,其中Cx+j为待校正的数字字符串中的第x+j个字符,x的取值范围为1到G‑n+1之间的整数,j的取值范围为0到n‑1之间的整数;

S1023,如果CxCx+1......Cx+n‑1存在于网络ID配置文件中,那么将所述CxCx+1......Cx+n‑1作为候选网络ID并添加到网络ID集合中,否则,如果CxCx+1......Cx+n‑1不存在于网络ID配置文件中,则不将该CxCx+1......Cx+n‑1添加到网络ID集合中,网络ID配置文件中包括预先输入的一个或多个网络ID;

S1025,遍历待校正的数字字符串,如果Cy为起始字符,那么获取CyCy+1......Cy+n‑1,执行步骤S1027;否则,如果Cy不为起始字符,那么重复执行步骤S1023,其中,Cy为待校正的数字字符串中的第y个字符,y的取值范围为1到G‑n+1之间的任意整数;所述起始字符为网络ID配置文件中存储的网络ID的首个字符;

S1027,如果CyCy+1......Cy+n‑1存在于网络ID配置文件中,那么将CyCy+1Cy+2添加到网络ID集合中;否则,如果CyCy+1......Cy+n‑1不存在于网络ID配置文件中,则不将CyCy+1......Cy+n‑1添加到网络ID集合中;

S103,识别所述网络ID后的m+1位数字字符中相邻的m位数字字符为地区编码ID,其中,所述识别所述网络ID后的m+1位数字字符中相邻的m位数字字符为地区编码ID,包括:S1031,获取Cx+nCx+n+1......Cx+n+m‑1和Cx+n+1Cx+n+2......Cx+n+m,其中Cx+n+j为待校正的数字字符串中的第x+n+j个字符,Cx+n为所述CxCx+1......Cx+n‑1中Cx+n‑1的相邻后一位数字字符,所述CxCx+1......Cx+n‑1为已经添加到网络ID集合中的网络ID;

S1033,如果Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m存在于地区编码ID配置文件中,那么将Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m作为地区编码ID并添加到地区编码ID集合中,否则,如果Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m不存在于地区编码ID配置文件中,则不将Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m添加到地区编码ID集合中,地区编码ID配置文件中包括预先输入的多个地区编码ID;

S104,识别所述地区编码ID后i位数字字符为用户编码ID;

S105,将识别到的所有网络ID、地区编码ID和用户编码ID按照网络ID、地区编码ID和用户编码ID的顺序组合,获得包括候选移动终端ID的集合A,其中,所述将识别到的所有网络ID、地区编码ID和用户编码ID按照网络ID、地区编码ID和用户编码ID的顺序组合,获得包括候选移动终端ID的集合A包括:S1051,从网络ID集合、地区编码ID集合和用户编码ID集合中各取一组数字字符串,并按照网络ID、地区编码ID和用户编码ID的顺序进行组合,获得候选移动终端ID,并将所述候选移动终端ID加入集合A;

S1053,重复执行步骤S105A,直到网络ID、地区编码ID和用户编码ID全部的组合情况均加入集合A中,执行步骤S106;

S106,将所述集合A中的所有候选移动终端ID逐一与检测数据库进行对比,去除检测数据库中不存在的移动终端ID,获得集合B,所述集合B中包含所有校正后的移动终端ID。

2.根据权利要求1所述的方法,其特征在于,还包括:

S100,当语音识别到特殊字符时,执行S101至S106,所述特殊字符包括电话、号码、手机号以及联系方式等;当未检测到特殊字符时,不执行S101至S106。

3.根据权利要求1所述的方法,其特征在于,还包括:

S107,输出集合B中的任意一移动终端ID,并高亮显示;点击高亮显示的移动终端ID,显示集合B中的所有移动终端ID,以供选择。

4.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~3中任意一项的所述方法。

5.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~3任意一项的所述方法。

说明书 :

一种基于语音识别的终端ID文本的校正方法、设备及介质

技术领域

[0001] 本发明涉及语音识别技术领域,特别是涉及一种基于语音识别的终端ID文本的校正方法、设备及介质。

背景技术

[0002] 随着通信技术的发展,移动终端成为人们日常生活不可或缺的一部分,为了方便人们对移动终端的使用,诞生了语音识别功能,由于语音识别技术日渐成熟,逐渐走向工业、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
[0003] 上述现有技术中还存在的问题为:语音识别的准确率极大地影响了需要使用语音识别功能的群体的便利程度,在实际运用中,需要消耗大量的人力和时间去处理由于识别不准确而带来的麻烦,特别是,在语音识别过程中经常会出现移动终端ID的数字字符串,用户在使用语音转文字功能时,想通过所述语音识别功能把手机号码转换出来,但是由于口误或噪声等原因,在说错、停顿或者重复一些数字字符时,转化出来的是数字字符串而不是正确的移动终端ID。

发明内容

[0004] 为此,本发明提供一种基于语音识别的终端ID文本的校正方法、设备及介质,所述移动终端ID包括网络ID、地区编码ID和用户编码ID,其中,所述网络ID为n位数字字符串,地区编码ID为m位数字字符串,用户编码ID为i位数字字符串,所述方法包括如下步骤:
[0005] S101,获取语音识别出的文本中的待校正数字字符串,所述待校正数字字符串由连续的且数量大于或等于预设长度L的数字字符构成,所述预设长度L根据n,m和i确定;
[0006] S102,识别所述待校正数字字符串中包含的网络ID;
[0007] S103,识别所述网络ID后的m+1位数字字符中相邻的m位数字字符为地区编码ID;
[0008] S104,识别所述地区编码ID后i位数字字符为用户编码ID;
[0009] S105,将识别到的所有网络ID、地区编码ID和用户编码ID按照网络ID、地区编码ID和用户编码ID的顺序组合,获得包括候选移动终端ID的集合A;
[0010] S106,将所述集合A中的所有候选移动终端ID逐一与检测数据库进行对比,去除检测数据库中不存在的移动终端ID,获得集合B,所述集合B中包含所有校正后的移动终端ID。
[0011] 本发明能够实现的技术效果至少包括:通过将语音识别后的数字字符串进行校正,输出正确的移动终端ID,当不能正确且唯一的输出移动终端ID时,通过集合的方式,罗列所有的移动终端ID,既增强语音识别的校正功能,提高语音识别的准确率,又减少了人力劳动校正移动终端ID,提高语音转换效率。

附图说明

[0012] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013] 图1是本发明实施例提供的一种基于语音识别的终端ID文本的校正方法的流程示意图。

具体实施方式

[0014] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0015] 除非另有定义,本申请所使用的所有的技术和科学术语与属于本技术领域的技术人员通常理解的含义相同。本申请中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本申请所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0016] 此外,术语“第一”、“第二”等可在本申请中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第一设备称为第二设备,且类似地,可将第二设备称为第一设备。第一设备和第二设备两者都是设备,但其不是同一设备。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个特征的组合。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0017] 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
[0018] 本实施例提供一种基于语音识别的终端ID文本的校正方法,具体的如图1所示,所述方法可以包括如下步骤S101至步骤S107。
[0019] 具体的,所述移动终端ID包括网络ID、地区编码ID和用户编码ID,其中,所述网络ID为n位数字字符串,地区编码ID为m位数字字符串,用户编码ID为i位数字字符串。
[0020] 在一个实施例中,所述移动终端为手机,所述移动终端ID为手机号码,优选的,所述移动终端ID为11位数字字符串,其中,n=3,m=4,i=4。
[0021] 步骤S101,获取语音识别出的文本中的待校正数字字符串,所述待校正数字字符串由连续的且数量大于或等于预设长度L的数字字符构成,所述预设长度L根据n,m和i确定,优选的,L=n+m+i。
[0022] 进一步的,如果待校正数字字符串的长度G等于预设长度L,那么所述待校正数字字符串即为正确的移动终端ID,跳过步骤S102至步骤S106,直接输出正确的移动终端ID。
[0023] 如果待校正数字字符串的长度G小于L,那么所述待校正数字字符串不是移动终端ID,不执行步骤S102至步骤S106,直接输出该数字字符串。
[0024] 如果待校正数字字符串的长度G大于L,那么执行步骤S102至步骤S106。
[0025] 步骤S102,识别所述待校正数字字符串中包含的网络ID。
[0026] 一个实施例中,步骤S102进一步包括:
[0027] 步骤S1021,基于待校正的数字字符串,所述数字字符串的长度为G,获取CxCx+1......Cx+n‑1,其中Cx+j为待校正的数字字符串中的第x+j个字符,x的取值范围为1到G‑n+1之间的整数,j的取值范围为0到n‑1之间的整数。
[0028] 步骤S1023,如果CxCx+1......Cx+n‑1存在于网络ID配置文件中,那么将所述CxCx+1......Cx+n‑1作为候选网络ID并添加到网络ID集合中;否则,如果CxCx+1......Cx+n‑1不存在于网络ID配置文件中,则不将该CxCx+1......Cx+n‑1添加到网络ID集合中。网络ID配置文件中包括预先输入的一个或多个网络ID,本领域技术人员能够理解,网络ID配置文件可以实现为CVS、TXT等多种文件格式。本领域技术人员还能够理解,网络ID配置文件中还可以存储除中国电信运营商支持的网络ID之外的其他国家或地区的电信运营商所支持的网络ID。
[0029] 经过步骤S1021和S1023,网络ID集合中包括所述待校正的数字字符串中包含的所有候选网络ID。
[0030] 该实施例中,对于G个字符的待校正数字字符串,需要进行G‑n+1次的判断操作,才能够获取网络ID集合。进一步的,在网络ID配置文件中的网络ID具有起始标识符时,所述起始标识符为网络ID字符串中的首位数字字符,且网络ID配置文件中的所有网络ID的起始标识符均相同,例如网络ID配置文件中包括国电信、中国联通以及中国移动的网络ID,具体的包括133、149、153、173、177、180、181、189、199、130、131、132、145、155、166、171、175、176、185、186、166,134、135、136、137、138、139、147、150、151、152、157、158、159、172、178、182、
183、184、187、188和198等,所述网络ID的起始标识符即为数字字符“1”,为减少判断次数,在本发明的另一个改进实施例中,步骤S102进一步包括:
[0031] 步骤S1025,遍历待校正的数字字符串,如果Cy为起始字符,那么获取CyCy+1......Cy+n‑1,执行步骤S1027;否则,如果Cy不为起始字符,那么重复执行步骤S102C。其中,Cy为待校正的数字字符串中的第y个字符,y的取值范围为1到G‑n+1之间的任意整数;所述起始字符为网络ID配置文件中存储的网络ID的首个字符。
[0032] 步骤S1027,如果CyCy+1......Cy+n‑1存在于网络ID配置文件中,那么将CyCy+1Cy+2添加到网络ID集合中;否则,如果CyCy+1......Cy+n‑1不存在于网络ID配置文件中,则不将CyCy+1......Cy+n‑1添加到网络ID集合中。
[0033] 步骤S103,识别所述网络ID后的m+1位数字字符中相邻的m位数字字符为地区编码ID。
[0034] 一个实施例中,步骤S103进一步包括:
[0035] 步骤S1031,获取Cx+nCx+n+1......Cx+n+m‑1和Cx+n+1Cx+n+2......Cx+n+m,其中Cx+n+j为待校正的数字字符串中的第x+n+j个字符,具体的,Cx+n为步骤S102中的CxCx+1......Cx+n‑1中Cx+n‑1的相邻后一位数字字符,其中,步骤S102中的CxCx+1......Cx+n‑1为已经添加到网络ID集合中的网络ID。
[0036] 步骤S1033,如果Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m存在于地区编码ID配置文件中,那么将Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m作为地区编码ID并添加到地区编码ID集合中;否则,如果Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m不存在于地区编码ID配置文件中,则不将Cx+nCx+n+1......Cx+n+m‑1或Cx+n+1Cx+n+2......Cx+n+m添加到地区编码ID集合中。地区编码ID配置文件中包括预先输入的多个地区编码ID,所述地区编码ID代表了所属移动终端ID的初始归属地,所述初始归属地对应到城市,一个城市包括多个地区编码ID。本领域技术人员能够理解,地区你编码ID配置文件可以实现为CVS、TXT等多种文件格式。网络ID配置文件中还可以存储除中国电信运营商支持的地区编码ID之外的其他国家或地区的电信运营商所支持的地区编码ID。
[0037] 经过步骤S1031和步骤S1033,地区编码ID集合中包括所述待校正的数字字符串中包含的所有地区编码ID。
[0038] 该实施例中,基于网络ID集合中包括p个网络ID,需要进行p+p次的判断操作,获取地区编码ID集合。
[0039] 实验数据表明多数人习惯的移动终端ID的表达方式习惯,会在网络ID和地区编码ID、地区编码ID和用户编码ID中间各略有停顿,而这个停顿时常会由于口误、语气助词或者环境噪声等原因多识别一位数字字符,这是由于地区编码ID位于网络ID和用户编码ID中间,前后均存在停顿,采用提取所述m+1位数字字符中相邻的m位数字字符作为地区编码ID这种方法,能够在很大程度上能够规避掉多识别的这一位数字字符。
[0040] 步骤S104,识别所述地区编码ID后i位数字字符为用户编码ID。
[0041] 具体的,所述用户编码ID代表每个用户的身份编码,各不相同且毫无规律,仅位数固定,故仅识别地区编码ID后i位数字字符作为用户编码ID,加入用户编码ID集合中。
[0042] 步骤S105,将识别到的所有网络ID、地区编码ID和用户编码ID按照网络ID、地区编码ID和用户编码ID的顺序组合,获得包括候选移动终端ID的集合A。
[0043] 一个实施例中,步骤S105进一步包括:
[0044] 步骤S1051,从网络ID集合、地区编码ID集合和用户编码ID集合中各取一组数字字符串,并按照网络ID、地区编码ID和用户编码ID的顺序进行组合,获得候选移动终端ID,并将所述候选移动终端ID加入集合A。
[0045] 步骤S1053,重复执行步骤S1051,直到网络ID、地区编码ID和用户编码ID全部的组合情况均加入集合A中,执行步骤S106。具体的,当网络ID集合中的网络ID个数为a,当地区编码ID集合中的地区编码ID个数为b,当用户编码ID集合中的用户编码ID个数为c时,集合A中的候选移动终端ID的个数为a×b×c个。
[0046] 步骤S106,将所述集合A中的所有候选移动终端ID逐一与检测数据库进行对比,去除检测数据库中不存在的移动终端ID,获得集合B,所述集合B中包含所有校正后的移动终端ID。
[0047] 具体的,所述检测数据库包括所有在使用的移动终端ID,由于所述移动终端ID用于人们之间相互联系,故可以通过排除未在使用的移动终端ID来获取校正后的移动终端ID,所述校正后的移动终端ID构成集合B,所述集合B中极大概率包括正确的移动终端ID。
[0048] 通过上述步骤S101至S106,将语音识别后的数字字符串进行校正,能够输出正确的移动终端ID,当不能正确且唯一的输出移动终端ID时,通过集合的方式,罗列所有的移动终端ID,增强语音识别的校正功能,提高语音识别的准确率,减少了人力劳动校正移动终端ID,提高语音转换效率。
[0049] 进一步的,在步骤S101前,还包括步骤S100,所述步骤S100如下:
[0050] 当语音识别到特殊字符时,执行步骤S101至步骤S106,所述特殊字符包括电话、号码、手机号以及联系方式等;当未检测到特殊字符时,不执行步骤S101至步骤S106。以避免所述基于语音识别的终端ID文本的校正方法针对所有数字字符串无差别进行校正,而把不属于移动终端ID的数字字符串错误的校正为移动终端ID。
[0051] 优选的,不局限于移动终端ID还有可能为身份证号、银行卡号和物流编号等。
[0052] 进一步的,在步骤S106后,还包括步骤S107,所述步骤S107如下:
[0053] 输出集合B中的任意一移动终端ID,并高亮显示;点击高亮显示的移动终端ID,显示集合B中的所有移动终端ID,以供选择。便于使用者通过高亮显示注意到因口误等原因错误朗读的手机号码,且通过点击高亮的移动终端ID,选择正确的移动终端ID,操作简单方便快捷。
[0054] 本发明的实施例还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的方法。
[0055] 本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于计算机设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
[0056] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。