语音识别方法、服务器、语音识别系统和可读存储介质转让专利

申请号 : CN202211170954.8

文献号 : CN115294964B

文献日 : 2023-02-10

本发明公开了一种语音识别方法、服务器、语音识别系统和可读存储介质。语音识别方法包括：获取识别文本，识别文本为对语音请求进行语音识别得到；根据预设模型对识别文本进行识别，得到第一标签文本；在确定第一标签文本不满足预设条件的情况下，对第一标签文本进行修正处理并生成第二标签文本；根据识别文本和第二标签文本生成导航结果。上述语音识别方法，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

1.一种语音识别方法，其特征在于，包括：

获取识别文本，所述识别文本为对语音请求进行语音识别得到；

根据预设模型对所述识别文本进行识别，得到第一标签文本；

确定所述第一标签文本中的导航词标签和兴趣点标签，所述导航词标签对应所述识别文本中的导航词文本，所述兴趣点标签对应所述识别文本中的兴趣点文本；

在所述识别文本中位于所述导航词文本和所述兴趣点文本之间的文本部分未对应所述导航词标签或所述兴趣点标签的任意一个的情况下，确定所述第一标签文本不满足预设条件；

在确定所述第一标签文本不满足预设条件的情况下，对所述第一标签文本进行修正处理并生成第二标签文本；

根据所述识别文本和所述第二标签文本生成导航结果。

2.根据权利要求1所述的语音识别方法，其特征在于，根据预设模型对所述识别文本进行识别，得到第一标签文本，包括：根据所述预设模型，对所述识别文本进行嵌入处理得到嵌入文本；

根据所述预设模型，对所述识别文本进行编码处理得到编码文本；

根据所述嵌入文本和所述编码文本生成所述第一标签文本。

3.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法包括：在所述识别文本中位于所述导航词文本和所述兴趣点文本之间的文本部分对应所述导航词标签或所述兴趣点标签的情况下，根据所述识别文本和所述第一标签文本生成所述导航结果。

4.根据权利要求1所述的语音识别方法，其特征在于，对所述第一标签文本进行修正处理并生成第二标签文本，包括：根据所述文本部分和所述兴趣点文本，得到至少两个兴趣点组合；

根据预设词表和词频特征，确定每个兴趣点组合的得分，所述识别文本的每个词都具有对应的所述词频特征；

将兴趣点标签修正为对应具有最高得分的一个兴趣点组合，根据所述导航词标签和修正后的兴趣点标签生成所述第二标签文本。

5.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法包括：确定所述识别文本中的至少一个兴趣点实体；

将所述识别文本进行文本拆分得到多个文本片段，每个所述兴趣点实体位于一个所述文本片段内；

根据预设的标签树，获取每个所述文本片段所对应的标签，所述标签包括导航词标签和兴趣点标签；

对所述多个文本片段填充对应的标签，其中，在所述兴趣点实体的数量为至少两个的情况下，将其中一个兴趣点实体填充为兴趣点类型标签，将至少一个兴趣点实体填充为兴趣点限名标签，所述兴趣点标签包括所述兴趣点类型标签和兴趣点限名标签，所述兴趣点类型标签和兴趣点限名标签在所述标签数中具有对应的依附关系。

6.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法包括：根据意图词表和标签映射表，生成核心文本和标签的映射关系；

对多个所述标签进行语句组合生成多个标签句式，在所述标签句式中，不同的标签具有依附关系；

根据所述多个标签句式构建标签树。

7.一种服务器，其特征在于，所述服务器包括存储器和处理器，存储器存储有计算机程序，处理器执行所述计算机程序时，实现权利要求1‑6任一项的语音识别方法的步骤。

8.一种语音识别系统，其特征在于，所述语音识别系统包括服务器和车辆，所述服务器用于：接收语音请求；

获取识别文本，所述识别文本为对所述语音请求进行语音识别得到；

根据预设模型对所述识别文本进行识别，得到第一标签文本；

在确定所述第一标签文本不满足预设条件的情况下，对所述第一标签文本进行修正处理并生成第二标签文本；和根据所述识别文本和所述第二标签文本生成导航结果；

所述车辆用于：

发送所述语音请求；和

接收所述导航结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现权利要求1‑6任一项所述的语音识别方法的步骤。

语音识别方法、服务器、语音识别系统和可读存储介质

技术领域

[0001] 本发明涉及车辆导航技术领域，特别涉及一种语音识别方法、服务器、语音识别系统和可读存储介质。

背景技术

[0002] 在进行语音导航时，可能会存在对涉及小语种的混合语言进行识别的情况。单一语种的语言识别容易产生OOV（Out‑of‑vocabulary，未登录词）的问题。在相关技术中，可以在一定程度上解决OOV问题，但仍存在子单词包含信息不全的情况，从而导致对混合语言进行语音识别的效果较低。

发明内容

[0003] 本发明提供了一种语音识别方法、服务器、语音识别系统和可读存储介质。

[0004] 本发明的一种语音识别方法包括：

[0005] 获取识别文本，所述识别文本为对语音请求进行语音识别得到；

[0006] 根据预设模型对所述识别文本进行识别，得到第一标签文本；

[0007] 在确定所述第一标签文本不满足预设条件的情况下，对所述第一标签文本进行修正处理并生成第二标签文本；

[0008] 根据所述识别文本和所述第二标签文本生成导航结果。

[0009] 上述语音识别方法，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0010] 根据预设模型对所述识别文本进行识别，得到第一标签文本，包括：

[0011] 根据所述预设模型，对所述识别文本进行嵌入处理得到嵌入文本；

[0012] 根据所述预设模型，对所述识别文本进行编码处理得到编码文本；

[0013] 根据所述嵌入文本和所述编码文本生成所述第一标签文本。

[0014] 如此，可有利于提高对识别文本进行识别的准确率。

[0015] 所述语音识别方法包括：

[0016] 确定所述第一标签文本中的导航词标签和兴趣点标签，所述导航词标签对应所述识别文本中的导航词文本，所述兴趣点标签对应所述识别文本中的兴趣点文本；

[0017] 在所述识别文本中位于所述导航词文本和所述兴趣点文本之间的文本部分未对应所述导航词标签或所述兴趣点标签的任意一个的情况下，确定所述第一标签文本不满足预设条件。

[0018] 如此，可方便确定是否需要对第一标签文本进行修正的具体方案。

[0019] 所述语音识别方法包括：

[0020] 在所述识别文本中位于所述导航词文本和所述兴趣点文本之间的文本部分对应所述导航词标签或所述兴趣点标签的情况下，根据所述识别文本和所述第一标签文本生成所述导航结果。

[0021] 如此，在确定不需要修正时，可直接得到导航结果。

[0022] 对所述第一标签文本进行修正处理并生成第二标签文本，包括：

[0023] 根据所述文本部分和所述兴趣点文本，得到至少两个兴趣点组合；

[0024] 根据预设词表和词频特征，确定每个兴趣点组合的得分，所述识别文本的每个词都具有对应的所述词频特征；

[0025] 将兴趣点标签修正为对应具有最高得分的一个兴趣点组合，根据所述导航词标签和修正后的兴趣点标签生成所述第二标签文本。

[0026] 如此，可实现对第一标签文本进行修正的具体方案。

[0027] 所述语音识别方法包括：

[0028] 确定所述识别文本中的至少一个兴趣点实体；

[0029] 将所述识别文本进行文本拆分得到多个文本片段，每个所述兴趣点实体位于一个所述文本片段内；

[0030] 根据预设的标签树，获取每个所述文本片段所对应的标签，所述标签包括导航词标签和兴趣点标签；

[0031] 对所述多个文本片段填充对应的标签，其中，在所述兴趣点实体的数量为至少两个的情况下，将其中一个兴趣点实体填充为兴趣点类型标签，将至少一个兴趣点实体填充为兴趣点限名标签，所述兴趣点标签包括所述兴趣点类型标签和兴趣点限名标签，所述兴趣点类型标签和兴趣点限名标签在所述标签数中具有对应的依附关系。

[0032] 如此，有利于提高对复杂句式的语义理解能力。

[0033] 所述语音识别方法包括：

[0034] 根据意图词表和标签映射表，生成核心文本和标签的映射关系；

[0035] 对多个所述标签进行语句组合生成多个标签句式，在所述标签句式中，不同的标签具有依附关系；

[0036] 根据所述多个标签句式构建标签树。

[0037] 如此，可实现对标签树的构建。

[0038] 本发明的一种服务器包括存储器和处理器，存储器存储有计算机程序，处理器执行所述计算机程序时，实现上述任意一项所述的语音识别方法的步骤。

[0039] 上述服务器，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0040] 本发明的一种语音识别系统包括服务器和车辆，所述服务器用于：

[0041] 接收语音请求；

[0042] 获取识别文本，所述识别文本为对所述语音请求进行语音识别得到；

[0043] 根据预设模型对所述识别文本进行识别，得到第一标签文本；

[0044] 在确定所述第一标签文本不满足预设条件的情况下，对所述第一标签文本进行修正处理并生成第二标签文本；和

[0045] 根据所述识别文本和所述第二标签文本生成导航结果；

[0046] 所述车辆用于：

[0047] 发送所述语音请求；和

[0048] 接收所述导航结果。

[0049] 上述语音识别系统，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0050] 本发明的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现上述任意一项所述的语音识别方法的步骤。

[0051] 上述计算机可读存储介质，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0052] 本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

[0053] 本发明的上述和/或附加的方面和优点从结合下面附图对本发明的描述中将变得明显和容易理解，其中：

[0054] 图1是本发明的语音识别方法的流程图；

[0055] 图2是本发明的服务器的模块示意图；

[0056] 图3是本发明的通过预设模型对识别文本进行识别的示意图；

[0057] 图4是本发明的标签树的示意图；

[0058] 图5是本发明的语音识别系统的示意图。

[0059] 主要元件符号说明：

[0060] 服务器10、存储器11、处理器12；

[0061] 车辆20、车载终端21；

[0062] 语音识别系统30。

具体实施方式

[0063] 下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

[0064] 请参考图1，本发明的一种语音识别方法，包括：

[0065] 01：获取识别文本，识别文本为对语音请求进行语音识别得到；

[0066] 02：根据预设模型对识别文本进行识别，得到第一标签文本；

[0067] 03：在确定第一标签文本不满足预设条件的情况下，对第一标签文本进行修正处理并生成第二标签文本；

[0068] 04：根据识别文本和第二标签文本生成导航结果。

[0069] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，服务器10包括存储器11和处理器12。存储器11存储有计算机程序。处理器12能够执行计算机程序以实现本发明的语音识别方法的步骤。具体地，处理器12用于：获取识别文本，识别文本为对语音请求进行语音识别得到；根据预设模型对识别文本进行识别，得到第一标签文本；在确定第一标签文本不满足预设条件的情况下，对第一标签文本进行修正处理并生成第二标签文本；根据识别文本和第二标签文本生成导航结果。

[0070] 上述语音识别方法和服务器10，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0071] 其中，语音请求对应接收到的由用户发出的语音信息。对于语音请求而言，其可以为混合语言。混合语言中可能包括不同语种的语言。

[0072] 识别文本为对语音请求进行语音识别得到的文本。对语音请求进行语音识别可以通过ASR（Automatic Speech Recognition）的方式实现。

[0073] 另外，在获取到识别文本后，可以先对识别文本进行语义识别，从而可确定用户的语音请求所属的领域。在一个应用场景中，语音请求可以为“今天天气如何”，则对应的识别文本可确定属于天气相关的领域。在一个应用场景中，语音请求可以为“换一首歌”，则对应的识别文本可确定属于音乐相关的领域。在一个应用场景中，语音请求可以为“导航去火车站”，则对应的识别文本可确定属于导航相关的领域。在确定识别文本所属的领域后，可以通过中控将识别文本分发至对应领域的处理模块中。

[0074] 在识别文本被分发至对应领域的处理模块中的情况下，可以通过预设模型来对识别文本中的POI（Point of Interest，兴趣点）进行识别。例如，在识别文本为混合语言的情况下，可以通过预设模型来提高对识别文本中的POI的泛化性，即使在识别文本中对应POI的部分文本属于训练集之外，也可以识别出相应的POI。在识别出相应的POI后，则可以将识别结果上传给规则引擎，判断识别结果是否需要修正。

[0075] 具体地，识别结果包括第一标签文本。第一标签文本为在对识别文本进行POI识别的过程中，根据识别文本的相应内容的类型生成对应的标签，从而得到的多个标签所形成的文本信息。根据第一标签文本可确定识别文本中主要的导航相关的信息。

[0076] 其中，在得到第一标签文本后，可对第一标签文本进行是否满足预设条件的判断，根据判断结果可确定识别结果是否足够准确。在确定第一标签文本不满足预设条件的情况下，则会对第一标签文本进行修正处理以生成第二标签文本，并使得第二标签文本能够正确表征识别文本中的导航信息，进而再根据识别文本和第二标签文本来生成导航结果，用户可根据导航结果来确定识别文本中的POI的相关信息。

[0077] 步骤02（根据预设模型对识别文本进行识别，得到第一标签文本），包括：

[0078] 根据预设模型，对识别文本进行嵌入处理得到嵌入文本；

[0079] 根据预设模型，对识别文本进行编码处理得到编码文本；

[0080] 根据嵌入文本和编码文本生成第一标签文本。

[0081] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：根据预设模型，对识别文本进行嵌入处理得到嵌入文本；根据预设模型，对识别文本进行编码处理得到编码文本；根据嵌入文本和编码文本生成第一标签文本。

[0082] 如此，可有利于提高对识别文本进行识别的准确率。

[0083] 具体地，请结合图3，在根据预设模型对识别文本进行识别的情况下，会分别对识别文本进行嵌入处理和编码处理。在嵌入处理中，会对识别文本进行语言嵌入（language embedding）、位置嵌入（position embedding）和标记嵌入（token embedding）。在编码处理中，会对识别文本进行特征编码（character encoder）。在完成嵌入处理和编码处理后，则可将处理结果输入转换器中进行转换来生成第一标签文本。对识别文本进行的嵌入处理可以通过mbert模型（Multilingual Bidirectional Encoder Representations from Transformer，多语言BERT）来实现。对识别文本进行的编码处理可以通过charbert模型来实现。

[0084] 在上述基础上，通过结合charbert模型和mbert模型进行POI识别，能够针对小语种词频低的POI有很好的泛化性，与传统的预训练模型（比如bert模型）对比，对混合语言边界模糊的POI的识别效果更好，在对混合语言进行识别的场景下能够提高3%的整体准确率。

[0085] 在一个应用场景中，识别文本为“go to Sykehus near Det juridiske fakultet”。在根据预设模型对识别文本进行识别后可得到多个文本信息：“go—O”、“to—O”、“Sykehus—S‑POI”、“near—O”、“Det—B‑POI”、“juridiske—I‑POI”、“fakultet—E‑POI”。其中，“go—O”、“to—O”、“near—O”分别表示为将识别文本中的“go”、“to”、“near”识别为其他类型的实体词，“Sykehus—S‑POI”表示为将识别文本中的“Sykehus”识别为表征POI的单体词，“Det—B‑POI”表示为将识别文本中的“Det”识别为表征POI的组合词的起始部分，“juridiske—I‑POI”表示为将识别文本中的“juridiske”识别为表征POI的组合词的中间部分，“fakultet—E‑POI”表示为将识别文本中的“fakultet”识别为表征POI的组合词的结束部分。最终得到的第一标签文本可以为：

[0086] "entities": [{"word": "Sykehus","start": 2,"end": 3,"type": "POI"}, {"word": "Det juridiske fakultet","start": 4,"end": 7,"type": "POI"}]。

[0087] 语音识别方法包括：

[0088] 确定第一标签文本中的导航词标签和兴趣点标签，导航词标签对应识别文本中的导航词文本，兴趣点标签对应识别文本中的兴趣点文本；

[0089] 在识别文本中位于导航词文本和兴趣点文本之间的文本部分未对应导航词标签或兴趣点标签的任意一个的情况下，确定第一标签文本不满足预设条件。

[0090] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：确定第一标签文本中的导航词标签和兴趣点标签，导航词标签对应识别文本中的导航词文本，兴趣点标签对应识别文本中的兴趣点文本；在识别文本中位于导航词文本和兴趣点文本之间的文本部分未对应导航词标签或兴趣点标签的任意一个的情况下，确定第一标签文本不满足预设条件。

[0091] 如此，可方便确定是否需要对第一标签文本进行修正的具体方案。

[0092] 具体地，在一些应用场景中，根据预设模型对识别文本进行识别可能会存在识别错误。对于语音请求为“i want to go Too Good To Go Norge”的场景，实际的POI为“Too Good To Go Norge”，而对识别文本中识别得到的POI则可能为“Norge”。对于语音请求为“find me the quickest route to The Big 5 AS”的场景，实际的POI为“The Big 5 AS”，而对识别文本中识别时可能会将“The”遗漏，使得得到的POI为“Big 5 AS”。对于语音请求为“search for A 2 Pas Quadris”的场景，实际的POI为“A 2 Pas Quadris”，而对识别文本中识别时可能会将“A”遗漏，使得得到的POI为“2 Pas Quadris”。上述的场景在对混合语言进行POI识别时较容易发生。

[0093] 以语音请求为“i want to go Too Good To Go Norge”的场景进行说明，在得到对应的第一标签文本的情况下，则会将“i want to go”填充导航词标签，以及将“Norge”填充兴趣点标签。由于识别文本中位于导航词文本和兴趣点文本之间的文本部分，即“Too Good To Go”会无法识别出对应类型的实体词，从而无法填充相应的标签，进而可认为存在识别错误的问题，需要对识别结果进行修正，从而确定第一标签文本不满足预设条件。

[0094] 语音识别方法包括：

[0095] 在识别文本中位于导航词文本和兴趣点文本之间的文本部分对应导航词标签或兴趣点标签的情况下，根据识别文本和第一标签文本生成导航结果。

[0096] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：在识别文本中位于导航词文本和兴趣点文本之间的文本部分对应导航词标签或兴趣点标签的情况下，根据识别文本和第一标签文本生成导航结果。

[0097] 如此，在确定不需要修正时，可直接得到导航结果。

[0098] 具体地，在识别文本中位于导航词文本和兴趣点文本之间的文本部分对应导航词标签或兴趣点标签的情况下，则可确定第一标签文本满足预设条件，通过第一标签文本则可以正确识别出识别文本，从而可直接根据识别文本结合第一标签文本生成导航结果。

[0099] 在上述基础上，预设条件可以理解为，用于确定第一标签文本是否可用于直接生成导航结果。

[0100] 步骤03（对第一标签文本进行修正处理并生成第二标签文本），包括：

[0101] 根据文本部分和兴趣点文本，得到至少两个兴趣点组合；

[0102] 根据预设词表和词频特征，确定每个兴趣点组合的得分，识别文本的每个词都具有对应的词频特征；

[0103] 将兴趣点标签修正为对应具有最高得分的一个兴趣点组合，根据导航词标签和修正后的兴趣点标签生成第二标签文本。

[0104] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：根据文本部分和兴趣点文本，得到至少两个兴趣点组合；根据预设词表和词频特征，确定每个兴趣点组合的得分，识别文本的每个词都具有对应的词频特征；将兴趣点标签修正为对应具有最高得分的一个兴趣点组合，根据导航词标签和修正后的兴趣点标签生成第二标签文本。

[0105] 如此，可实现对第一标签文本进行修正的具体方案。

[0106] 具体地，在一个应用场景中，语音请求为“i want to go Too Good To Go Norge”。在确定第一标签文本不满足预设条件的情况下，根据“Too Good To Go”、“Norge”按照最长优先匹配计算可得到多个兴趣点组合，如“Too Good To Go Norge”、“Good To Go Norge”、“To Go Norge”、“Go Norge”、“Norge”。

[0107] 在确定对应的一个兴趣点组合后，可以根据预设词表来查找兴趣点组合中所有词共现的次数。预设词表可以为多国家POI词表。预设词表可以通过开源数据和相应的合作方提供来获取。所有词共现的次数可以对应二元组与三元组共现词频，从而可确定兴趣点组合中所有词同时出现在同一个POI中的次数（加权共现词频特征）。在一个应用场景中，兴趣点组合“Too Good”同时出现在同一个POI中的次数为21，从而可得到结果 (Too,Good,21)，兴趣点组合“Too Good To”同时出现在同一个POI中的次数为17，从而可得到结果 (Too,Good,To,17)。

[0108] 兴趣点组合中的每个词（实体词）都具有对应的词频特征。词频特征可以为通过词频（tf，term frequency）和逆文本频率指数（idf，inverse document frequency）来计算得到。在计算得到词频特征后，可以将计算结果进行存储，在需要调用时可以直接获取。

[0109] 对于每个兴趣点组合而言，可通过如下的公式来计算确定相应的得分：

[0110] S=sum（tf*idf）*Fp*Fw

[0111] 其中，tf*idf表示兴趣点组合中特定的一个词的词频特征，sum（tf*idf）表示兴趣点组合中所有词的词频特征的总和，Fp表示惩罚因子，Fw表示加权共现词频特征。惩罚因子可以根据具体的兴趣点组合的具体形式、当前POI识别业务来确定。不同的兴趣点组合可以具有不同的惩罚因子。

[0112] 在得到所有兴趣点组合的得分后，则可根据得分最高的一个兴趣点组合来确定对应的兴趣点标签。在一个应用场景中，在确定得分最高的一个兴趣点组合为“Too Good To Go Norge”的情况下，则会将“Too Good To Go Norge”填充为兴趣点标签，导航词标签仍为“i want to go”，从而根据修正后的结果得到第二标签文本。

[0113] 语音识别方法包括：

[0114] 确定识别文本中的至少一个兴趣点实体；

[0115] 将识别文本进行文本拆分得到多个文本片段，每个兴趣点实体位于一个文本片段内；

[0116] 根据预设的标签树，获取每个文本片段所对应的标签，标签包括导航词标签和兴趣点标签；

[0117] 对多个文本片段填充对应的标签，其中，在兴趣点实体的数量为至少两个的情况下，将其中一个兴趣点实体填充为兴趣点类型标签，将至少一个兴趣点实体填充为兴趣点限名标签，兴趣点标签包括兴趣点类型标签和兴趣点限名标签，兴趣点类型标签和兴趣点限名标签在标签树中具有对应的依附关系。

[0118] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：确定识别文本中的至少一个兴趣点实体；将识别文本进行文本拆分得到多个文本片段，每个兴趣点实体位于一个文本片段内；根据预设的标签树，获取每个文本片段所对应的标签，标签包括导航词标签和兴趣点标签；对多个文本片段填充对应的标签，其中，在兴趣点实体的数量为至少两个的情况下，将其中一个兴趣点实体填充为兴趣点类型标签，将至少一个兴趣点实体填充为兴趣点限名标签，兴趣点标签包括兴趣点类型标签和兴趣点限名标签，兴趣点类型标签和兴趣点限名标签在标签树中具有对应的依附关系。

[0119] 如此，有利于提高对复杂句式的语义理解能力。

[0120] 在一个应用场景中，识别文本为“Please go to Sykehus on my way Det juridiske fakultet go highways”。通过POI识别可确定识别文本中的兴趣点包括
“Sykehus”和“Det juridiske fakultet”。然后对识别文本进行拆分得到多个文本片段：
“Please go to”、“Sykehus”、“on my way”、“Det juridiske fakultet”、“go highways”。
兴趣点“Sykehus”位于第二个文本片段内。兴趣点“Det juridiske fakultet”位于第四个文本片段内。

[0121] 在得到所有的文本片段后，则会根据导航对应的实体词表进行正则识别，使得文本片段能够尽可能靠近标签树中的标签主要映射的文本。具体地，“Please go to”在实体词表中具有相近词义的文本可包括“navigate to”，从而可将“Please go to”识别为“navigate to”。“on my way”、“go highways”能够在实体词表中查找得到，从而会分别识别为“on my way”、“go highways”。

[0122] 在完成正则识别后，则根据实体词表和标签树中的标签之间的映射关系，将识别到的文本映射为对应的标签。具体地，根据上述的映射关系，“go to”所对应的标签为“kw_navigate（知识：导航）”，“on my way”所对应的标签为“on_my_way”，“go highways”所对应的标签为“route_preference”。

[0123] 在兴趣点实体的数量为至少两个的情况下，可以理解，若将所有的兴趣点实体均填充为兴趣点标签，则可能会将所有的兴趣点实体所对应的实际地点都作为导航目的地。在前述内容的基础上，根据标签树中存在的兴趣点类型标签和兴趣点限名标签之间的依附关系，则可以明确识别文本中多个兴趣点实体之间的逻辑关系。具体地，兴趣点“Sykehus”为实际的需要前往的导航目的地，兴趣点“Det juridiske fakultet”则表征与导航目的地之间的位置关系，可用于确定导航目的地所在的位置。也就是说，兴趣点“Sykehus”所对应的标签应该为兴趣点类型标签，兴趣点“Det juridiske fakultet”所对应的标签应该为兴趣点限名标签，从而在进行标签填充的过程中，将兴趣点“Sykehus”的标签填充为兴趣点类型标签（POI_type），以及将兴趣点“Det juridiske fakultet”的标签填充为兴趣点限名标签（limit_name），从而实现对识别文本的语义标签转写的效果，在实际的语义识别场景中，则有利于提高对复杂句式的语义理解能力，减少由于无法区分识别出的多个兴趣点而导致识别错误的情况。

[0124] 语音识别方法包括：

[0125] 根据意图词表和标签映射表，生成核心文本和标签的映射关系；

[0126] 对多个标签进行语句组合生成多个标签句式，在标签句式中，不同的标签具有依附关系；

[0127] 根据多个标签句式构建标签树。

[0128] 本发明的语音识别方法可以通过本发明的服务器10来实现。具体地，请结合图2，处理器12用于：根据意图词表和标签映射表，生成核心文本和标签的映射关系；对多个标签进行语句组合生成多个标签句式，在标签句式中，不同的标签具有依附关系；根据多个标签句式构建标签树。

[0129] 如此，可实现对标签树的构建。

[0130] 请结合图4，图4所示为可实现的一个标签树。具体地，根据核心意图词表和标签映射表，可以将位于核心意图词表中的核心文本映射至标签映射表中。在对识别文本进行识别的过程中，若识别出相应的文本片段为核心文本，或其近似词义的文本为核心文本，则可以将文本片段映射到标签映射表中对应的标签。在一个应用场景中，核心文本“navigate to”可以映射至标签“K：navigate”（可对应图4所示的“知识：导航”）。

[0131] 在确定上述的映射关系的情况下，根据核心文本之间的语义关系，可以将多个标签进行语句组合来得到对应的标签句式。在一个应用场景中，识别文本为“go to KFC”，其中，“go to”与“navigate to”的词义相近，“KFC”则被识别为兴趣点，从而可得到对应的标签句式为“K：navigate POI_type”，其中，“POI_type”可对应图4中的“兴趣点_类型”，标签句式中的标签“K：navigate”和标签“POI_type”则形成依附关系。其中，标签“POI_type”对应兴趣点类型标签。

[0132] 在上述基础上，在根据具体的语句组合得到多个标签句式的情况下，则可将多个标签句式进行整合，最终得到标签树。在一个应用场景中，标签树的原始文件格式为："template":"[D:POI_NAME@poi_name][K:nearby][D:POI_ADDRESS|DISTRICT@limit_address]"

[0133] 另外，在图4中，标签“知识：附近”（K：nearby）所映射的核心文本可以包括“close to”、“near”。标签“限定_名称”（limit_name）则对应兴趣点限名标签。

[0134] 综上所述，本发明的语音识别方法，可实现如下效果：

[0135] 1、提出了混合语言的导航语义理解方案，可扩展在一个国家多种语言场景；

[0136] 2、通过基于char+mbert的POI提取算法，可有利于提取混合语言中的兴趣点；

[0137] 3、通过修正处理，可减少混合语言中的POI受英文表达影响的程度；

[0138] 4、支持可选择路线偏好的语义理解。

[0139] 请参考图5，本发明的一种语音识别系统30，包括服务器10和车辆20。服务器10用于：接收语音请求；获取识别文本，识别文本为对语音请求进行语音识别得到；根据预设模型对识别文本进行识别，得到第一标签文本；在确定第一标签文本不满足预设条件的情况下，对第一标签文本进行修正处理并生成第二标签文本；和根据识别文本和第二标签文本生成导航结果。车辆20用于：发送语音请求；和接收导航结果。

[0140] 上述语音识别系统30，第一标签文本不满足预设条件，表示通过预设模型识别到的结果未能够表征正确的导航意图，从而在第一标签文本的基础上进行修正处理并生成第二标签文本，以使得第二标签文本能够表征正确的导航意图，并通过识别文本和第二标签文本生成导航结果，有利于提高对混合语言的识别效果。

[0141] 具体地，请结合图2和图5，在图5中，车辆20可包括车载终端21。车辆20可通过车载终端21来获取用户发出的语音请求，并将获取到的语音请求发送给服务器10。在图2中，服务器10可接收车载终端21发送的语音请求。语音请求被传输给处理器12，使得处理器12根据语音请求来最终生成导航结果。服务器10可将导航结果传输给车辆20，车辆20则可通过车载终端21来接收导航结果，并可将导航结果反馈给用户（如通过显示的方式向用户展示，或通过语音播报的方式来告知用户）。

[0142] 一种计算机可读存储介质，其上存储有计算机程序。计算机程序在被处理器执行时，实现上述任一项的语音识别方法的步骤。

[0143] 例如，在计算机程序被执行的情况下，可以实现以下步骤：

[0144] 01：获取识别文本，识别文本为对语音请求进行语音识别得到；

[0145] 02：根据预设模型对识别文本进行识别，得到第一标签文本；

[0146] 03：在确定第一标签文本不满足预设条件的情况下，对第一标签文本进行修正处理并生成第二标签文本；

[0147] 04：根据识别文本和第二标签文本生成导航结果。

[0148] 计算机可读存储介质可设置在服务器10，也可设置在其他终端，服务器10能够与其他终端进行通信来获取到相应的程序。

[0149] 可以理解，计算机可读存储介质可以包括：能够携带计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质。

[0150] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

[0151] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

[0152] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

[0153] 尽管已经示出和描述了本发明，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对本发明进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

语音识别方法、服务器、语音识别系统和可读存储介质转让专利

申请号 : CN202211170954.8

文献号 : CN115294964B

文献日 : 2023-02-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李明洋

申请人 : 广州小鹏汽车科技有限公司

摘要 :

权利要求 :

说明书 :