语音识别方法及装置转让专利

申请号 : CN202011639563.7

文献号 : CN112802455B

文献日 : 2023-04-11

本申请公开了一种语音识别方法及装置。该方法包括：确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户；确定目标租户所属的多租户系统对应的语音识别系统；基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据。通过本申请，解决了相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题。

1.一种语音识别方法，其特征在于，包括：

确定待识别语音数据所属的目标业务部门，并获取所述目标业务部门对应的目标租户下的语音识别资源，其中，所述目标业务部门为目标组织机构的多个业务部门之一的部门，所述目标租户为所述目标组织机构对应的多租户系统中的租户，所述目标租户下的语音识别资源至少包括以下之一：所述目标业务部门的热词、动态语言模型，所述动态语言模型由所述目标业务部门的语料训练得到；

确定所述目标租户所属的所述多租户系统对应的语音识别系统，其中，所述语音识别系统中的语言模型由所述目标组织机构的语料训练得到；

基于所述语音识别系统以及所述目标租户下的语音识别资源，对所述待识别语音数据进行识别，得到目标文本数据，包括：基于所述语音识别系统以及所述目标租户下的动态语言模型，对所述待识别语音数据进行识别，得到所述目标文本数据；或基于所述语音识别系统以及所述目标租户下的热词，对所述待识别语音数据进行识别，得到所示目标文本数据。

2.根据权利要求1所述的方法，其特征在于，在确定待识别语音数据所属的目标业务部门，并获取所述目标业务部门对应的目标租户下的语音识别资源之前，所述方法还包括：确定所述目标组织机构包含的业务部门，并基于所述目标组织机构包含的业务部门构建多租户系统，其中，所述多租户系统中的每个租户对应一个所述目标组织机构中的每个业务部门；

获取所述目标组织机构运行的过程中产生的语料，基于所述语料训练得到所述语言模型，并建立所述语言模型与所述多租户系统之间的关联关系；

分别获取所述目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个所述业务部门的语料确定所述业务部门的语音识别资源，并建立所述业务部门的语音识别资源与所述业务部门对应的租户之间的关联关系。

3.根据权利要求1所述的方法，其特征在于，基于所述语音识别系统以及所述目标租户下的动态语言模型，对所述待识别语音数据进行识别，得到所述目标文本数据包括：基于所述语音识别系统中的声学模型对所述待识别语音数据进行识别，得到音素序列；

基于发音词典确定所述音素序列对应的第一文本数据；

基于所述语音识别系统中的语言模型对所述第一文本数据进行调整，得到第二文本数据；

基于所述目标租户下的动态语言模型，对所述第二文本数据进行调整，得到所述目标文本数据。

4.根据权利要求1所述的方法，其特征在于，所述热词至少包括以下之一类型：解码调整热词，用于在所述语音识别系统的语言模型中的解码网络中建立新的解码路径；

文本替换热词，用于对所述语音识别系统输出的文本数据中的目标词汇进行替换，其中，所述目标词汇是与所述文本替换热词具有关联关系的词汇；

音素替换热词，用于对所述语音识别系统中的声学模型输出的音素序列中的目标音素进行替换，其中，所述目标音素是与所述音素替换热词具有关联关系的音素。

5.一种语音识别装置，其特征在于，包括：

第一确定单元，用于确定待识别语音数据所属的目标业务部门，并获取所述目标业务部门对应的目标租户下的语音识别资源，其中，所述目标业务部门为目标组织机构的多个业务部门之一的部门，所述目标租户为所述目标组织机构对应的多租户系统中的租户，所述目标租户下的语音识别资源至少包括以下之一：所述目标业务部门的热词、动态语言模型，所述动态语言模型由所述目标业务部门的语料训练得到；

第二确定单元，用于确定所述目标租户所属的所述多租户系统对应的语音识别系统，其中，所述语音识别系统中的语言模型由所述目标组织机构的语料训练得到；

识别单元，用于基于所述语音识别系统以及所述目标租户下的语音识别资源，对所述待识别语音数据进行识别，得到目标文本数据；

所述识别单元包括：

第一识别模块，用于基于所述语音识别系统以及所述目标租户下的动态语言模型，对所述待识别语音数据进行识别，得到所述目标文本数据；或第二识别模块，用于基于所述语音识别系统以及所述目标租户下的热词，对所述待识别语音数据进行识别，得到所示目标文本数据。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第三确定单元，用于在确定待识别语音数据所属的目标业务部门，并获取所述目标业务部门对应的目标租户下的语音识别资源之前，确定所述目标组织机构包含的业务部门，并基于所述目标组织机构包含的业务部门构建多租户系统，其中，所述多租户系统中的每个租户对应一个所述目标组织机构中的每个业务部门；

第一获取单元，用于获取所述目标组织机构运行的过程中产生的语料，基于所述语料训练得到所述语言模型，并建立所述语言模型与所述多租户系统之间的关联关系；

第二获取单元，用于分别获取所述目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个所述业务部门的语料确定所述业务部门的语音识别资源，并建立所述业务部门的语音识别资源与所述业务部门对应的租户之间的关联关系。

7.一种非易失性存储介质，其特征在于，所非易失性存储介质包括存储的程序，其中，所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至4中任意一项所述的语音识别方法。

8.一种电子装置，其特征在于，包含处理器和存储器，所述存储器中存储有计算机可读指令，所述处理器用于运行所述计算机可读指令，其中，所述计算机可读指令运行时执行权利要求1至4中任意一项所述的语音识别方法。

语音识别方法及装置

技术领域

[0001] 本申请涉及语音识别技术领域，具体而言，涉及一种语音识别方法及装置。

背景技术

[0002] 随着人工智能技术的发展，越来越多的企业及个人使用人工智能技术去解决日常工作及生活中的问题，其中，基于人工智能的语音识别技术的应用尤其广泛。

[0003] 在给大型企业提供语音识别技术时，一般较大的企业都会分不同的业务部门(如大型银行的客服中心有信用卡部门、储蓄卡部门)，各个企业分部或部门之间是业务独立的，业务数据也是隔离的，发现由于各业务部门之间的业务不同导致各业务部门在使用语音识别技术时，涉及的词汇并不相同，这样对于各个部门的识别资源就需要做到不同，在相关技术中，需要为各部门部署不同的语音识别模型，占用多个服务器资源，造成资源浪费，同时也给公司维护系统造成了一定的困难。

[0004] 针对相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题，目前尚未提出有效的解决方案。

发明内容

[0005] 本申请提供一种语音识别方法及装置，以解决相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题。

[0006] 根据本申请的一个方面，提供了一种语音识别方法。该方法包括：确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到；确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到；基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据。

[0007] 可选地，在确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源之前，该方法还包括：确定目标组织机构包含的业务部门，并基于目标组织机构包含的业务部门构建多租户系统，其中，多租户系统中的每个租户对应一个目标组织机构中的每个业务部门；获取目标组织机构运行的过程中产生的语料，基于语料训练得到语言模型，并建立语言模型与多租户系统之间的关联关系；分别获取目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个业务部门的语料确定业务部门的语音识别资源，并建立业务部门的语音识别资源与业务部门对应的租户之间的关联关系。

[0008] 可选地，基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据包括：基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据；或基于语音识别系统以及目标租户下的热词，对待识别语音数据进行识别，得到所示目标文本数据。

[0009] 可选地，基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据包括：基于语音识别系统中的声学模型对待识别语音数据进行识别，得到音素序列；基于发音词典确定音素序列对应的第一文本数据；基于语音识别系统中的语言模型对第一文本数据进行调整，得到第二文本数据；基于目标租户下的动态语言模型，对第二文本数据进行调整，得到目标文本数据。

[0010] 可选地，热词至少包括以下之一类型：解码调整热词，用于在语音识别系统的语言模型中的解码网络中建立新的解码路径；文本替换热词，用于对语音识别系统输出的文本数据中的目标词汇进行替换，其中，目标词汇是与文本替换热词具有关联关系的词汇；音素替换热词，用于对语音识别系统中的声学模型输出的音素序列中的目标音素进行替换，其中，目标音素是与音素替换热词具有关联关系的音素。

[0011] 根据本申请的另一方面，提供了一种语音识别装置。该装置包括：第一确定单元，用于确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到；第二确定单元，用于确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到；识别单元，用于基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据。

[0012] 可选地，该装置还包括：第三确定单元，用于在确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源之前，确定目标组织机构包含的业务部门，并基于目标组织机构包含的业务部门构建多租户系统，其中，多租户系统中的每个租户对应一个目标组织机构中的每个业务部门；第一获取单元，用于获取目标组织机构运行的过程中产生的语料，基于语料训练得到语言模型，并建立语言模型与多租户系统之间的关联关系；第二获取单元，用于分别获取目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个业务部门的语料确定业务部门的语音识别资源，并建立业务部门的语音识别资源与业务部门对应的租户之间的关联关系。

[0013] 可选地，识别单元包括：第一识别模块，用于基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据；或第二识别模块，用于基于语音识别系统以及目标租户下的热词，对待识别语音数据进行识别，得到所示目标文本数据。

[0014] 根据本发明实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，程序运行时控制非易失性存储介质所在的设备执行一种语音识别方法。

[0015] 根据本发明实施例的另一方面，还提供了一种电子装置，包含处理器和存储器；存储器中存储有计算机可读指令，处理器用于运行计算机可读指令，其中，计算机可读指令运行时执行一种语音识别方法。

[0016] 通过本申请，采用以下步骤：确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到；确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到；基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据，解决了相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题。进而达到了降低企业级用户的语音识别时占用的服务器资源的效果。

附图说明

[0017] 构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

[0018] 图1是根据本申请实施例提供的语音识别方法的流程图；

[0019] 图2是根据本申请实施例提供的语音识别方法中的多租户系统的示意图；以及[0020] 图3是根据本申请实施例提供的语音识别装置的示意图。

具体实施方式

[0021] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

[0022] 为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

[0023] 需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0024] 根据本申请的实施例，提供了一种语音识别方法。

[0025] 图1是根据本申请实施例的语音识别方法的流程图。如图1所示，该方法包括以下步骤：

[0026] 步骤S102，确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到。

[0027] 具体地，目标组织机构可以为目标企业，热词、敏感词、动态语言模型这些都是可以动态加载的资源，每个业务部门根据自身业务特点，创建这些动态语音识别资源。

[0028] 步骤S104，确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到。

[0029] 具体地，不同的业务部门共用同一套语音识别系统，且共用同一个基础语言模型，这个基础语言模型是不能动态加载的，只能启动服务的时候加载一次。

[0030] 步骤S106，基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据。

[0031] 具体地，当用户在调用语音识别服务时，语音识别系统根据请求中的租户ID，可以指定该租户ID下的动态语音识别资源和基础语音模型一起，进行语音识别。

[0032] 也即，针对大型企业，对于各业务部门不同需求，本实施例通过多租户系统提供语音识别资源的隔离，这样可以针对不同部门部署一套语音识别系统，提供一套通用识别服务，针对不同部门不同的术语或者业务词汇，通过创建多租户的方式，将这部分不同的话术资源各部门单独使用，这部分数据资源因为不用部署多套语音识别系统，减少语音识别系统的使用成本，减少了服务器资源的使用。

[0033] 可选地，在本申请实施例提供的语音识别方法中，在确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源之前，该方法还包括：确定目标组织机构包含的业务部门，并基于目标组织机构包含的业务部门构建多租户系统，其中，多租户系统中的每个租户对应一个目标组织机构中的每个业务部门；获取目标组织机构运行的过程中产生的语料，基于语料训练得到语言模型，并建立语言模型与多租户系统之间的关联关系；分别获取目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个业务部门的语料确定业务部门的语音识别资源，并建立业务部门的语音识别资源与业务部门对应的租户之间的关联关系。

[0034] 具体地，本申请实施例中的多租户系统的用户分为以下类别：企业级客户(devkey)：私有化部署的客户，针对语音识别系统来说一个企业；租户(tenant)：一个devkey下可以创建多个租户，租户主要是用来隔离关键资源，每个租户都可以有自己独立的资源；用户(user)：一个devkey下可以有不同的最终用户，每个用户指向不同的用户ID(userid)。

[0035] 具体地，如图2所示，给企业级客户提供语音识别系统，一套系统对应一个devkey。一个devkey下面可以创建多个租户，用户可以在创建识别资源时指定租户，在调用语音识别时，可以在请求时传入租户ID，这时当进行语音识别时系统会自动选用该租户下的资源和基础模型配合识别，从而保证租户内的用户使用的资源时跟自己业务部门相关的模型资源。

[0036] 本申请实施例，通过租户管理，一个企业下可以根据不同部门的需求创建不同的租户，租户内的资源只为该租户内的用户提供服务，租户外的用户不可使用，保证各租户间的数据隔离，系统可统一对整个系统运行状况进行运维监控，系统可统一对各个租户的系统使用情况进行运营监控，系统可提供各个租户对自己业务情况进行运营监控。

[0037] 可选地，在本申请实施例提供的语音识别方法中，基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据包括：基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据；或基于语音识别系统以及目标租户下的热词，对待识别语音数据进行识别，得到所示目标文本数据。

[0038] 可选地，在本申请实施例提供的语音识别方法中，基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据包括：基于语音识别系统中的声学模型对待识别语音数据进行识别，得到音素序列；基于发音词典确定音素序列对应的第一文本数据；基于语音识别系统中的语言模型对第一文本数据进行调整，得到第二文本数据；基于目标租户下的动态语言模型，对第二文本数据进行调整，得到目标文本数据。

[0039] 具体地，首先声学模型会给出识别出的音素序列，发音词典会根据音素序列给出基础识别结果。其次基础语言模型会对这个识别结果进行二次打分解码，重新调整识别结果，动态小语言模型，辅助基础语言模型，在基础语言模型基础上再次打分，调整识别结果。也即，动态语言模型使用即为是在基础语言模型识别的基础上，对动态语言模型中涉及到的语料增加权重，识别结果可以更偏向动态语言模型。

[0040] 需要说明的是，动态语言模型的训练原理和训练语音识别系统中的基础语言模型的原理一样，但是训练二者所采用的语料不同。

[0041] 可选地，在本申请实施例提供的语音识别方法中，热词至少包括以下之一类型：解码调整热词，用于在语音识别系统的语言模型中的解码网络中建立新的解码路径；文本替换热词，用于对语音识别系统输出的文本数据中的目标词汇进行替换，其中，目标词汇是与文本替换热词具有关联关系的词汇；音素替换热词，用于对语音识别系统中的声学模型输出的音素序列中的目标音素进行替换，其中，目标音素是与音素替换热词具有关联关系的音素。

[0042] 本申请实施例提供的语音识别方法，通过确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到；确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到；基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据，解决了相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题。进而达到了降低企业级用户的语音识别时占用的服务器资源的效果。

[0043] 需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0044] 本申请实施例还提供了一种语音识别装置，需要说明的是，本申请实施例的语音识别装置可以用于执行本申请实施例所提供的用于语音识别方法。以下对本申请实施例提供的语音识别装置进行介绍。

[0045] 图3是根据本申请实施例的语音识别装置的示意图。如图3所示，该装置包括：第一确定单元10、第二确定单元20和识别单元30。

[0046] 可选地，第一确定单元10，用于确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到。

[0047] 第二确定单元20，用于确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到。

[0048] 识别单元30，用于基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据。

[0049] 本申请实施例提供的语音识别装置，通过第一确定单元10，用于确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源，其中，目标业务部门为目标组织机构的多个业务部门之一的部门，目标租户为目标组织机构对应的多租户系统中的租户，目标租户下的语音识别资源至少包括以下之一：目标业务部门的热词、动态语言模型，动态语言模型由目标业务部门的语料训练得到；第二确定单元20，用于确定目标租户所属的多租户系统对应的语音识别系统，其中，语音识别系统中的语言模型由目标组织机构的语料训练得到；识别单元30，用于基于语音识别系统以及目标租户下的语音识别资源，对待识别语音数据进行识别，得到目标文本数据，解决了相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题，进而达到了降低企业级用户的语音识别时占用的服务器资源的效果。

[0050] 可选地，该装置还包括：第三确定单元，用于在确定待识别语音数据所属的目标业务部门，并获取目标业务部门对应的目标租户下的语音识别资源之前，确定目标组织机构包含的业务部门，并基于目标组织机构包含的业务部门构建多租户系统，其中，多租户系统中的每个租户对应一个目标组织机构中的每个业务部门；第一获取单元，用于获取目标组织机构运行的过程中产生的语料，基于语料训练得到语言模型，并建立语言模型与多租户系统之间的关联关系；第二获取单元，用于分别获取目标组织机构中的每个业务部门运行的过程中产生的语料，分别基于每个业务部门的语料确定业务部门的语音识别资源，并建立业务部门的语音识别资源与业务部门对应的租户之间的关联关系。

[0051] 可选地，识别单元30包括：第一识别模块，用于基于语音识别系统以及目标租户下的动态语言模型，对待识别语音数据进行识别，得到目标文本数据；或第二识别模块，用于基于语音识别系统以及目标租户下的热词，对待识别语音数据进行识别，得到所示目标文本数据。

[0052] 可选地，在本申请实施例提供的语音识别装置中，第一识别模块包括：识别子模块，用于基于语音识别系统中的声学模型对待识别语音数据进行识别，得到音素序列；确定子模块，用于基于发音词典确定音素序列对应的第一文本数据；第一调整子模块，用于基于语音识别系统中的语言模型对第一文本数据进行调整，得到第二文本数据；第二调整子模块，用于基于目标租户下的动态语言模型，对第二文本数据进行调整，得到目标文本数据。

[0053] 可选地，在本申请实施例提供的语音识别装置中，热词至少包括以下之一类型：解码调整热词，用于在语音识别系统的语言模型中的解码网络中建立新的解码路径；文本替换热词，用于对语音识别系统输出的文本数据中的目标词汇进行替换，其中，目标词汇是与文本替换热词具有关联关系的词汇；音素替换热词，用于对语音识别系统中的声学模型输出的音素序列中的目标音素进行替换，其中，目标音素是与音素替换热词具有关联关系的音素。

[0054] 所述语音识别装置包括处理器和存储器，上述第一确定单元10、第二确定单元20和识别单元30等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0055] 处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中为企业级用户提供语音识别系统时需要为各个部门部署单独的基础语音识别系统，浪费资源的问题。

[0056] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

[0057] 本申请实施例还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，程序运行时控制非易失性存储介质所在的设备执行一种语音识别方法。

[0058] 本申请实施例还提供了一种电子装置，包含处理器和存储器；存储器中存储有计算机可读指令，处理器用于运行计算机可读指令，其中，计算机可读指令运行时执行一种语音识别方法。本文中的电子装置可以是服务器、PC、PAD、手机等。

[0059] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0060] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0061] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0062] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0063] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0064] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

[0065] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0066] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0067] 本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0068] 以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

语音识别方法及装置转让专利

申请号 : CN202011639563.7

文献号 : CN112802455B

文献日 : 2023-04-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李健 , 常乐 , 陈明 , 武卫东

申请人 : 北京捷通华声科技股份有限公司

摘要 :

权利要求 :

说明书 :