语音识别方法和装置转让专利

申请号 : CN202110958098.1

文献号 : CN113539246B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 汤志远李先刚邹伟解传栋沈明

申请人 : 贝壳找房(北京)科技有限公司

摘要 :

本公开实施例提供了一种语音识别方法和装置,所述方法包括:获取待识别的语音数据;基于预设语音识别模型获取所述语音数据的文本数据;其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;基于所述初始语音识别模型获取语音样本对应的预测文本;分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。该方法能够提高语音识别的准确性。

权利要求 :

1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音数据;

基于预设语音识别模型获取所述语音数据的文本数据;

其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;

基于所述初始语音识别模型获取语音样本对应的预测文本;

分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;

基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型;

其中,所述获取预设语音识别模型之后,所述方法还包括:获取针对预设语音识别模型进行人工打分的分值;

获取针对所述预设语音识别模型进行机器打分的分值;

基于所述人工打分的分值和所述机器打分的分值获得综合得分;

若确定所述综合得分大于预设阈值,则确定所述预设语音识别模型符合要求;否则,确定所述预设语音识别模型不符合要求,再次调整所述预设语音识别模型的参数。

2.根据权利要求1所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,包括:基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数;

基于所述损失函数通过梯度下降法调整初始语音识别模型的参数。

3.根据权利要求2所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数,包括:计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的距离,将所述距离作为损失函数。

4.根据权利要求2所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数,包括:计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的相似度,将所述相似度作为损失函数。

5.根据权利要求1所述的方法,其特征在于,分别通过预设语言模型获取所述预测文本和参考文本对应的隐空间表征。

6.根据权利要求1‑5任一项所述的方法,其特征在于,所述获取待识别的语音数据之后,所述基于预设语音识别模型获取所述语音数据的文本数据之前,所述方法还包括:对所述待识别的语音数据进行特征提取、去噪、去混响、回声消除处理。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1‑6任一项所述的方法。

说明书 :

语音识别方法和装置

技术领域

[0001] 本公开实施例涉及一种语音识别方法和装置。

背景技术

[0002] 语音识别广泛应用于人工智能场景,具有重要的现实意义和商业价值,然而当下语音识别的训练目标和评估标准都是基于简单的正确率,即通过判断识别出的文本结果与真实的文本结果之间的差异来判断系统的好坏,只关心具体的文字有没有出现,完全忽略了文本本身所表达的语义,使得系统识别出的文本容易出现逻辑不畅、语句不通等认知层面的问题。
[0003] 人类语音交互的核心便在于传递语音所包含的语义,即使两句话的文字不完全一样,但只要语义一样,仍是可以接受的。机器语音识别与人类语音识别二者目标的不一致,导致了当下语音识别系统在真实的人机交互场景中只停留在表面的文字转录,并不考虑语义是否充分表达,大大降低了语音识别的准确性和使用体验。

发明内容

[0004] 有鉴于此,本申请提供一种语音识别方法和装置,能够提高语音识别的准确性。
[0005] 为解决上述技术问题,本申请的技术方案是这样实现的:
[0006] 在一个实施例中,提供了一种语音识别方法,所述方法包括:
[0007] 获取待识别的语音数据;
[0008] 基于预设语音识别模型获取所述语音数据的文本数据;
[0009] 其中,获取预设语音识别模型的方法,包括:
[0010] 基于深度神经网络建立初始语音识别模型;
[0011] 基于所述初始语音识别模型获取语音样本对应的预测文本;
[0012] 分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;
[0013] 基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。
[0014] 在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述语音识别方法的步骤。
[0015] 在另一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述语音识别方法。
[0016] 由上面的技术方案可见,上述实施例中基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高语音识别的准确性。

附图说明

[0017] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1为本申请实施例中获取预设语音识别模型流程示意图;
[0019] 图2为本申请实施例中调整识别模型参数流程示意图;
[0020] 图3为本申请实施例中评估预设识别模型流程示意图;
[0021] 图4为本申请实施例一中语音识别流程示意图;
[0022] 图5为本申请实施例二中语音识别流程示意图;
[0023] 图6为本申请实施例中语音识别装置结构示意图;
[0024] 图7为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

[0025] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0027] 下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0028] 本申请实施例中提供一种语音识别方法,基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高了语音识别的准确性。
[0029] 本申请实施例中会预先获取预设语音识别模型,具体过程如下:
[0030] 参见图1,图1为本申请实施例中获取预设语音识别模型流程示意图。具体步骤为:
[0031] 步骤101,基于深度神经网络建立初始语音识别模型。
[0032] 步骤102,基于所述初始语音识别模型获取语音样本对应的预测文本。
[0033] 语音样本为用于训练模型的样本,并同时获取所述语音样本对应的参考文本;这里的参考文本为所述语音样本对应的真实文本。
[0034] 步骤103,分别获取所述预测文本和参考文本对应的隐空间表征。
[0035] 可以通过预设语言模型获取文本的隐空间表征。
[0036] 具体实现时分别通过预设语言模型获取所述预测文本和参考文本对应的隐空间表征,即通过预设语言模型获取所述预测文本对应的隐空间表征,以及通过预设语言模型获取所述参考文本对应的隐空间表征。
[0037] 所述预设语言模型可以是选择的任意神经网络结构或损失函数训练出来的模型,如基于Transformers的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型、第三代生成式预训练Transformer(Generative Pre‑trained Transformer 3,GPT‑3)模型等,但不限于此。
[0038] 在具体实现时,通过预设语言模型获取的文本的隐空间表征既可以是固定长度,也可以是不定长度;具体选择获取哪种长度的隐空间表征可以根据实际需要选择什么样的语言模型,本申请实施例中对此不进行限制,针对参考文本和预测文本获取对应的隐空间表征时使用同一预设语言模型即可。
[0039] 步骤104,基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整初始语音识别模型的参数,获取预设语音识别模型。
[0040] 参见图2,图2为本申请实施例中调整识别模型参数流程示意图。具体步骤为:
[0041] 步骤201,基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数。
[0042] 如假设语音数据为x,参考文本为y,初始语音识别模型可以表示为f函数,则预测文本z=f(x),获取文本的隐空间表征的函数为g,则预测文本对应的隐空间表征可以表示为z’=g(z)=g(f(x)),参考文本的隐空间表征可以表示为y’=g(y)。
[0043] 损失函数可以表示为L(z’,y’)=L(g(f(x)),g(y)),在该损失函数中g函数不存在需要调整的参数,需要调整的是函数f的参数,即识别模型对应的参数。
[0044] 本申请实施例中构建损失函数有如下两种方式,且不限于下述两种实现方式:
[0045] 第一种、计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的距离,将所述距离作为损失函数。
[0046] 第二种、计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的相似度,将所述相似度作为损失函数。
[0047] 步骤202,基于所述损失函数通过梯度下降法调整初始语音识别模型的参数。
[0048] 本申请实施例中对损失函数基于要调整的参数进行梯度求解,获取需要调整的参数的调整变量:
[0049]
[0050] 其中,L为损失函数,w为识别模型待调整的参数,通常为深度神经网络的权重。
[0051] 则调整参数为:
[0052] w1=w2‑lr×△;
[0053] 其中,w1为调整后的参数值,w2为调整前的参数值,lr为学习速率(learning rate),lr根据实际应用进行设置。
[0054] 本申请实施例中在具体实现时,根据训练样本的使用量,可以一次性使用所有样本对初始语音识别模型进行一次参数调整,即批量梯度下降法(Batch  Gradient Descent),也可以每次使用一个训练样本或小批量训练样本对模型参数进行多次调整,即随机梯度下降法(Stochastic Gradient Descent)和小批量梯度下降法(Mini‑batch Gradient Descent)。
[0055] 还可以配置参数调整的结束条件,如调整次数达到预设值时结束参数调整,或设置阈值来结束参数调整,具体如下:
[0056] 如损失函数为两个隐空间表征的距离,则可以设置结束调整参数的条件为距离小于预设距离阈值,即当两者的距离小于预设阈值时,结束对预设语音识别模型的参数的调整;
[0057] 如损失函数为两个隐空间表征的相似度,则可以设置结束调整参数的条件为相似度大于预设相似度阈值,即当两者的相似度大于预设相似度阈值时,结束对预设语音识别模型的参数的调整;这里以相似度的值越大,两个隐空间表征越相似为例,若相似度值越小,两隐空间表征越相似,则当两者的相似度小于预设相似度阈值时,结束对预设语音识别模型的参数的调整,具体是哪种规则结束参数的调整,由计算相似度的算法决定。
[0058] 至此,获取预设语音识别模型。
[0059] 本申请实施例中,还提供一种对预设语音识别模型进行准确性进行评估的方法。具体如下:
[0060] 参见图3,图3为本申请实施例中评估预设识别模型流程示意图。具体步骤为:
[0061] 步骤301,获取针对预设语音识别模型进行人工打分的分值。
[0062] 获取语音数据,基于所述预设语音识别模型获取预测文本;
[0063] 打分人员,如语音专家,基于所述语音数据对预测文本的准确率对所述预设语音识别模型进行打分;
[0064] 在具体实现时,可以由一个打分人员进行打分,也可以由多个打分人员进行打分;如果是多个打分人员进行打分,可以计算多个打分人员所打的分值的平均值作为人工打分的分值。
[0065] 步骤302,获取针对所述预设语音识别模型进行机器打分的分值。
[0066] 打分装置获取语音数据,基于所述预设语音识别模型获取预测文本;
[0067] 再获取所述语音数据对应的参考文本,基于所述预测文本和所述参考文本确定所述预设语音识别模型的准确率,准确率的计算方式可以但不限于下述实现:
[0068]
[0069] 其中,A为准确率;S为替换词的总个数,D为删除词的总个数,I为插入词的总个数,N为参考文本包含的词的总个数。
[0070] 基于准确率对所述预设识别模型进行打分,具体实现时可以预先设置分值与准确率区间的对应关系,再根据该对应关系确定打分对应的分值。
[0071] 步骤301和步骤302的执行不分先后顺序,也可以同时执行。
[0072] 人工打分和机器打分需要在一个分制下打分,如果不同分制,则需要转换为同一分制后再行进行综合得分的计算。
[0073] 步骤303,基于所述人工打分的分值和所述机器打分的分值获得综合得分。
[0074] 计算综合得分时,可以对人工打分的分值和机器打分的分值进行加权求和获得综合得分。
[0075] 权重的设置根据实际需要设置,本申请对此不进行限制。
[0076] 步骤304,若确定所述综合得分大于预设阈值,则确定所述预设语音识别模型符合要求;否则,确定所述预设语音识别模型不符合要求,再次调整所述预设语音识别模型的参数。
[0077] 预设阈值的设置根据分值设置的大小有关进行设置,如针对五分制、十分制、百分制等需要设置不同的预设阈值。
[0078] 下面结合附图,详细描述本申请实施例中语音识别过程。
[0079] 实施例一
[0080] 参见图4,图4为本申请实施例一中语音识别流程示意图。具体步骤为:
[0081] 步骤401,获取待识别的语音数据。
[0082] 步骤402,基于预设语音识别模型获取所述语音数据的文本数据。
[0083] 所述预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的。
[0084] 所述预设语音识别模型可以预先获取,具体可实现方式可以为如下:
[0085] 基于深度神经网络建立初始语音识别模型;
[0086] 基于所述初始语音识别模型获取语音样本对应的预测文本;
[0087] 分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;
[0088] 基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整初始语音识别模型的参数,获取预设语音识别模型。
[0089] 本申请实施例中还可以使用识别出的文本数据的语音数据作为样本,再次调整预设语音识别模型的参数。
[0090] 本申请实施例中基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高了语音识别的准确性。
[0091] 实施例二
[0092] 参见图5,图5为本申请实施例二中语音识别流程示意图。具体步骤为:
[0093] 步骤501,获取待识别的语音数据。
[0094] 步骤502,对所述待识别的语音数据进行特征提取、去噪、去混响、回声消除处理。
[0095] 本申请实施例中对待识别的语音数据进行的预处理包括特征提取、去噪、去混响、回声消除等,但不限于上述预处理。
[0096] 步骤503,基于预设语音识别模型获取处理后的语音数据的文本数据。
[0097] 所述预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的。
[0098] 本申请实施例中对获取的待识别语音数据进行预处理,并基于预设语音识别模型获取预处理后的语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高了语音识别的准确性。
[0099] 基于同样的发明构思,本申请实施例中还提供一种语音识别装置。参见图6,图6为本申请实施例中语音识别装置结构示意图。所述装置包括:第一获取单元601、第二获取单元602和识别单元603;
[0100] 第一获取单元601,用于获取待识别的语音数据;
[0101] 第二获取单元602,用于获取预设语音识别模型,其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;基于所述初始语音识别模型获取语音样本对应的预测文本;分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整初始语音识别模型的参数,获取预设语音识别模型;
[0102] 识别单元603,用于基于第二获取单元602获取的预设语音识别模型获取第一获取单元601获取的语音数据的文本数据。
[0103] 在另一个实施例中,
[0104] 第二获取单元602,具体用于基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整初始语音识别模型的参数时,基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数;基于所述损失函数通过梯度下降法调整初始语音识别模型的参数。
[0105] 在另一个实施例中,
[0106] 第二获取单元602,具体用于基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数时,包括:计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的距离,将所述距离作为损失函数。
[0107] 在另一个实施例中,
[0108] 第二获取单元602,具体用于基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数时,计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的相似度,将所述相似度作为损失函数。
[0109] 在另一个实施例中,所述装置还包括:评估单元604;
[0110] 评估单元604,用于在第二获取单元602获取预设语音识别模型之后,获取针对预设语音识别模型进行人工打分的分值;获取针对所述预设语音识别模型进行机器打分的分值;基于所述人工打分的分值和所述机器打分的分值获得综合得分;若确定所述综合得分大于预设阈值,则确定所述预设语音识别模型符合要求;否则,确定所述预设语音识别模型不符合要求,再次调整所述预设语音识别模型的参数。
[0111] 在另一个实施例中,
[0112] 第二获取单元602,具体用于分别通过预设语言模型获取所述预测文本和参考文本对应的隐空间表征。
[0113] 在另一个实施例中,所述装置还包括:处理单元605;
[0114] 处理单元605,用于对第一获取单元601获取的待识别的语音数据进行特征提取、去噪、去混响、回声消除处理。
[0115] 上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
[0116] 在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述语音识别方法的步骤。
[0117] 在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述语音识别方法中的步骤。
[0118] 在另一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述语音识别方法。
[0119] 图7为本发明实施例提供的电子设备的实体结构示意图。如图7所示,该电子设备可以包括:处理器(Processor)710、通信接口(Communications Interface)720、存储器(Memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:
[0120] 获取待识别的语音数据;
[0121] 基于预设语音识别模型获取所述语音数据的文本数据;
[0122] 其中,获取预设语音识别模型的方法,包括:
[0123] 基于深度神经网络建立初始语音识别模型;
[0124] 基于所述初始语音识别模型获取语音样本对应的预测文本;
[0125] 分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;
[0126] 基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。
[0127] 此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0128] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0129] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0130] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。