语音识别装置、语音识别方法和程序转让专利

申请号 : CN201010540142.9

文献号 : CN102074230B

文献日 : 2012-09-05

本发明涉及语音识别装置、语音识别方法和程序。该语音识别装置包括：声源分离单元，被配置为把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；语音识别单元，被配置为输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作关于与各声道对应的语音识别结果的评价信息的附加信息；和声道选择单元，被配置为输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

1.一种语音识别装置，包括：

声源分离单元，被配置为把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；

语音识别单元，被配置为输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作与各声道对应的语音识别结果的评价信息的附加信息；和声道选择单元，被配置为输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

2.如权利要求1所述的语音识别装置，

其中，语音识别单元计算语音识别结果的识别置信度作为所述附加信息，并且其中，声道选择单元通过应用所述识别置信度计算与各声道对应的语音识别结果的得分。

3.如权利要求1所述的语音识别装置，

其中，语音识别单元计算指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度，作为所述附加信息，并且其中，声道选择单元通过应用所述任务内讲话程度计算与各声道对应的语音识别结果的得分。

4.如权利要求1所述的语音识别装置，其中，声道选择单元应用语音识别结果的识别置信度和指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度中的至少一个作为得分计算数据，并通过组合语音功率和声源方向信息中的至少一个来计算得分。

5.如权利要求1至4中任一项所述的语音识别装置，

其中，所述语音识别单元包括多个语音识别单元，语音识别单元的数量等于由声源分离单元产生的多个声道的分离信号的声道数量，并且其中，所述多个语音识别单元分别接收由声源分离单元产生的多个声道的分离信号中的与各个声道对应的分离信号，并且并行地执行语音识别处理。

6.一种在语音识别装置中执行的语音识别方法，包括下述步骤：通过使用声源分离单元把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；

通过使用语音识别单元输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作与各声道对应的语音识别结果的评价信息的附加信息；以及通过使用声道选择单元输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

语音识别装置、语音识别方法和程序

技术领域

[0001] 本发明涉及语音识别装置、语音识别方法和程序。更具体地讲，本发明涉及一种通过使用独立分量分析(ICA：IndependentComponent Analysis)分离多个语音信号的混合信号并执行语音识别的语音识别装置、用于该语音识别装置的语音识别方法和用于该语音识别装置的程序。

背景技术

[0002] 分离多个语音信号的混合信号的处理的例子是独立分量分析(ICA)。通过把语音识别应用于通过ICA获得的分离结果，声音被分离成所希望的声音和除所希望的声音之外的声音。其后，通过执行语音识别处理，可以以高精度执行所希望的声源的语音识别。

[0003] 已经存在组合了基于这种独立分量分析(ICA)的声源分离处理和语音识别处理的几种系统。现有技术的系统具有如下结构：从与作为ICA的结果获得的多个声源的各个声源对应的多个输出声道选择所希望的声道(声源)，并且将所希望的声道(声源)用于针对语音识别的输入。

[0004] 首先，作为本发明的背景技术，将给出独立分量分析(ICA)的概述。ICA是一种多变量分析，并且是一种通过使用信号的统计性质分离多维信号的方法。对于ICA本身的细节，例如，应该参考Noboru MURATA所著的“Introduction to Independent ComponentAnalysis”(Tokyo Denki University Press)。

[0005] 在下面，将描述声音信号的ICA，具体地为时频域的ICA。考虑这样的情况：如图1中所示，从N个声源发出不同的声音，并且使用N个麦克风观测这些声音。在由声源输出的声音(原始信号)到达之前，存在时间延迟、反射等。因此，由麦克风k观测的信号(观测信号)能够用一个式子表示，在该式子中，针对所有声源，对原始信号和传递函数的卷积(convolution)计算求和，如式[1.1]中所示。在下面，这种混合将被称为卷积混合。麦克风n的观测信号表示为xn(t)。麦克风1和麦克风2的观测信号分别表示为x1(t)和x2(t)。
如果所有麦克风的观测信号用一个式子表示，则它们被表示为以下描述的式[1.2]。

[0006][0] [L]

[0007] x(t)＝A s(t)+...+A s(t-L) ......[1.2]

[0008] 其中

[0009]

[0010] 在以上式子中，x(t)和s(t)是列向量，在这些列向量中xk(t)和sk(t)分别是元[1] [1]素，并且A 是n×N矩阵，在该矩阵中a ki是元素。在下面，n＝N。

[0011] 时域的卷积混合在时频域中由瞬时混合表示是公知常识，该特征被时频域的ICA利用。

[0012] 对于时频域ICA本身，应该参考“Detailed Explanation ofIndependent Component Analysis” 的“19.2.4Fourier TransformMethod” 和“Speech Signal Separation Device/Noise Removal Deviceand Method”(日本未审专利申请公报No.2006-238409)等。

[0013] 当对上面的式子[1.2]的两侧进行短时傅立叶变换时，获得下面描述的式[2.1]。

[0014] X(ω，t)＝A(ω)S(ω，t)......[2.1]

[0015]

[0016]

[0017]

[0018] Y(ω，t)＝W(ω)X(ω，t)......[2.5]

[0019]

[0020]

[0021] 在以上的式[2.1]中，ω表示频点(frequency bin)的编号，t表示帧的编号。

[0022] 如果ω固定，则该式可被视为瞬时混合(没有时间延迟的混合)。因此，为了分离观测信号，在准备了分离结果[Y]的计算式[2.5]后，确定分离矩阵W(ω)以使分离结果Y(ω，t)的每个分量变得最独立。基于这种处理，从混合的语音信号获得分离信号。

[0023] 通过把通过该独立分量分析(ICA)获得的分离信号输入到语音识别系统，可以以高精度获得与每个声源对应的识别结果。组合了基于ICA的声源分离处理和语音识别单元的系统的典型例子显示在图2中。

[0024] 由多个麦克风101-1至101-N收集声音，并且与由麦克风101-1至101-N中的每个获得的声音信号对应的输入波形被发送给声源分离单元102。声源分离单元102执行基于上述独立分量分析(ICA)把多个声源的混合声音分离成与每个声源对应的各个声源的处理。在声道选择单元103中，在要基于声源方向执行声道选择的情况下，在声源分离单元102中，同时执行声源方向估计。

[0025] 从声源分离单元102输出指示与声源对应的各语音信号的分离波形和声源方向信息，并且所述分离波形和声源方向信息被输入到声道选择单元103。声道选择单元103在从声源分离单元102输入的与各声源对应的分离波形中，选择包含所希望的声音的声道。例如，根据用户的指定等进行选择。一个选择的分离波形被输出到语音识别单元104。

[0026] 语音识别单元104通过使用从声道选择单元103输入的指示与某声源对应的语音信号的分离波形作为输入来执行语音识别，并输出特定声源(所希望的声音)的语音识别结果。

[0027] 构造组合了基于ICA的声源分离处理和语音识别处理的系统以通过执行这种处理获得所希望的声源的识别结果。然而，这种系统具有关于ICA输出的不确定性和用于选择所希望的声音的声道选择的问题。以下，将描述这些问题。

[0028] 首先，将描述ICA输出的不确定性和用于选择所希望的声音的声道选择方法。

[0029] ICA输出的不确定性

[0030] 在ICA中，与原始声源对应的分离结果的每个声音被输出到哪个声道是不确定的。因此，必须以某种方式选择包含所希望的声音的声道。例如，在日本未审专利申请公报No.2009-53088中，描述了ICA输出的不确定性。

[0031] 用于选择所希望的声音的声道选择方法

[0032] 在ICA的输出被输出到后面的处理手段并且要执行某种处理的情况下，必须确定与原始声源对应的分离结果的声音已被输出到哪个声道。例如，在作为后面的处理手段执行语音识别处理的情况下，必须确定要识别的语音已被输出到哪个声道。在ICA中，例如，当存在N个麦克风时，进行N个声道的输入并输出N个声道的分离结果。然而，设置了各种数量的声源。在声源的数量小于输入声道的数量的情况下，获得与声源对应的输出声道(声源声道)和观测到不与任何声源对应的声音(诸如回响)的输出声道(回响声道)作为观测信息。

[0033] 当考虑组合了ICA和语音识别的处理时，可按下面的方式对

[0034] ICA的输出声道进行分类。

[0035] (1)与实际声源对应的声源声道

[0036] (2)不与声源对应的回响声道

[0037] 另外，(1)声源声道可以如下分类。

[0038] (1-1)语音的声道

[0039] (1-1-1)讲话(utterance)声道(任务内讲话)，其中包含假定要由语音识别系统输入的内容

[0040] (1-1-2)讲话声道(任务外讲话)，其中包含假定不由语音识别系统输入的内容[0041] (1-2)除语音之外的声道(包括，例如，包含不会输入到该系统的人们之间的聊天)。

[0042] 对于在ICA的声源分离结果的基础上执行语音识别的系统，重要的是：在上述分类之中识别包含认为是语音识别系统的输入的内容的(1-1-1)讲话声道(任务内讲话)的语音。

[0043] 用于选择与这种希望的声源对应的声道的方法的例子包括下述方法。

[0044] (a)基于功率(音量)的大小进行选择

[0045] 这是一种基于各声道输出的功率的值确定声道是所希望的声源声道还是回响声道以选择具有最大功率的声道的方法。

[0046] (b)估计声源方向，并选择与装置的前方最接近的声源方向

[0047] 这是一种这样的方法：执行ICA，同时还估计声音到达方向，并且选择输出与装置的前方最接近的声源的声道作为所希望的声音的声道。

[0048] (c)基于语音/非语音判别以及与过去数据的比较进行选择

[0049] 这是一种这样的方法：例如，确定各声道的声音是否是人的语音信号，并且把存储的过去的频率特征量与已确定为人的语音信号声道的声道进行比较，由此确定特定人的语音。例如，日本未审专利申请公报No.2007-279517中公开了这种方法。

[0050] 现有技术的系统中问题的总结

[0051] 例如，在组合了基于图1中示出的ICA的声源分离处理和语音识别处理的系统中，问题在于存在上述的ICA输出的不确定性并且必须确定如何从由ICA产生的多个声道中选择所希望的语音。

[0052] 如下整理并列出现有技术的系统中的问题。

[0053] (A)在声道选择之后应用语音识别的问题

[0054] (A1)在仅选择一个声道的情况下，当发出多个声音时，存在选择除所希望的声音之外的声音的可能性。

[0055] (A2)在选择多个声道的情况下，获得多个语音识别结果，并且必须再一次选择语音识别结果。

[0056] (B)现有技术的声道选择的方法的问题

[0057] 将给出现有技术的上述方法的三个问题。

[0058] (a)基于功率的大小的声道选择方法的问题

[0059] 如果仅基于功率的大小选择声道，则存在错误地选择除语音之外的声源的可能性。例如，可以区分声源声道和回响声道，但无法区分语音和非语音。

[0060] (b)估计声源方向并选择与前方最接近的声源方向的方法的问题[0061] 所希望的语音未必从前方到达。

[0062] (c)基于语音/非语音判别和与过去数据进行比较的组合进行选择的方法的问题[0063] 在语音/非语音判别中，无法进行如下程度的确定：内容是由语音识别系统假定的任务的讲话内容。可以区分语音信号和其它信号，但无法区分任务内讲话和任务外讲话。如上所述，现有技术的声道选择方法具有各种问题。

发明内容

[0064] 希望提供一种通过使用独立分量分析(ICA)以各声源信号为单位执行分离处理并且执行所希望的声音的语音识别处理的语音识别装置、用于该语音识别装置的语音识别方法和用于该语音识别装置的程序。

[0065] 根据本发明的实施例，提供了一种语音识别装置，包括：声源分离单元，被配置为把多个声源的输出的混合信号分离成与各声源对应的信号并产生多个声道的分离信号；语音识别单元，被配置为输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生与各声道对应的语音识别结果，并产生用作关于与各声道对应的语音识别结果的评价信息的附加信息；和声道选择单元，被配置为输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算与各声道对应的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

[0066] 在根据本发明的语音识别装置的实施例中，语音识别单元可计算语音识别结果的识别置信度作为所述附加信息，并且声道选择单元可通过应用所述识别置信度计算与各声道对应的语音识别结果的得分。

[0067] 在根据本发明的语音识别装置的实施例中，语音识别单元可计算指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度，作为所述附加信息，并且声道选择单元可通过应用所述任务内讲话程度计算与各声道对应的语音识别结果的得分。

[0068] 在根据本发明的语音识别装置的实施例中，声道选择单元可应用语音识别结果的识别置信度和指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度中的至少一个作为得分计算数据，并可通过组合语音功率和声源方向信息中的至少一个来计算得分。

[0069] 在根据本发明的语音识别装置的实施例中，所述语音识别单元可包括多个语音识别单元，语音识别单元的数量等于由声源分离单元产生的多个声道的分离信号的声道数量，并且所述多个语音识别单元可接收由声源分离单元产生的与所述多个声道对应的分离信号，并且可并行地执行语音识别处理。

[0070] 根据本发明的另一实施例，提供了一种在语音识别装置中执行的语音识别方法，包括下述步骤：通过使用声源分离单元把多个声源的输出的混合信号分离成对应声源的信号并产生多个声道的分离信号；通过使用语音识别单元输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生所述多个对应声道的语音识别结果，并产生用作关于对应声道的语音识别结果的评价信息的附加信息；以及通过使用声道选择单元输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算对应声道的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

[0071] 根据本发明的另一实施例，提供了一种使语音识别装置执行语音识别处理的程序，所述语音识别处理包括下述步骤：通过使用声源分离单元把多个声源的输出的混合信号分离成对应声源的信号并产生多个声道的分离信号；通过使用语音识别单元输入由声源分离单元产生的所述多个声道的分离信号，执行语音识别处理，产生所述多个对应声道的语音识别结果，并产生用作关于对应声道的语音识别结果的评价信息的附加信息；以及通过使用声道选择单元输入所述语音识别结果和所述附加信息，通过应用所述附加信息计算对应声道的语音识别结果的得分，选择并输出具有高得分的语音识别结果。

[0072] 根据本发明实施例的程序是能够使用以计算机可读格式提供的存储介质提供的程序或者能够通过到例如能够执行各种程序代码的信息处理装置和计算机系统的通信介质提供的程序。通过以计算机可读格式提供这种程序，在信息处理装置或计算机系统中实现与该程序对应的处理。

[0073] 通过下面对本发明实施例和附图的详细描述，本发明的另外的目的、特征和有益效果将变得清楚。要注意的是，本说明书中的系统指的是多个装置的逻辑组件并且不限于具有各结构的装置被包含于单一壳体中的组件。

[0074] 根据本发明实施例的结构，通过执行把独立分量分析(ICA)应用于由混合了多个声源的输出的混合信号形成的观测信号的处理，产生分离信号，并且执行各分离信号的语音识别处理。另外，产生用作语音识别结果的评价信息的附加信息。作为附加信息，计算语音识别结果的识别置信度和指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度。通过应用这些附加信息，计算与各声道对应的语音识别结果的得分，并且选择和输出具有高得分的识别结果。采用这些处理，实现了对来自多个声源的混合信号的声源分离和语音识别，能够更可靠地获得需要的识别结果。

附图说明

[0075] 图1示出从N个声源发出不同声音并且使用N个麦克风观测这些声音的情况；

[0076] 图2示出组合了基于典型独立分量分析(ICA)的声源分离处理和语音识别单元的系统的例子；

[0077] 图3示出根据本发明实施例的语音识别装置的总体结构和处理的概要；

[0078] 图4示出声源分离单元202的详细结构和处理的具体例子；

[0079] 图5示出对应于声道设置的语音识别单元203-1至203-N中的一个语音识别单元的结构；

[0080] 图6示出声道选择单元204的详细结构和处理的具体例子；

[0081] 图7是示出由根据本发明实施例的语音识别装置执行的处理的总体流程的流程图；

[0082] 图8是示出在图7示出的流程的步骤S103中的语音识别处理的细节的流程图；以及

[0083] 图9是示出在图7示出的流程的步骤S104中的声道选择处理的细节的流程图。

具体实施方式

[0084] 以下将参照附图说明根据本发明实施例的语音识别装置、语音识别方法和程序的细节。将根据下面的项进行说明。

[0085] 1、根据本发明实施例的语音识别装置的总体结构的例子和处理的概述[0086] 2、声源分离单元的详细结构和处理的具体例子

[0087] 3、语音识别单元的详细结构和处理的具体例子

[0088] 4、声道选择单元的详细结构和处理的具体例子

[0089] 5、由语音识别装置执行的处理的序列

[0090] 1、语音识别装置的总体结构的例子和处理的概述

[0091] 首先，将参照图3描述根据本发明实施例的语音识别装置的总体结构和处理的概述。根据本发明实施例的语音识别装置是如下装置，其输入由多个声源输出的声音的混合信号，执行声源分离，并使用声源分离结果执行语音识别处理。图3示出根据本发明实施例的语音识别装置200的结构的例子。

[0092] 使用多个麦克风201-1至201-N收集声音，并把与由麦克风201-1至201-N获得的声音信号对应的输入波形发送给声源分离单元202。声源分离单元202通过应用例如独立分量分析(ICA)，执行把多个声源的混合声音分离成与各声源对应的各个声源的处理。对于这个分离处理，例如，产生并输出与各声源对应的语音的分离波形。结合这个声源分离处理，声源分离单元202执行估计与各分离波形对应的声音到达的声源方向的处理。

[0093] 通过执行由声源分离单元202执行的基于独立分量分析(ICA)的分离处理，产生与输入的数量(N)对应的N个分离波形。这里，分离波形的数量(N)设置为声道的数量。声源分离单元202产生声道1至声道N这N个声道的分离波形。然而，声源的数量不必等于N。存在这样的情况：N个声道中的一些声道输出与特定声源对应的语音分离波形，其它声道仅输出噪声。

[0094] 由声源分离单元202产生的与各声源对应的多个分离波形被分别输出到声道选择单元204，并且还被输入到针对对应分离波形设置的语音识别单元203-1至203-N。另外，由声源分离单元202产生的与各声源对应的多项声源方向信息被分别输出到声道选择单元204。

[0095] 语音识别单元203-1至203-N中的每个对从声源分离单元202输出的相应分离波形执行语音识别处理。语音识别单元203-1至203-N中的每个把语音识别结果与作为附加信息的识别结果的置信度和关于讲话是否是任务内讲话的程度(任务内讲话程度)一起输出到声道选择单元204。

[0096] “任务内讲话程度”是关于讲话是否是由语音识别装置200假定的任务的讲话的程度。更具体地讲，例如，在包括语音识别装置200的设备是电视的情况下，当在语音识别结果中包含针对电视的操作请求(例如，改变音量的请求或改变频道的请求)时，讲话是任务内讲话的可能性高，并且输出任务内讲话程度被设置为高的信息。对于这个确定处理，使用保持在语音识别装置200的存储器中的统计语言模型。统计语言模型是预先设置了关于各单词是否是与任务相关的单词的指标值的数据。

[0097] 声道选择单元204输入来自声源分离单元202的与每个声源对应的分离波形，并且还输入来自语音识别单元203-1至203-N中的每个的下述信息：

[0098] 与各分离波形对应的语音识别结果，

[0099] 附加信息(识别结果的置信度和任务内讲话程度)。

[0100] 通过应用这些输入信息，声道选择单元204选择并输出包含所希望的声音的声道的语音识别结果。

[0101] 在控制单元(图3中未示出)的控制下执行图3中示出的各组成单元的处理。控制单元由CPU等构成，执行存储在存储单元(未示出)中的程序，并控制图3中示出的各组成单元的处理。将参照图4和随后的附图描述图3中示出的各组成单元的详细结构和要执行的处理的具体例子。

[0102] 2、声源分离单元的详细结构和处理的具体例子

[0103] 首先，将参照图4描述声源分离单元202的详细结构和处理的具体例子。如图4中所示，声源分离单元202包括：A/D转换单元301、短时傅立叶变换(FT)单元302、信号分离单元303、逆傅立叶变换(FT)单元304、D/A转换单元305和声源方向估计单元306。

[0104] 来自麦克风201-1至201-N的各个输入波形在A/D转换单元301中被转换成数字观测信号并被输入到短时傅立叶变换(FT)单元302。

[0105] 短时傅立叶变换(FT)单元302对已转换成数字信号的输入信号执行短时傅立叶变换(FT)处理，以把其转换成声谱图并把该声谱图输入到信号分离单元303。通过短时傅立叶变换(FT)获得的各观测信号的声谱图是前述的式[2.1]的信号，即X(ω，t)。

[0106] 信号分离单元303接收由短时傅立叶变换(FT)单元302产生的各观测信号的声谱图，并执行上述的独立分量分析(ICA)以产生分离结果Y。这个分离结果变为与N个声道对应的N个分离结果。这个分离结果被输入到逆傅立叶变换(FT)单元304。

[0107] 逆傅立叶变换(FT)单元304对与各个声源信号对应的声谱图执行逆傅立叶变换处理以把声谱图转换成时域的信号，并产生估计与各声源对应的声源分离信号。产生所述分离信号作为声道的数量的信号，即N个信号。

[0108] 这N个分离信号被输入到D/A转换单元305，通过D/A转换单元305通过D/A转换把这些信号转换成作为模拟信号的N个分离波形。这N个分离波形被分别输出到与声道1至N对应的语音识别单元203-1至203-N和声道选择单元204。

[0109] 声源方向估计单元306通过使用信号分离单元303中的一些估计结果，估计各独立信号到达的方向。该估计信息也是与相应N个声道对应的N项声源方向信息。由声源方向估计单元306产生的这N项声源方向信息被输出到声道选择单元204。

[0110] 3、语音识别单元的详细结构和处理的具体例子

[0111] 接下来，将参照图5描述语音识别单元203-1至203-N的详细结构和处理的具体例子。图5示出按照与各声道对应的方式设置的语音识别单元203-1至203-N之中的一个语音识别单元。N个语音识别单元203-1至203-N中的每个具有图5中示出的结构。

[0112] 如图5中所示，语音识别单元203包括：A/D转换单元401、特征提取单元402、语音识别处理单元403和附加信息计算单元407。附加信息计算单元407包括识别置信度计算单元408和任务内讲话程度计算单元409。另外，语音识别单元203存储有声学模型404、任务内统计语言模型405和任务外统计语言模型406，以便执行使用三个模型的数据的处理。

[0113] 图5中示出的语音识别单元203的输入是与由声源分离单元202分离的N个声道之中的一个声道k(k＝1至N)对应的一个分离波形。语音识别单元203-1至203-N中的每个输入声道k(k＝1至N)的分离波形，并且语音识别单元203-1至203-N基于各声道的分离波形并行执行语音识别处理。

[0114] 如上所述，在语音识别单元203-1至203-N中，并行执行对N个声道的N个分离波形的处理。将参照图5描述对与一个声道对应的分离波形的处理。

[0115] 首先，与一个声道对应的分离波形被输入到A/D转换单元401。A/D转换单元401把作为模拟信号的分离波形转换成数字观测信号。该数字观测信号被输入到特征提取单元402。

[0116] 特征提取单元402从A/D转换单元401接收数字观测信号，并从数字观测信号提取用于语音识别的特征。可根据现有的语音识别算法执行特征提取处理。提取的特征被输入到语音识别处理单元403。

[0117] 语音识别处理单元403使用从特征提取单元402输入的特征执行语音识别处理。语音识别处理单元403执行多个识别处理，在这多个识别处理中，除了声学模型404之外，还应用不同的语言模型，即，使用任务内统计语言模型405的语音识别处理和使用任务外统计语言模型406的语音识别处理。

[0118] 例如，把任务内统计语言模型405中登记的单词与作为语音识别处理的结果而获得的单词进行比较，以选择匹配的单词并获得识别结果。计算与匹配程度对应的得分。另外，把任务外统计语言模型406中登记的单词与作为执行语音识别处理的结果而获得的单词进行比较，以选择匹配的单词并获得识别结果。另外，计算与匹配程度对应的得分。从使用这些不同模型的多个识别结果之中选择具有最高识别得分的结果并输出该结果作为语音识别结果。对于任务内统计语言模型405和任务外统计语言模型406，能够使用多种不同的模型。

[0119] 由语音识别处理单元403产生的语音识别结果被输出到声道选择单元204，还被输出到语音识别单元203中的附加信息计算单元407。输出到附加信息计算单元407的信息还包含上述得分信息。

[0120] 附加信息计算单元407包括识别置信度计算单元408和任务内讲话程度计算单元409。识别置信度计算单元408计算由语音识别处理单元403产生的语音识别结果的识别置信度。通过使用例如使得识别的单词的序列的有效性预先存储在存储器中的评价基准数据，来评价语音识别结果的识别置信度。更具体地，通过应用日本未审专利申请公报No.2005-275348中公开的结构可以计算识别置信度。

[0121] 任务内讲话程度计算单元409计算由语音识别处理单元403产生的语音识别结果的任务内讲话程度。如前所述，任务内讲话程度是关于讲话是否是由语音识别装置200假定的任务的讲话的程度。更具体地，例如，在包括语音识别装置200的设备是电视的情况下，当在由语音识别处理单元403产生的语音识别结果中包含的单词是操作电视的请求(例如，改变音量的请求或改变频道的请求)的单词时，讲话是任务内讲话的可能性高，并且任务内讲话程度增加。当在语音识别结果中包含许多与这种任务不相关的单词时，任务内讲话程度设置为低。

[0122] 作为具体处理，使用由上述语音识别处理单元403获得的得分的处理使得可以计算任务内讲话程度。也就是说，把与作为语音识别处理的结果获得的单词和任务内统计语言模型405的登记单词之间的匹配程度匹配的第一得分和与作为语音识别处理的结果获得的单词和任务外统计语言模型406的登记单词之间的匹配程度匹配的第二得分进行比较。当第一得分高于第二得分时，任务内讲话程度设置为高，当第二得分高于第一得分时，任务内讲话程度设置为低。

[0123] 附加信息计算单元407把由识别置信度计算单元408计算的识别置信度和由任务内讲话程度计算单元409计算的任务内讲话程度作为与语音识别结果对应的附加信息输出到声道选择单元204。

[0124] 4、声道选择单元的详细结构和处理的具体例子

[0125] 接下来，将参照图6描述声道选择单元204的详细结构和处理的具体例子。如图6中所示，声道选择单元204包括：声道得分计算单元501-1至501-N和选择声道确定单元
502。

[0126] 按照与声道1至N对应的方式设置声道得分计算单元501-1至501-N。声道得分计算单元501-1至501-N中的每个接收下述信息作为声道对应信息：来自语音识别单元203的语音识别结果和附加信息(识别置信度和任务内讲话程度)以及来自声源分离单元202的分离波形和声源方向信息。

[0127] 通过使用这些声道对应信息，声道得分计算单元501-1至501-N计算各声道的语音识别结果的得分。例如，如下设置：

[0128] 识别置信度＝p，

[0129] 任务内讲话程度＝q，

[0130] 分离波形的功率＝r。

[0131] 关于识别置信度＝p，置信度越高，p的值越大。关于任务内讲话程度＝q，任务内讲话程度的可能性越高，q的值越大。关于分离波形的功率，功率(音量)越大，r的值设置得越大。

[0132] 在这种情况下，声道k的得分Sk计算为Sk＝ap+bq+cr，其中a、b和c是预设的系数(权重系数)。

[0133] 另外，考虑声源方向。作为评价值(声源方向越接近装置的前方，评价值就变得越高)，可以使用声源方向评价值＝h，从而得分Sk可计算为Sk＝ap+bq+cr+dh，其中a、b、c和d是预设的系数(权重系数)。

[0134] 在声道得分计算单元501-1至501-N中计算与声道对应的这些得分Sk(k＝1至N)，并且这些得分Sk(k＝1至N)被输入到选择声道确定单元502。

[0135] 选择声道确定单元502接收分别从声道得分计算单元501-1至501-N输入的与N个声道对应的得分S1至SN，执行比较这些得分的处理，选择具有高得分的声道的语音识别结果，并输出该语音识别结果作为识别结果。

[0136] 选择声道确定单元502从具有高得分的声道的识别结果之中输出M个预设的识别结果。输出的数量M能够由用户在外部设置。

[0137] 选择声道确定单元502输出得分较高的M个声道的识别结果作为选择的识别结果。根据使用形式设置选择声道数量M的值。例如，当用户数量是1时，认为同时仅一个讲话输入，因此M＝1。当存在多人同时输入讲话的可能时，设置大于1的值。

[0138] 5、由语音识别装置执行的处理的序列

[0139] 接下来，将参照图7和随后附图的流程图描述由根据本发明实施例的语音识别装置执行的处理的序列。

[0140] 图7中示出的流程图示出由根据本发明实施例的语音识别装置执行的处理的总体流程。

[0141] 图8是示出在图7示出的流程中的步骤S103的语音识别处理的细节的流程图。

[0142] 图9是示出在图7示出的流程中的步骤S104的声道选择处理的细节的流程图。

[0143] 如前所述，根据图7至图9中示出的流程图的处理在由CPU等构成的控制单元的控制下执行。控制单元执行存储在存储单元中的程序，由此适当地把命令等输出到参照图3至图5描述的各组成单元以执行处理控制。因此，执行根据图7至图9中示出的流程图的处理。

[0144] 首先，以下将参照图7中示出的流程图描述由根据本发明实施例的语音识别装置执行的处理的总体流程。将对应于图3的框图描述每个处理步骤的处理。

[0145] 在步骤S101中，执行麦克风201-1至201-N的声音输入处理。使用布置在各位置的N个麦克风收集并输入声音。如果存在N个麦克风，则获得N个声道的输入波形。

[0146] 在步骤S102中，执行声源分离处理。这是图3中示出的声源分离单元202的处理，并对应于参照图3描述的处理。如前面参照图3所述，声源分离单元202对N个声道的输入波形执行使用ICA的声源分离处理，并产生N个声道的分离波形。为了执行这个处理，可获得关于与各声道的分离波形对应的声源方向的信息。

[0147] 随后的步骤S103的处理是语音识别处理。这个语音识别处理是在图3示出的语音识别单元203-1至203-N中执行的处理，并对应于参照图4描述的处理。在步骤S103的语音识别处理中，产生与各声道对应的语音识别结果、用作附加信息的识别置信度和任务内讲话程度。稍后将参照图8的流程图描述步骤S103的语音识别处理的细节。

[0148] 随后的步骤S104的处理是声道选择处理。这个声道选择处理是在图3示出的声道选择单元204中执行的处理，并对应于参照图6描述的处理。在步骤S104的声道选择处理中，在语音识别处理的结果、附加信息等的基础上计算声道对应得分，并且通过优先考虑具有高得分的结果来选择识别结果。稍后将参照图9的流程图描述步骤S104的声道选择处理的细节。

[0149] 随后的步骤S105的处理是识别结果输出处理。这个识别结果输出处理也是在图3示出的声道选择单元204中执行的处理，并对应于参照图6描述的处理。在步骤S105的识别结果输出处理中，对应于输出的预设数量(M)，按照已在步骤S104中计算出的声道对应得分的升序输出M个语音识别结果。

[0150] 接下来，将参照图8示出的流程图描述图7的流程图中的步骤S103的语音识别处理的详细序列。这个语音识别处理是在图3示出的语音识别单元203-1至203-N中执行的处理，并对应于参照图5描述的处理。

[0151] 这里，将描述声道1至N之中声道k中的处理(语音识别单元203-k的处理)。由于在语音识别处理中在声道之间不存在依赖关系，所以能够顺序处理各语音识别，也能够并行执行各语音识别。

[0152] 在步骤S201中，接收作为声源分离单元202的分离处理结果的输出声道k的数据。在步骤S202中，执行特征提取处理。这个特征提取处理是图5示出的特征提取单元402的处理。特征提取单元402从观测信号提取用于语音识别的特征。

[0153] 接下来，在随后的步骤S203中，执行语音识别处理。这个语音识别处理是图5示出的语音识别处理单元403的处理。如前所述，语音识别处理单元403执行多个识别处理，在这多个识别处理中，除了声学模型404之外，还应用不同的语言模型，即，使用任务内统计语言模型405的语音识别处理和使用任务外统计语言模型406的语音识别处理。

[0154] 接下来，在步骤S204中，执行置信度计算处理。这个置信度计算处理是由图5示出的附加信息计算单元407的识别置信度计算单元408执行的处理。

[0155] 识别置信度计算单元408计算由语音识别处理单元403产生的语音识别结果的识别置信度。例如，识别置信度计算单元408通过使用识别的单词的序列的有效性预先存储在存储器中的评价基准数据来计算识别置信度。

[0156] 接下来，在步骤S205中，执行任务内讲话程度计算处理。任务内讲话程度计算处理是由图5示出的附加信息计算单元407的任务内讲话程度计算单元409执行的处理。

[0157] 任务内讲话程度计算单元409计算由语音识别处理单元403产生的语音识别结果的任务内讲话程度。在由语音识别处理单元403产生的语音识别结果中包含的单词包含很多与任务相关的单词的情况下，讲话是任务内讲话的可能性高，并且任务内讲话程度增加。在语音识别结果中包含的单词包含很多不与这种任务相关的单词的情况下，任务内讲话程度设置为低。

[0158] 根据图8示出的流程图，语音识别单元203产生语音识别结果和附加信息(识别置信度和任务内讲话程度)作为声道对应数据，并把该数据提供给声道选择单元204。

[0159] 接下来，将参照图9示出的流程图描述图7的流程图中的步骤S104的声道选择处理的详细序列。声道选择处理是在图3示出的声道选择单元204中执行的处理，并对应于参照图6描述的处理。

[0160] 在步骤S301中，执行初始化输出列表的处理。输出列表是按照得分的升序排列声道1至N的识别结果的列表。根据这个输出列表，图6中示出的选择声道确定单元502基于高得分的识别结果选择并输出预定输出数量M的识别结果。在步骤S301中，执行输出列表初始化处理，即把列表重置。

[0161] 随后的步骤S302至S304的处理是对应于声道k＝1至N的数据重复执行的循环处理。在步骤S303中，计算与声道k对应的得分。例如，如前所述，通过设置识别置信度＝p、任务内讲话程度＝q以及分离波形的功率＝r并且通过把声道k的得分Sk设置为Sk＝ap+bq+cr(其中a、b和c是预设的系数(权重系数))，执行得分的计算。作为另一选择，还考虑声源方向，通过使用声源方向评价值＝h，得分Sk计算为Sk＝ap+bq+cr+dh。通过执行这个处理，计算声道k的得分。

[0162] 在步骤S302至S304中，计算与对应于N个声道1至N的语音识别结果对应的N个得分S1至SN。

[0163] 最后，在步骤S305中，从得分较高的声道中选择与预先指定的输出数量(M)对应的数量的识别结果并输出。这个处理是图6中示出的选择声道确定单元502的处理。

[0164] 选择声道确定单元502接收从声道得分计算单元501-1至501-N输入的与N个声道分别对应的得分S1至SN，执行比较这些得分以选择具有高得分的声道的语音识别结果的处理，并输出该语音识别结果作为识别结果。

[0165] 如前所述，在根据本发明实施例的语音识别装置中，通过把语音识别应用于ICA的声源分离的各输出声道，基于该结果选择与所希望的声音对应的声道。附加了关于语音识别结果的置信度的信息和关于讲话是否是由语音识别装置假定的任务中的讲话的信息，并且在该附加信息的基础上执行声道选择。因此，可以解决ICA输出声道选择错误的问题。

[0166] 由根据本发明实施例的语音识别装置执行的处理所提供的优点的例子包括下述优点。

[0167] (a)通过使用语音识别的置信度，解决了错误选择除所希望的语音的声道之外的声道的问题。

[0168] (b)在不使用关于声源方向的信息的设置中，可以进行不依赖于所希望的语音到达的方向的声道选择。

[0169] (c)通过使用关于内容是否是任务内讲话内容的信息，可以舍弃不被认为是语音识别系统的输入的干扰声音。

[0170] 如上所述，参照特定实施例详细描述了本发明。然而，不言自明的是，在不脱离本发明的精神和范围的情况下，本领域技术人员能够对实施例进行修改和替换。以示例性实施例的形式公开了本发明，但本发明不应该被解释为局限于这里阐述的实施例。为了确定本发明的要旨，应该考虑权利要求。

[0171] 要注意的是，说明书中描述的一系列处理能够通过硬件、软件或二者的组合执行。在通过软件执行这一系列处理的情况下，记录处理序列的程序可以安装到专用硬件中所包括的计算机中的存储器中并被执行。作为另一选择，可以把程序安装到能够执行各种处理的通用计算机上并执行。例如，可以把程序预先记录在记录介质上。要注意的是，除了从记录介质把程序安装到计算机外，还可以经由网络(例如，局域网(LAN)或互联网)把程序安装到记录介质(诸如，内部硬盘)上。

[0172] 要注意的是，本说明书中描述的各种处理不一定按照描述的次序顺序地执行，而是可以可以根据执行这些处理的设备的处理性能或需要并行执行或者单独执行。另外，本说明书中的系统指的是多个装置的逻辑组件并且不限于具有各结构的装置被包含于单一壳体中的组件。

[0173] 如上所述，根据本发明实施例的结构，通过执行把独立分量分析(ICA)应用于由混合了多个声源的输出的混合信号形成的观测信号的处理，产生分离信号，并且执行每个分离信号的语音识别处理。另外，产生用作关于语音识别结果的评价信息的附加信息。计算用作附加信息的语音识别结果的识别置信度和指示语音识别结果是否是与语音识别装置中假定的任务相关的识别结果的任务内讲话程度。通过应用这些附加信息，计算与各声道对应的语音识别结果的得分，并且选择和输出具有高得分的识别结果。作为执行这些处理的结果，实现了对来自多个声源的混合信号的声源分离和语音识别，使得可以更可靠地获得需要的识别结果。

[0174] 本申请包含与2009年11月20日提交到日本专利局的日本优先权专利申请JP2009-265076中公开的主题相关的主题，通过引用将其全部内容包含于此。

[0175] 本领域技术人员应该理解，在权利要求或其等同物的范围内，根据设计要求和其它因素可以进行各种修改、组合、子组合和替换。

语音识别装置、语音识别方法和程序转让专利

申请号 : CN201010540142.9

文献号 : CN102074230B

文献日 : 2012-09-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朝川智 , 广江厚夫 , 小川浩明 , 本田等 , 泽田务

申请人 : 索尼公司

摘要 :

权利要求 :

说明书 :