声音识别服务器综合装置以及声音识别服务器综合方法转让专利

申请号 : CN201380018950.0

文献号 : CN104221078B

文献日 : 2016-11-02

提供以最佳形式对通用声音识别服务器的声音识别结果和专用声音识别服务器的声音识别结果进行综合从而最终错误较少的声音识别功能。使用包含在用户辞典数拥中的语句来构建专用的声音识别服务器(108)，并且使用这些数拥来事前评价通用的声音识别服务器(106)的性能。以该评价结果为基础，对从专用以及通用的声音识别服务器得到的识别结果，将采用哪个、对它们进行怎样的加权才能得到最佳的识别结果作为结果综合用参数(118)，以数据库的形式保持。在识别执行时，通过将专用以及通用的声音识别服务器进行识别的识别结果与结果综合用参数(118)进行比较，由此来获得最佳的识别结果。

1.一种声音识别服务器综合装置，是对用于用户使用声音来进行操作的终端装置、与识别声音数据并返回其结果的声音识别服务器之间进行中继的装置，其特征在于，所述声音识别服务器综合装置具备：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的综合方式学习部；

从所述终端装置接收用户为了声音识别而刻意发出的声音的数据的单元；

将所述接收到的声音数据发送给通用声音识别服务器以及专用声音识别服务器的单元；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音数据进行识别的识别结果的单元；

将所述通用声音识别服务器以及专用声音识别服务器进行识别的识别结果与所述保存的识别结果综合用参数进行比较来选择最佳的识别结果的识别结果综合部；

将所述选择的识别结果发送给所述终端装置的单元；

从所述终端装置接收用户所登记的语句或用户经常使用的语句的列表的单元；

以所述接收到的语句为基础来生成合成声音的声音合成部；

将所述生成的合成声音发送给所述通用声音识别服务器以及专用声音识别服务器的单元；和接收所述通用声音识别服务器以及专用声音识别服务器对所述合成声音进行识别的识别结果的单元，所述综合方式学习部将成为所述合成声音的基础的语句和所述识别结果一起进行解析，学习并保存识别结果综合用参数。

2.一种声音识别服务器综合装置，是对用于用户使用声音来进行操作的终端装置、与识别声音数据并返回其结果的声音识别服务器之间进行中继的装置，其特征在于，所述声音识别服务器综合装置具备：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的综合方式学习部；

从所述终端装置接收用户为了声音识别而刻意发出的声音的数据的单元；

将所述接收到的声音数据发送给通用声音识别服务器以及专用声音识别服务器的单元；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音数据进行识别的识别结果的单元；

将所述选择的识别结果发送给所述终端装置的单元；

从所述终端装置接收用户所登记的语句或用户经常使用的语句的列表的单元；

从所述通用声音识别服务器接收识别用语句列表的单元；和将所述识别用语句列表与从所述终端装置接收到的语句列表进行比较来估计类似度的语句比较/类似度估计部，所述综合方式学习部将所述估计的结果作为识别结果综合用参数来保存。

3.一种声音识别服务器综合装置，是用于用户使用声音来进行操作的装置，其特征在于，所述声音识别服务器综合装置具备：

基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的综合方式学习部；

将用户为了声音识别而刻意发出的声音的数据发送给通用声音识别服务器以及专用声音识别服务器的单元；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音的数据进行识别的识别结果的单元；

将所述通用声音识别服务器以及专用声音识别服务器的识别结果与所述保存的识别结果综合用参数进行比较来选择最佳的识别结果的识别结果综合部；

显示所述选择的识别结果的显示部；

存储用户所登记的语句或用户经常使用的语句的用户辞典；

以存储于所述用户辞典的语句为基础来生成合成声音的声音合成部；

4.一种声音识别服务器综合装置，是用于用户使用声音来进行操作的装置，其特征在于，所述声音识别服务器综合装置具备：

基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的综合方式学习部；

将用户为了声音识别而刻意发出的声音的数据发送给通用声音识别服务器以及专用声音识别服务器的单元；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音的数据进行识别的识别结果的单元；

将所述通用声音识别服务器以及专用声音识别服务器的识别结果与所述保存的识别结果综合用参数进行比较来选择最佳的识别结果的识别结果综合部；

显示所述选择的识别结果的显示部；

存储用户所登记的语句或用户经常使用的语句的列表的用户辞典；

从所述通用声音识别服务器接收识别用语句列表的单元；和将所述识别用语句列表与所述用户辞典的语句列表进行比较来估计类似度的语句比较/类似估计部，所述综合方式学习部将所述估计的结果作为识别结果综合用参数来保存。

5.根据权利要求1～4中任一项所述的声音识别服务器综合装置，其特征在于，所述专用声音识别服务器以用户所登记的语句或用户经常使用的语句的列表为基础来作成识别对象语句列表，从而能高精度地识别包含在该列表中的语句。

6.根据权利要求1～4中任一项所述的声音识别服务器综合装置，其特征在于，所述专用声音识别服务器作为声音专用识别部被组入到所述声音识别服务器综合装置或终端装置内。

7.根据权利要求1或3所述的声音识别服务器综合装置，其特征在于，所述识别结果综合用参数是蓄积声音识别服务器针对用户所登记的语句或用户经常使用的语句的识别结果的正确与错误的参数，所述识别结果综合部以所述专用声音识别服务器进行识别的识别结果为基础，从所述识别结果综合用参数之中取出声音识别服务器针对其单词的识别结果，并且仅取出所述取出的结果为正确这样的声音识别服务器进行识别的声音识别结果，基于所述取出的识别结果来选择最佳的识别结果。

8.根据权利要求1或3所述的声音识别服务器综合装置，其特征在于，所述识别结果综合用参数是蓄积声音识别服务器针对用户所登记的语句或用户经常使用的语句的识别结果的正确与错误、以及表征所述声音识别服务器针对各个语句的识别结果的可靠度的值的参数，所述识别结果综合部以所述专用声音识别服务器进行识别的识别结果为基础，从所述识别结果综合用参数之中取出所述声音识别服务器针对其单词的识别结果以及其可靠度，并且仅取出所述取出的识别结果为正确这样的声音识别服务器进行识别的声音识别结果以及可靠度，对所述取出的声音识别结果进行所述可靠度的加权来综合。

9.根据权利要求1或3所述的声音识别服务器综合装置，其特征在于，所述识别结果综合用参数是测定声音识别服务器针对用户所登记的语句或用户经常使用的语句的识别所花费的时间并蓄积测定值的参数，所述识别结果综合部以所述专用声音识别服务器进行识别的识别结果为基础，从所述识别结果综合用参数之中取出所述声音识别服务器针对其单词的识别所需时间，获取依赖于应用而决定的识别所需时间的容许上限值，通过取出声音识别服务器之中只是识别所需时间低于所述容许上限值的声音识别服务器的识别结果，从而以所述取出的识别结果为基础来选择最佳的识别结果。

10.根据权利要求1或3所述的声音识别服务器综合装置，其特征在于，所述识别结果综合用参数是蓄积声音识别服务器针对用户所登记的语句或用户经常使用的语句的识别结果的正确与错误、以及一个或多个误识别结果的参数，所述识别结果综合部以所述专用声音识别服务器进行识别的识别结果为基础，从所述识别结果综合用参数之中取出所述声音识别服务器针对其单词的识别结果的正确与错误以及误识别结果，在所述取出的识别结果为错误的情况下，将所述取出的误识别结果与执行时的识别结果进行比较，仅在判定为所述比较的结果为相同的情况下，将该识别结果设为有效，从而以被设为所述有效的识别结果为基础来选择最佳的识别结果。

11.一种声音识别服务器综合方法，其特征在于，具备：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的步骤；

将用户为了声音识别而刻意发出的声音的数据发送给通用声音识别服务器以及专用声音识别服务器的步骤；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音的数据进行识别的识别结果的步骤；

将通用声音识别服务器的识别结果以及专用声音识别服务器的识别结果与所述识别结果综合用参数进行比较来选择最佳的声音识别结果的步骤；

以用户所登记的语句或用户经常使用的语句为基础来生成合成声音的步骤；

将所述生成的合成声音发送给所述通用声音识别服务器以及专用声音识别服务器的步骤；和接收所述通用声音识别服务器以及专用声音识别服务器对所述合成声音进行识别的识别结果的步骤，在学习并保存识别结果综合用参数的步骤中，将成为所述合成声音的基础的语句和所述识别结果一起解析，来学习并保存识别结果综合用参数。

12.一种声音识别服务器综合方法，其特征在于，具备：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的步骤；

将用户为了声音识别而刻意发出的声音的数据发送给通用声音识别服务器以及专用声音识别服务器的步骤；

接收所述通用声音识别服务器以及专用声音识别服务器对所述声音的数据进行识别的识别结果的步骤；

将通用声音识别服务器的识别结果以及专用声音识别服务器的识别结果与所述识别结果综合用参数进行比较来选择最佳的声音识别结果的步骤；

得到用户所登记的语句或用户经常使用的语句的列表的步骤；

从所述通用声音识别服务器接收识别用语句列表的步骤；和将所述识别用语句列表与所述用户所登记的语句或用户经常使用的语句的列表比较来估计类似度的步骤，在学习并保存所述识别结果综合用参数的步骤中，将所述估计的结果作为识别结果综合用参数来保存。

声音识别服务器综合装置以及声音识别服务器综合方法

技术领域

[0001] 本发明涉及将用于用户使用声音来进行操作的终端装置、和识别声音数据并返回其结果的多个声音识别服务器相连，对由多个声音识别服务器得到的识别结果进行综合从而将最佳的声音识别结果提供给用户用的装置以及方法。

背景技术

[0002] 用于通过用户的声音来进行车载信息设备或便携电话等的操作的声音识别功能被搭载在众多的设备中。进而，近年来，通过数据通信技术的发展，将声音数据发送到服务器并利用服务器的丰富的计算资源来进行更高精度的声音识别的方式不断普及。此外，如专利文献1所示那样，为了更有效地使用这样的声音识别服务器，还提出在个人用终端与声音识别服务器之间设置中继服务器并在其中进行附加的处理的方式。

[0003] 在先技术文献

[0004] 专利文献

[0005] 专利文献1：JP特开2008-242067号公报

[0006] 专利文献2：JP特开2002-116796号公报

[0007] 专利文献3：JP特开2010-224301号公报

发明内容

[0008] 发明要解决的课题

[0009] 将声音识别服务器作为通用的服务来运营的例子增加，提供面向用户所操纵的终端的服务的主体、和运营声音识别服务器的主体不同的情况也变多。此外，在运营主体相同的情况下，也有分开进行声音识别服务器的开发和声音识别应用的开发，它们相互未被最优化的情况。在这样的状况下，有时通用的声音识别服务器总体表现出高的性能，但对特定的语句却未必表现出充分的性能。

[0010] 另一方面，在着眼于使用特定的应用的特定的用户的情况下，存在该用户的熟人的姓名或喜欢的音乐的乐曲名等虽然不普遍但重要度却高的语句。为了识别这样的语句，期望设置专用的声音识别服务器，但在专用声音识别服务器的开发中不能投入足够的成本的情况较多，在针对一般的语句的性能中要逊于通用声音识别服务器。如此，通用声音识别服务器和专用声音识别服务器因语句不同在识别上有擅长和不擅长，声音识别性能不同。因此，虽然寻求根据用户发出的语句来区分使用它们的方法，但只要所谓声音识别是“针对不知道内容的发声来估计内容的”任务，则在原理上就不能实现事前获知发声内容来区分使用服务器。

[0011] 本发明目的在于，提供以最佳形式对通用声音识别服务器的声音识别结果和专用声音识别服务器的声音识别结果进行综合从而最终错误较少的声音识别功能。

[0012] 用于解决课题的手段

[0013] 在本发明中，预先获得包含在用户所持有的终端装置中的特定单词的列表，以这些单词的数据为基础来构建专用的声音识别服务器。此外，使用这些数据来事前评价通用声音识别服务器的性能。以该评价结果为基础，以数据库的形式保持在从专用以及通用的声音识别服务器得到的识别结果之中采用哪个、对它们进行怎样的加权才能得到最佳的识别结果。在用户实际使用声音识别功能时，在由专用以及通用的声音识别服务器识别输入声音后，将由此得到的结果与先前所述的数据库的内容进行比较，由此得到最佳的声音识别结果。此外，通过作为事前评价的基准，除了使用声音识别的正确度以外还使用响应速度，能尽可能早地得到尽可能正确的声音识别结果。

[0014] 若举出本发明的声音识别服务器综合装置的一例，则有对用于用户使用声音来进行操作的终端装置、与识别声音数据并返回其结果的声音识别服务器之间进行中继的装置，其具备：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的综合方式学习部；从所述终端装置接收用户为了声音识别而刻意发出的声音的数据的单元；将所述接收到的声音数据发送给通用声音识别服务器以及专用声音识别服务器的单元；接收所述通用声音识别服务器以及专用声音识别服务器对所述声音数据进行识别的识别结果的单元；将所述通用声音识别服务器以及专用声音识别服务器进行识别的识别结果与所述保存的识别结果综合用参数进行比较来选择最佳的识别结果的识别结果综合部；和将所述选择的识别结果发送给所述终端装置的单元。

[0015] 在本发明的声音识别服务器综合装置中，可以还具备：从所述终端装置接收用户所登记的语句或用户经常使用的语句的列表的单元；以所述接收到的语句为基础来生成合成声音的声音合成部；将所述生成的合成声音发送给所述通用声音识别服务器以及专用声音识别服务器的单元；和接收所述通用声音识别服务器以及专用声音识别服务器对所述合成声音进行识别的识别结果的单元，所述综合方式学习部将成为所述合成声音的基础的语句和所述识别结果一起进行解析，学习并保存识别结果综合用参数。

[0016] 此外，在本发明的声音识别服务器综合装置中，可以还具备：从所述终端装置接收用户所登记的语句或用户经常使用的语句的列表的单元；从所述通用声音识别服务器接收识别用语句列表的单元；和将所述识别用语句列表与从所述终端装置接收到的语句列表进行比较来估计类似度的语句比较/类似度估计部，所述综合方式学习部将所述估计结果作为识别结果综合用参数来保存。

[0017] 若举出本发明的声音识别服务器综合方法的一例，则有由如下步骤构成的方法，上述步骤为：基于用户所登记的语句或用户经常使用的语句的列表来学习并保存识别结果综合用参数的步骤；将用户为了声音识别而刻意发出的声音的数据发送到通用声音识别服务器以及专用声音识别服务器的步骤；接收所述通用声音识别服务器以及专用声音识别服务器对所述声音数据进行识别的识别结果的步骤；将通用声音识别服务器的识别结果以及专用声音识别服务器的识别结果与所述识别结果综合用参数进行比较来选择最佳的声音识别结果的步骤。

[0018] 发明效果

[0019] 根据本发明，关于一般的语句，重视通用声音识别服务器的识别结果，关于用户固有的语句，重视专用声音识别服务器的结果等，以最佳的形式对各个输入进行识别结果的综合，从而最终能向用户提供错误较少的声音识别功能。此外，能实现不仅错误较少，连在响应速度的方面上便利性也高的系统。

附图说明

[0020] 图1是本发明的实施例1的声音识别服务器综合装置的构成图。

[0021] 图2是表示使用了本发明的实施例1的声音合成的结果综合用参数估计的处理的图。

[0022] 图3是表示使用了本发明的单一通用声音识别服务器的结果综合用参数的一例的图。

[0023] 图4是表示使用了本发明的多个通用声音识别服务器的结果综合用参数的一例的图。

[0024] 图5是表示本发明的实施例1的多个服务器的识别结果的综合方法的一例的图。

[0025] 图6是表示使用了本发明的多个通用声音识别服务器的识别结果可靠度的结果综合用参数的一例的图。

[0026] 图7是表示使用了本发明的多个通用声音识别服务器的识别结果可靠度和误识别结果的结果综合用参数的一例的图。

[0027] 图8是表示利用了本发明的同音不同写法的变换的识别结果的综合方法的一例的图。

[0028] 图9是表示用于实现本发明的用户终端的构成例的图。

[0029] 图10是表示本发明中的用户辞典的作成方法的一例的图。

[0030] 图11是表示本发明中的声音合成部的构成的一例的图。

[0031] 图12是表示本发明的考虑了响应时间的结果综合用参数的一例的图。

[0032] 图13是本发明的实施例2的声音识别服务器综合装置的构成图。

[0033] 图14是本发明的实施例3的声音识别服务器综合装置的构成图。

[0034] 图15是表示使用了本发明的实施例3的识别用语句列表的结果综合用参数估计的处理的图。

[0035] 图16是本发明的实施例4的声音识别服务器装置的构成图。

[0036] 图17是本发明的实施例5的声音识别服务器装置的构成图。

具体实施方式

[0037] 以下，使用附图来说明本发明的实施例。另外，在用以说明用于实施发明的形态的全部图中，对具有相同功能的要素标注相同名称、标号，并省略其重复说明。

[0038] [实施例1]

[0039] 图1是表示基于本发明的实施例1的声音识别服务器综合装置的构成例的图。声音识别功能使用用户终端102、中继服务器104、通用声音识别服务器组106、专用声音识别服务器108来提供。另外，通用声音识别服务器组106也可以是单一的通用声音识别服务器。

[0040] 用户终端102是用户个人所持有的终端装置，除了进行输入声音数据的获取以及基于声音识别结果的服务的提供以外，还保持地址簿或乐曲名列表等的用户所固有的语句列表。以下，将这些用户所固有的语句列表称作“用户辞典”。在用户辞典中保持了用户所登记的语句或用户经常使用的语句的列表。

[0041] 通用声音识别服务器组106是并未假定仅通过由本发明实现的服务来使用的、1台以上的声音识别服务器。一般内置大规模的语句列表，针对各种语言的识别性能高，但另一方面对包含在用户辞典中的一部分语句则有不能正确识别的可能性。

[0042] 专用声音识别服务器108是专门化为由本发明实现的服务的声音识别服务器，设计为识别包含在用户辞典中的语句的全部或大部分。专用声音识别服务器108被设计为在输入了未包含在用户辞典中的语句的情况下输出“无识别结果”这样的结果。专用声音识别服务器并不限于构成为服务器，也可以是专用声音识别装置，此外也可以如实施例2或实施例5那样，内置于用户终端或中继服务器中。

[0043] 中继服务器104相当于本发明的“声音识别服务器综合装置”，将用户终端102和声音识别服务器106、108相连，进行声音识别结果的综合等。与用户终端102的数据交换经由终端装置通信部110来进行。此外，与声音识别服务器106、108的数据交换经由识别服务器通信部112来进行。中继服务器104由终端装置通信部110、声音合成部114、综合方式学习部116、信号处理部120、识别结果综合部122、识别服务器通信部112等构成。

[0044] 对中继服务器104的动作进行说明。首先，在用户将用户终端102设置为能通信的状态时，用户辞典124的数据经由终端装置通信部110被发送。该数据被直接送往识别服务器通信部112，进而被送往专用声音识别服务器108。在专用声音识别服务器108中，基于被送来的用户辞典数据来进行调谐，以使得能正确识别包含于其中的语句。另一方面，由终端装置通信部110接收到的用户辞典数据也被送往声音合成部114。在此，以作为字符串而被送来的用户辞典数据为基础来制作合成声音数据。针对一个语句的合成声音数据既可以是一个，也可以是音质不同的多个。作成的合成声音数据经由识别服务器通信部112被送往通用声音识别服务器组106以及专用声音识别服务器108。在针对它们的识别结果从各服务器返回时，识别服务器通信部112将其接收，并送到综合方式学习部116。在综合方式学习部116中，成为合成声音的基础的用户辞典数据和识别结果一起解析，学习用于识别结果综合的参数。得到的参数作为结果综合用参数118来保存。在该时间点结束使用了本发明的系统的事前学习处理。

[0045] 在用户实际使用声音接口时，通过终端装置通信部110接收由用户终端102获取到的输入声音数据。接收到的数据被送往信号处理部120，被施予必要的处理。在此，所谓必要的处理例如是指从包含噪声的输入声音中去除噪声等，但并不一定必须，也可以不进行任何处理。从信号处理部120输出的数据经过识别服务器通信部112被送往通用声音识别服务器组106以及专用声音识别服务器108。从这些服务器返回的识别结果经过识别服务器通信部112被送往识别结果综合部122。在识别结果综合部122中，比较多个识别结果、和包含在结果综合用参数118中的参数，来选择最佳的识别结果。所选择的识别结果经过终端装置通信部110被送往用户终端102。在用户终端102中，以该结果为基础来提供设定导航功能的目的地、打电话、再现乐曲等的服务。

[0046] 图2是表示在图1所示的构成中直至使用用户辞典数据来作成结果综合用参数为止的处理的次序的图。首先，用户辞典数据被直接送到专用声音识别服务器。在专用声音识别服务器中，对声音识别引擎进行调谐，以便将送来的语句作为识别对象。因此，在发出未包含在用户辞典中的语句声音的数据被送来的情况下，专用声音识别服务器要么返回错误的结果，或者要么返回无法识别这样的结果。另一方面，用户辞典数据也被送往声音合成部，由此作成合成声音数据。通常针对一个语句制作一个合成声音，但在声音合成部具有能选择说话者、语速、声音的高低等这样的功能的情况下，若使它们发生变化而针对相同的语句作成多个合成声音数据，则能更加提高在后级进行的综合方式学习的性能。

[0047] 如此得到的合成声音数据被送往各通用声音识别服务器以及专用声音识别服务器。从这些服务器返回识别结果。此外，也有不仅返回识别结果，还一起返回附随在其中的可靠度得分的情况。以它们为基础，在综合方式学习部学习综合方式，将其结果保存在结果综合用参数中。

[0048] 图3是表示结果综合用参数的最简单的构成的示例的图。在该示例中，假定通用声音识别服务器仅存在1台，在该服务器中，用“○”和“×”仅保持是否正确识别用户辞典的各语句。即，该图表征了虽然在通用声音识别服务器正确地识别出了“铃木一郎”、“山田二郎”这样的语句，但除此之外却未正确地识别出。图4是使用3台通用声音识别服务器进行了同样的学习时的示例。

[0049] 在图5中示出使用图3、图4所示的结果来实际进行识别时的处理的次序。输入声音数据首先在信号处理部被进行事前处理。作为信号处理部中的处理的代表性示例，能举出专利文献1所示那样的噪声抑制处理。信号处理部中的处理的结果一般是针对一个输入声音数据得到一个声音数据，但也有能改变设定来得到多个声音数据的情况。在这样的情况下，反复执行声音数据的数量次的以下所述的处理。此外，在认为不需要信号处理部中的处理的情况下，将输入声音数据直接作为信号处理部的输出数据。

[0050] 信号处理部的输出数据被送往通用声音识别服务器以及专用声音识别服务器。它们的结果全都被送往识别结果综合部。在识别结果综合部中，首先检查专用声音识别服务器的识别结果。在专用识别服务器的识别结果为“无识别结果”的情况下，仅根据通用声音识别服务器的识别结果来决定最终的识别结果。即，在通用声音识别服务器仅有1台的情况下，直接采用其结果。在有多台的情况下，在这些识别结果之间取多数表决。在取多数表决时，若是各识别服务器赋予了可靠度得分的情况，则也能设为用其值进行了加权的多数表决。此外，还能事前估计各识别服务器的性能来设为加权的系数。关于这样的针对一般语句的多个声音识别服务器的识别结果的综合，能使用专利文献2所示那样的公知技术。

[0051] 另一方面，在作为专用声音识别服务器的识别结果而得到包含在用户辞典数据中的语句的情况下，参考图3或图4所示那样的结果综合用参数。例如，在图3的示例中，在专用声音识别服务器的识别结果为“日立太郎”的情况下，若观看结果综合用参数的相应的行，则由于获知该语句在通用声音识别服务器中应当不能识别，因此直接采用专用声音识别服务器的结果。另一方面，在专用声音识别服务器的识别结果为“铃木一郎”的情况下，若观看结果综合用参数的相应的行，则获知该语句在专用声音识别服务器中也能识别。为此，接下来检查通用声音识别服务器的识别结果。在通用声音识别服务器的识别结果也是“铃木一郎”的情况下，直接将“铃木一郎”作为最终的识别结果即可，但在否定的情况下，优先采用一般认为性能高的通用声音识别服务器的结果，或者采用通用声音识别服务器和专用声音识别服务器的识别结果之中可靠度得分高的一方作为最终识别结果。由此，在与“铃木一郎”相近的发音的语言被专用声音识别服务器误识别的情况下，也能基于通用声音识别服务器的识别结果将其丢弃。在图4的示例中也是同样的，关于“日立太郎”，无条件采用专用声音识别服务器的结果。关于“铃木一郎”，由于是3台通用声音识别服务器全都能识别的语句，因此通过这些识别结果中的多数表决、或者通过在这些识别结果的全部还加入了专用声音识别服务器的多数表决，由此来决定最终识别结果。此外，在专用声音识别服务器的识别结果为“山田二郎”的情况下，由于有能正确将其识别的可能性的通用声音识别服务器仅有1号，因此在该服务器和专用声音识别服务器之间，通过进行与图3的示例相同的处理，由此来得到最终识别结果。

[0052] 图6是与图3和图4不同的另一个结果综合用参数的实现例。在此，在某语句能在各通用声音识别服务器识别的情况下，将正确识别该语句的概率置换为权重的数值来保持。在此，正确识别的概率例如能对“铃木一郎”这样的语句进行基于各式各样改变声音合成用参数而制作的合成声音的识别，根据对这些合成声音的识别结果之中有几个是正确的来进行估计。此外，在成为通用声音识别服务器返回多个识别结果候选的做法的情况下，还能使用正解单词的平均顺位或平均可靠度得分等。通过适当的非线性变换将这些值变换成权重值的结果保持在结果综合用参数中。在该示例中，在专用声音识别服务器的识别结果为“铃木一郎”、通用服务器1的结果为“佐佐木一郎”、通用服务器2和3的结果为“铃木一郎”的情况下，“佐佐木一郎”的权重为3.0，“铃木一郎”的权重成为1.4与1.2之和、即2.6，前者更大，因此将“佐佐木一郎”作为最终识别结果。

[0053] 图7是与图3、4、6不同的另一个结果综合用参数的实现例。在此，用通用声音识别服务器识别包含在用户辞典数据中的语句，在未正确识别的情况下也将此时得到的识别结果作为结果综合用参数来保存。对各个服务器的权重进行设定的情形与图6的示例相同。在进行多次实验时，也可以仅保存出现最多的结果，或保存多个识别结果。另外，也可以无论实验的次数多少，都也一并保存2位数以下的识别结果。在识别执行时，与到此为止的示例相同，基于专用声音识别服务器的识别结果来参考结果综合用参数。此时，检查通用声音识别服务器的识别结果是否与保存在结果综合用参数中的内容一致。例如，在专用声音识别服务器的识别结果为“日立太郎”、通用服务器1的结果为“日立市”、通用服务器2的结果为“二十岁”、通用服务器3的结果为“日立”的情况下，在将通用服务器1的结果变换为“日立太郎”的基础上进行各识别结果中的多数表决，最终选择“日立太郎”。

[0054] 图8是表示利用了同音不同写法的检测的声音识别结果综合方式的示例的图。如图所示那样，在专用声音识别服务器的识别结果为“左藤一郎”的情况下，将其与通用声音识别服务器的各识别结果进行比较，检查是否包含同音不同写法。在此，对于根据写法来估计发音，若是日语，则将各个汉字的读法作为数据来保持，通过连结构成该语句的汉字的读法来获得发音写法。若是英语，则保持对部分拼法赋予读法的规则，通过依次运用这些规则来获得发音写法。在是其它语言的情况下，周知也一般能通过被称作Grapheme to Phoneme的技术来获得发音写法。此外，还有在用户辞典数据之中如汉字写法和假名写法那样包含发音信息的情况，这种情况下将其灵活运用。通过上述的检查，在包含同音不同写法的情况下，将该识别结果的写法变换成专用声音识别服务器的识别结果的写法来使用。在图的示例中，由于通用声音识别服务器1的识别结果“佐藤一郎”与专用声音识别服务器的识别结果为同音，因此将其变换为“左藤一郎”。其结果，3台通用声音识别服务器进行的多数表决的结果成为“左藤一郎”，采用其作为最终结果。

[0055] 图9是以提供汽车内的导航功能或免提通话功能等的情况为例来表示了用户终端的具体的实现形态的示例的图。在图9(a)中，将麦克风装置904、应用906、通信模块908等全部功能安装在汽车导航装置902内。在图9(b)中，将汽车导航装置902与智能手机910连结，麦克风装置904使用汽车导航装置902的，通信部908使用智能手机910的。应用912、914根据各自的功能，分散配置在汽车导航装置内和智能手机内，或者仅配置在任一单方。在图9(c)中，在智能手机910内安装全部功能。

[0056] 图10是表示了构成本发明的用户辞典124的作成方法的示例的图。例如，在用户终端102内存在地址簿1002的情况下，将包含于其中的人名登记到用户辞典。同样地，在存在音乐播放器的乐曲列表1004的情况下，将包含于其中的乐曲名和艺术家名登记到用户辞典。此外，还能将作为Web浏览器的书签1006而被登记的页面标题登记到用户辞典。除此之外，还能采用解析蓄积于用户终端内的邮件1008或短消息等的数据，将频繁出现于其中的语句登记到用户辞典这样的方式。关于这些数据，还能采用如下方式：在用户终端首次与本发明的系统连接时，将包含在用户终端中的全部用户辞典数据发送到系统，还在向地址簿或乐曲列表等追加新条目时，仅将新追加数据追加发送到系统，促使结果综合用参数的更新。这时，不仅需要更新结果综合用参数，还需要同时更新专用声音识别部的对照用辞典。

[0057] 图11是表示变更一般的声音合成部的构成，在本发明中专门化后的特殊构成的一例的图。一般而言，声音合成部114由合成声音作成部1102、和声音片段数据1106～1110构成。在此，所谓片段数据，是在将数据直接接在一起来制作合成声音的方式中所用的数据的名称，但由于在取代直接接在一起而采用通过统计处理和信号处理来合成波形的方式的情况下，也对各个音素、音节等的处理单位使用类似的数据集合，因此能运用以下所述的方式。在合成声音作成部1102中，将声音片段数据接在一起，若有需要，就进行合适的信号处理，作成标准合成声音。但是，在本发明中，由于获知各通用声音识别服务器组对用户终端的所有者即特定用户的声音有何种反应非常重要，因此期望在声音合成部作成的合成声音也与用户的声音相似。为此，用户每当使用声音识别功能，或者每当使用除此以外的声音功能或声音通话时，将该声音作为用户声音数据1112来蓄积，由声音变换部1104活用用户声音数据1112来进行从标准合成声音到适应用户声音的变换。通过将如此变换的声音输入到通用声音识别服务器组，从而能进行精度更高的性能预测，能期待结果综合用参数的值也成为合适的值。

[0058] 图12是表示除了声音识别的正确度以外还将响应速度作为评价基准的情况的结果综合用参数的示例的图。在该示例中，执行使用了与包含在用户辞典数据中的各语句对应的合成声音的识别，将该处理所花费的平均时间作为参数来保持。在该示例中，在专用声音识别服务器的识别结果为“铃木一郎”的情况下，期待在0.5秒内得到通用服务器2的识别结果，但为了得到通用服务器1的识别结果不得不等待1.5秒。在该响应时间超过在应用中假定的上限值的情况下，在得到通用服务器2的结果的时间点进行结果综合处理。由此，若假定在结果综合处理中几乎不花时间，则能在约0.5秒的响应时间内得到最终识别结果，从而能提升用户的便利性。

[0059] [实施例2]

[0060] 图13是表示了使用组入用户终端内的专用声音识别部108来实现与图1所示的示例同等的功能那样的示例的构成的图。在此，用户终端102不经由中继服务器104地使用存在于内部的专用声音识别部108来进行包含在用户辞典124中的语句的识别。使用用户辞典数据来事前进行通用声音识别服务器组106的性能评价的方法与图1的情况所示的方法相同。在识别执行时，经由中继服务器104来执行通用声音识别服务器106所进行的识别，同时也由用户终端内的专用声音识别部108执行识别。这样的并用终端内的声音识别部、和经由通信装置而连接的声音识别部的方式虽然在专利文献3中也有示出，但专利文献3记载的发明着眼于是否建立通信路径这一点来进行结果的取舍选择，与此相对，在本发明中，使用基于事前进行的声音识别的结果而求得的结果综合用参数，这一点不同。

[0061] [实施例3]

[0062] 图14是表示基于本发明的声音识别服务器综合装置的另一个构成例的图。在此，作为通用声音识别服务器组106的功能，假定能获得在其中使用的识别用语句列表的情况。在这样的条件的基础上，从用户终端102送到中继服务器104的用户辞典数据被送往语句比较/类似度估计部126。在该部中，比较从通用声音识别服务器组106获得的识别用语句列表和用户辞典数据，判定在各个服务器中是否能正确识别出包含在用户辞典124中的各语句。
判定结果被送往综合方式学习部116，将整理为参数的结果保持在结果综合用参数118中。
另一方面，将用户辞典数据直接送往专用声音识别服务器108，由专用声音识别服务器进行调谐这一点与图1所示的示例相同。

[0063] 若在这样的准备完毕的状态下从用户终端102送来输入声音数据，则与图1所示的示例相同，该数据经由信号处理部120被送往通用声音识别服务器106以及专用声音识别服务器108。从这些服务器返回的识别结果被送往识别结果综合部122，由此通过与结果综合用参数118的比较来选择最佳的识别结果。在所选择的识别结果被发送到用户终端102之后，与图1所示的示例相同。

[0064] 图15是表示在图14所示的构成中直至使用用户辞典数据来作成结果综合用参数为止的处理的次序的图。在该示例中，既不作成合成声音，也不试着使用合成声音来执行声音识别，仅从各通用声音识别服务器获取识别用语句列表。比较这些列表、和包含在用户辞典数据中的语句，将用户辞典数据的各语句包含在哪个通用声音识别服务器的语句列表中进行数据化。在此，由于只有包含在识别用语句列表中的(○)、和未包含的(×)的任一者，因此将得到的结果汇总的结果综合用参数变得与图3或图4相同。因此，进行实际识别时的使用方式也与前述的示例相同。此外，在从各通用声音识别服务器不仅能获得语句列表还能获得表征这些语句的识别容易度的语言模型时，也能作成图6那样的加权的结果综合用参数。例如，在使用代表性的语言模型的N-Gram语言模型的情况下，能考虑将uni-Gram的值设为该单词的识别容易度、或将bi-Gram、tri-Gram的最大值设为该单词的识别容易度等的方式。

[0065] [实施例4]

[0066] 图16是表示了通过将与用户之间的输入输出功能和声音识别服务器综合功能组入单一的装置中的装置来实现与图1所示的示例同等的功能那样的示例的构成的图。在此，将蓄积在声音识别服务器综合装置104的内部的包含在用户辞典124中的用户辞典数据转发给装置内的声音合成部114以及识别服务器通信部112。用户说出的声音由麦克风装置128取入，并转发给信号处理部120。使用它们的处理的进展方式与图1的示例中说明过的方式同等，作为结果，能使识别结果综合部122确定识别结果。该识别结果转发给装置内的显示部132，向用户提示。

[0067] [实施例5]

[0068] 图17是表示了以图16所示的示例为基础进一步将专用声音识别服务器所担负的功能组入到声音识别服务器综合装置的情况下的构成的图。从包含在声音识别服务器综合装置104中的麦克风装置128取入输入声音，从用户辞典124转发用户辞典数据的部分与图16的示例相同，但除此以外还在装置内组入专用声音识别部108，在直接读出用户辞典的内容的基础上识别从麦克风装置送来的声音数据。在此得到的单体识别结果被送往识别结果综合部122，与由通用声音识别服务器组106得到的识别结果进行综合。综合后的识别结果被送往存在于装置内的应用130，在此沿着各个应用的目的来灵活应用。

[0069] 产业上的可利用性

[0070] 本发明能作为介于车载终端与声音识别服务器之间用于提供高精度的声音识别功能的声音数据中继装置来利用。

[0071] 标号说明

[0072] 102 用户终端

[0073] 104 中继服务器

[0074] 106 通用声音识别服务器组

[0075] 108 专用声音识别服务器

[0076] 110 终端装置通信部

[0077] 112 识别服务器通信部

[0078] 114 声音合成部

[0079] 116 综合方式学习部

[0080] 118 结果综合用参数

[0081] 120 信号处理部

[0082] 122 识别结果综合部

[0083] 124 用户辞典

[0084] 126 语句比较/类似度估计部

[0085] 128 麦克风装置

[0086] 130 应用

[0087] 132 显示部

声音识别服务器综合装置以及声音识别服务器综合方法转让专利

申请号 : CN201380018950.0

文献号 : CN104221078B

文献日 : 2016-11-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 大渊康成 , 本间健

申请人 : 歌乐株式会社

摘要 :

权利要求 :

说明书 :