用于产生包括音素数据和解码的字的注释数据的方法和设备转让专利

申请号 : CN00804674.3

文献号 : CN1343337B

文献日 : 2013-03-20

相似专利: 请登录后查看

为数据库内的数据文档注释提供了一种数据结构。该注释数据包括音素和字格，它使得能够响应于用户的输入询问而对数据库内的数据文档进行迅速而有效的搜索。该注释数据的结构使得该输入询问能够通过语音进行，并可被用于对各种数据文档进行注释，如声频数据文档、视频数据文档、多媒体数据文档等。该注释数据可从数据文档本身产生，或由用户通过语音输入或键入输入而输入。

1.一种用于产生注释数据的设备，该注释数据用于对包括声频数据的数据文档进行注释，所述设备包括：自动语音识别装置，用于为该数据文档中的声频数据产生音素数据；

字解码装置，用于识别自动语音识别装置产生的音素数据内的可能的字；以及音素和字注释装置，用于通过结合所产生的音素数据和解码的字产生注释数据；

其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格，并且其中所述音素和字注释装置包括：(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置；

(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置；以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。

2.一种用于产生注释数据的设备，该注释数据用于对包括文本数据的一个数据文档进行注释，该设备包括：一个文本至音素转换装置，用于为该数据文档中的文本数据产生音素数据；

音素和字注释装置，用于通过结合音素数据和文本数据中的字而产生注释数据；

3.一种用于产生注释数据的设备，该注释数据用于注释一个数据文档，该设备包括：输入装置，用于接收一个输入语音信号；

语音识别装置，用于把输入语音信号转换成音素数据和字；

音素和字注释装置，用于通过结合该音素数据和字而产生注释数据；

4.一种用于产生注释数据的设备，该注释数据用于注释一个数据文档，该设备包括：输入装置，用于接收来自用户的键入输入；

转换装置，用于把键入的输入中的字转换成音素数据；

音素和字注释装置，用于通过结合音素数据和键入输入中的字而产生注释数据；

5.一种用于产生注释数据的设备，该注释数据用于对一个数据文档进行注释，该设备包括：用于接收代表文本的图象数据的装置；

字符识别装置，用于把所述图象数据转换成文本数据；

转换装置，用于把文本数据中的字转换成音素数据；

音素和字注释装置，用于通过结合该音素数据和文本数据中的字而产生注释数据；

6.根据权利要求1至5中任一项的设备，其中所述音素和字格与一个时序信号相联系，并且其中所述音素和字注释装置可被操作以用于产生所述音素和字格，以便使：(i)使注释数据的块的位置与给定的时间点相联系的所述时间索引与该时序信号相同步；以及(ii)音素和字格的每个块都包括相关时间索引，所述时间索引用于识别该时序信号内的块的定时。

7.根据权利要求6的设备，其中所述音素和字注释装置可被操作以用于产生所述节点数据，每个节点代表相关时序信号内、字和/或音素开始或结束时的时间点，并且其中每个节点包括定义该时间点的时间偏移量，其中该时间点由相对于与相应块相联系的所述时间索引的节点来表示。

8.根据权利要求1至5中任一项的设备，其中所述音素和字注释装置可被操作以用于产生具有相等的持续时间的块的形式的所述音素和字格数据。

9.根据权利要求1至5中任一项的设备，其中所述数据文档包括声频和/或视频信号。

10.根据权利要求1的设备，其中所述声频数据包括定义了多个讲话者的语音的声频数据，且其中所述音素和字注释装置用于产生为各个讲话者的语音定义了单独的音素和字格的数据。

11.根据权利要求2的设备，其中所述文本数据定义了多个讲话者的语音，且其中所述音素和字注释装置用于产生为各个讲话者的语音定义了单独的音素和字格的数据。

12.根据权利要求1的设备，其中所述自动语音识别装置可被操作以用于产生定义了用于该音素数据中的音素的权重的数据，且其中所述音素和字注释装置可被操作以便在所述音素和字格中包括所述权重。

13.根据权利要求1的设备，其中所述字解码装置可被操作以用于产生这样的数据，该数据定义了用于所述音素数据内识别的字的权重，且其中所述音素和字注释装置可被操作以便在所述音素和字格中包括所述权重。

14.根据权利要求1至5中任一项的设备，其中所述用于产生用于定义多个节点和多个链接的数据的装置用于定义至少一个节点，该至少一个节点通过多个链接而连接到多个其他节点。

15.根据权利要求14的设备，其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系，且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。

16.根据权利要求3或4的设备，进一步包括用于把所述注释数据与所述数据文档相联系的装置。

17.根据权利要求4的设备，其中所述转换装置包括一个自动语音抄写单元，该单元从键入的输入内的字产生所述音素数据。

18.根据权利要求5的设备，其中所述转换装置包括一个自动语音抄写单元，该单元从所述字符识别装置输出的文本数据内的字产生所述音素数据。

19.根据权利要求5的设备，进一步包括用于把所述注释数据与代表所述文本的所述图象数据或所述文本数据相联系的装置。

20.根据权利要求5的设备，其中所述接收装置包括一个文件扫描仪或一个传真机。

21.一种用于产生注释数据的方法，该注释数据被用于对包括声频数据的一个数据文档进行注释，该方法包括以下步骤：利用一种自动语音识别装置以为该数据文档中的声频数据产生音素数据；

利用一个字解码装置识别自动语音识别装置产生的音素数据内的可能的字；

通过结合所产生的音素数据和解码的字而产生注释数据；

其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格，且其中所述产生注释数据的步骤包括以下步骤：(i)产生这样的数据，该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接；

(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据；以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。

22.一种用于产生注释数据的方法，该注释数据被用于对包括文本数据的一个数据文档进行注释，该方法包括以下步骤：利用一个文本至音素转换装置为该数据文档中的文本数据产生音素数据；

通过结合该音素数据和文本数据中的字而产生注释数据；

(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据；以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。

23.一种用于产生注释数据的方法，该注释数据用于对一个数据文档进行注释，该方法包括以下步骤：接收一个输入语音信号；

利用一个语音识别装置对该输入语音信号进行处理以为该输入语音信号产生音素数据和字数据；

通过结合为该输入语音信号产生的字数据和音素数据而产生注释数据；

(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据；以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。

24.一种用于产生注释数据的方法，该注释数据用于对一个数据文档进行注释，该方法包括以下步骤：接收一个键入的输入；

把该键入输入中的字转换成音素数据；

通过结合该音素数据和键入输入中的字而产生注释数据；

(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据；以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。

25.一种用于产生注释数据的方法，该注释数据用于对一个数据文档进行注释，该方法包括以下步骤：接收代表文本的图象数据；

利用一个字符识别单元把所述图象数据转换成文本数据；

把该文本数据中的字转换成音素数据；

通过结合该音素数据和文本数据中的字而产生注释数据；

(ii)产生把音素数据的多个音素与相应多个链接相联系的数据；以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。

26.根据权利要求21至25中任一项的方法，其中所述产生注释数据的步骤产生具有相等的持续时间的块中的所述音素和字格数据。

27.根据权利要求21至25中任一项的方法，其中所述数据文档包括声频和/或视频信号。

28.根据权利要求21的方法，其中所述声频数据包括定义了多个讲话者的语音的声频数据，且其中所述产生注释数据的步骤产生这样的数据，该数据为各个讲话者的语音定义了单独的音素和字格。

29.根据权利要求22的方法，其中所述文本数据定义了多个讲话者的语音，且其中所述产生注释数据的步骤产生了这样的数据，该数据为各个讲话者的语音定义了单独的音素和字格数据。

30.根据权利要求21的方法，其中所述自动语音识别装置产生这样的数据，该数据为与所述链接相联系的音素定义了权重，且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。

31.根据权利要求21的方法，其中所述字解码装置产生这样的数据，该数据为与所述链接相联系的字定义了权重，且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。

32.根据权利要求21至25中任一项的方法，其中所述定义多个节点和多个链接的步骤定义了至少一个节点，该至少一个节点通过多个链接而连接到多个其他节点。

33.根据权利要求32的方法，其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系，且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。

34.根据权利要求23的方法，其中所述语音识别装置产生这样的数据，该数据为与所述链接相联系的该音素定义了一个权重，且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。

35.根据权利要求23的方法，其中所述语音识别装置产生这样的数据，该数据为与所述链接相联系的字定义了一个权重，且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。

36.根据权利要求23或24的方法，进一步包括把所述注释数据与所述数据文档相联系的步骤。

37.根据权利要求24的方法，其中所述转换步骤采用了一种自动语音抄写单元，该单元从键入的输入内的字产生所述音素数据。

38.根据权利要求25的方法，其中把字转换成音素的步骤采用了一种自动语音抄写单元，该单元为所述字符识别单元输出的文本数据内的字产生所述音素数据。

39.根据权利要求25的方法，进一步包括使所述注释数据与所述接收的图象数据或所述文本数据相联系的步骤。

40.根据权利要求25的方法，其中所述接收步骤采用了一种文件扫描仪或一个传真机。

用于产生包括音素数据和解码的字的注释数据的方法和设

备

技术领域

[0001] 本发明涉及对将要存储在数据库中的数据文档的注释以便利随后对这些数据文档的获取。本发明还涉及用于产生被加到数据文档上的注释数据的系统以及用于在数据库
中搜索该注释数据以响应于用户输入的询问获取所希望的数据文档的系统。

背景技术

[0002] 信息数据库是众所周知的，并存在着如何迅速而有效地定位和从数据库获取所希望的信息的问题。已有的数据库搜索工具使用户能够利用键入的关键字来搜索数据库。虽
然这是迅速而有效的，但这种搜索不适合于各种的数据库，诸如视频或声频数据库。

发明内容

[0003] 根据一个方面，本发明的目的是提供一种数据结构，它使得能够进行数据库内的数据文档注释，从而能够响应于用户输入的询问而迅速而有效地进行搜索。

[0004] 根据一个方面，本发明提供了这样的数据，即该数据定义了一种音素和字格(word lattice)，该音素和字格被用作一种注释数据以用于注释将要存储在一个数据库中的数据文档。优选地，该数据定义了该字格中的多个节点和连接该字格中的这些节点的多个链接，且进一步的数据把多个音素与相应的多个链接相联系，且进一步的数据把至少一个字与用
至少一个所述链接相联系。

[0005] 根据另一个方面，本发明提供了响应于一个用户的一个输入询问而搜索包括上述注释数据的一个数据库的一种方法。该方法优选地包括以下步骤：产生与用户的输入询问
对应的音素数据和字数据；利用与用户的询问相应的字数据对数据库进行搜索；响应于该
字搜索的结果而选择数据库中定义音素和字格的数据部分以进行进一步的搜索；利用与用
户的输入询问相应的所述音素数据搜索数据库的所述选定部分；以及，输出搜索结果。

[0006] 根据该方面，本发明还提供了一种设备，用于对采用上述注释的数据库进行搜索以对其中的数据文档进行注释。该设备优选地包括：装置，用于产生与用户的输入询问对应的音素数据和字数据；装置，用于利用与用户的询问相应的字数据对数据库进行搜索，从而识别数据库中的类似的字；装置，用于响应于该字搜索的结果而选择数据库中的数据的一
部分以进行进一步的搜索；装置，用于利用与用户的输入询问相应的所述音素数据来搜索
所述选定部分；以及，装置，用于输出搜索结果。

[0007] 用于一种数据文档的该音素和注释数据可以从该数据文档自己产生，或者是从用户键入或讲出的注释输入产生。

附图说明

[0008] 现在结合附图描述本发明的示例性的实施例。在附图中：

[0009] 图1是得到编程以实施本发明的一个实施例的一个计算机的示意图；

[0010] 图2是框图，显示了用于产生用于附在一个数据文档上的音素和字注释数据的音素和字注释器单元；

[0011] 图3是框图，显示了该音素和字注释器能够从输入的视频数据文档产生注释数据的一种方式；

[0012] 图4a是用于来自该输入视频数据文档的一个示例性声频串的一个音素格的一个示意图；

[0013] 图4b是体现本发明的一个方面的一种字和音素格的示意图，它用于来自输入视频数据文档的一个示例性声频串；

[0014] 图5是使用户能够通过语音询问而从数据库获取信息的用户终端的示意框图；

[0015] 图6a是流程图，显示了图5中显示的用户终端的流程控制的一部分；

[0016] 图6b是流程图，显示了图5显示的用户终端的流程控制的其余部分；

[0017] 图7是流程图，显示了构成该用户终端的一部分的一个搜索引擎在该数据库内执行一种音素搜索的方式；

[0018] 图8是示意图，显示了一个音素串和从该音素串产生的四个M-GRAM的形式；

[0019] 图9是两个矢量和这两个矢量之间的夹角的图示；

[0020] 图10是诸如来自两个讲话者的声频串的一对字和音素格的一个示意图；

[0021] 图11是示意框图，显示了一种用户终端，它使得能够用从用户的一个声频信号输入产生的注释数据对一个数据文档进行注释；

[0022] 图12是音素和字格注释数据的示意图，该音素和字格注释数据是为例如用户的语音输入而产生的，用于对一个数据文档进行注释；

[0023] 图13是示意框图，显示了一个用户终端，该使得能够用从一个用户的键入的输入产生的注释数据对一个数据文档进行注释；

[0024] 图14是音素和字格注释数据的一个示意图，该注释数据是为用户的键入输入产生的以对一个数据文档进行注释；

[0025] 图15是显示一种文件注释系统的形式的示意框图；

[0026] 图16是一种替换文件注释系统的示意框图；

[0027] 图17是另一文件注释系统的一个示意框图；

[0028] 图18是一示意框图，显示了一种用户终端，该用户终端用于响应于用户的一个输入语音经过一个数据网络对位于一个远程服务器上的一个数据库进行访问；

[0029] 图19是一种用户终端的示意框图，该用户终端使得用户能够响应于用户的输入语音而对位于一个远程服务器上的一个数据库进行访问；

[0030] 图20是一种用户终端的示意框图，该用户终端使得用户能够通过键入的输入询问而对一个数据库进行访问；

[0031] 图21是一个示意框图，它显示了其中可从包含在一个视频数据文档中的手稿数据产生一种音素和字格的方式；

具体实施方式

[0032] 本发明的实施例可以用专用的硬件电路实施，但所要描述的实施例是用计算机软件或编码实施的，该软件或编码与诸如个人计算机、工作站、复印机、传真机、PDA(个人数字助手)等的处理硬件相结合而运行。

[0033] 图1显示了一个个人计算机(PC)，它得到编程以运行本发明的一个实施例。一个键盘3、一个指向装置5、一个麦克风7和一个电话线9通过一个接口11而与PC1相连。键
盘3和指向装置5使该系统能够受到一个用户的控制。麦克风7把来自该用户的语音信号
转换成相应的电信号并把这些电信号提供给PC1以进行处理。一个内部调制解调器和语音
接收电路(未显示)与电话线9相连，从而使PC1能够与例如一个远程计算机或一个远程
用户进行通信。

[0034] 使PC1能够按照本发明进行工作的程序指令，可以在例如诸如磁盘13的存储装置上提供，或者是经过内部调制解调器和电话线9而从因特网(未显示)下载该软件，以由已
有的PC1进行使用。

[0035] 数据文档注释

[0036] 图2是框图，显示了在此实施例中由一个音素和字注释单元25产生用于一个输入数据文档23的注释数据21的方式。如所示，所产生的音素和字注释数据21随后在数据结
合单元27中被与数据文档23相结合，且从其输出的结合的数据文档被输入到数据库29。
在此实施例中，注释数据21包括一个结合的音素(或音素型的)和字格，该音素和字格使
得用户能够通过语音询问而从该数据库获取信息。如本领域的技术人员所能够理解的，数
据文档23可以是任何种类的数据文档，诸如视频文档、声频文档、多媒体文档等。

[0037] 已经提出了一种系统，用于通过使来自一个视频数据文档的声频数据通过一个自动语音识别单元而为一个声频流产生作为注释数据的N最佳字清单。然而，这样的基于字
的系统有若干个问题。这些问题包括：(i)现有技术的语音识别系统在识别中仍然产生基
本的错误；(ii)现有技术的自动语音识别系统采用了也许20000至100000个字的字典且
不能产生该词汇之外的字；以及，(iii)N最佳清单的产生随着各级的假说的数目成指数地
增大，因而导致对于长的语句注释数据变得不可接受地大。

[0038] 如果相同的自动语音识别系统被用于产生注释数据和随后获取相应的数据文档，这些问题中的第一个也许不那样严重，因为会发生相同的解码错误。然而，随着自动语音识别系统的逐年发展，在将来也许不会发生相同类型的错误，从而导致不能在将来获取相应
的数据文档。至于第二个问题，它在视频数据应用的情况下是特别严重的，因为用户可能使用名称和地点(这些可能不在语音识别字典中)作为输入询问项。在没有这些名称时，自
动语音识别系统普通会用词汇表中发音类似的字或词来代替该词汇表中没有的字，从而经
常使相邻的解码变得恶化。这还导致了随后的请求时对所需数据文档的获取发生失败。

[0039] 对比之下，借助所提出的音素和字格注释数据，利用数据库29中的字数据的迅速而有效的搜索能够得到进行，且如果这未能提供所需的数据文档，则可进行利用更为全面
的音素数据的搜索。音素和字格是一个非循环地指向的曲线图，它有一个单个的进入点和
一个单个的退出点。

[0040] 它代表了数据文档内的声频流的不同的分析。它不只是带有交替的字序列，因为各个字不需要以单个的替换进行代替，一个字可以可以取代两或多个字或音素，且整个结
构可以形成对一或多个字或音素的替代。因此，音素和字格内的数据的密度在整个声频数
据上基本上是保持线性的，而不是象在上述N最佳技术中那样指数地增大。如本领域的技
术人员能够理解的，音素数据的采用是更为全面的，因为音素不依赖于字典并使得系统能
够应付词汇表之外的字，诸如名称、地点、外来词等。音素数据的采用还使系统能够应付将来的发展，因为它使得被置于数据库中的数据文档即使在字不被原来的自动语音识别系统
所理解的情况下也能够得到获取。

[0041] 现在结合图3描述为一个视频数据文档产生这种音素和字格注释数据的方式。如所示，视频数据文档31包括定义了形成视频序列的图象序列的视频数据31-1和定义了与
该视频序列相联系的声频的声频数据31-2。如众所周知的，声频数据31-2是与视频数据
31-1时间同步的，因而在使用中视频和声频数据同时被提供给用户。

[0042] 如图3中所示，在此实施例中，声频数据31-2被输入到一个自动语音识别单元33，后者用于产生与声频数据31-2的流程相应的音素格。这样的自动语音识别单元33是现有技术中可获得的，因而不再作进一步的详细描述。关于这种语音识别系统的进一步的信
息，读者可以参见例如LawrenceRabiner和Biing-HwangJuang所著的书“Fundamentals of Speech Recognition”，特别是其42-50页。

[0043] 图4a显示了语音识别单元33为与短语“...tell me about Jason...”而输入的相应声频而输出的音素格数据的形式。如所示，自动语音识别单元33识别与这种输入声频
语音相应的若干不同的可能的音素串。例如，该语音识别系统考虑在该声频串中的第一个
音素是“t”或“d”。如语音识别领域中众所周知的，这些不同的可能性可具有它们的权重，这些权重是由语音识别单元33产生的并表示了语音识别单元的输出的信心。例如，音素
“t”可以被给予0.9的权，且音素“d”可以被给予0.1的权，表明该语音识别系统比较确信相应的声频部分表示了音素“t”，但它仍然有可能是音素“d”。然而，在此实施例中，不进行音素的这种加权。

[0044] 如图3所示，由自动语音识别单元33输出的音素格数据35被输入到一个字解码器37，字解码器37用于识别音素格数据35中的可能的字。在此实施例中，字解码器37识
别的字被包含在该音素格数据结构中。例如，对于图4a所示的音素格，字解码器37识别出
字“tell”、“dell”、“term”、“me”、“a”、“boat”、“about”、“chase”、“sun”。如图4b所示，这些识别的字被加到语音识别单元33输出的音素格数据结构中，以产生形成注释数据31-3
的音素和字格数据结构。这种注释数据31-3随后被与视频数据文档31相结合，以产生一
种增广的视频数据文档31’-它随后被存储在数据库29中。如本领域的技术人员所能够
理解的，以其中声频数据31-2与视频数据31-1时间同步的方式类似的一种方式，注释数据
31-3也与相应的视频数据31-1和声频数据31-2时间同步和相关，从而能够通过搜索和定
位注释数据31-3的相应的部分而获取视频和声频数据的所希望的部分。

[0045] 在此实施例中，存储在数据库29中的注释数据31-3具有以下的一般形式：

[0046] 头

[0047] -开始时间

[0048] -标记是否字是否音素是否混合

[0049] -使存储器内的注释数据的块的位置与给定的时间点相关的时间索引

[0050] -所用的字组(即字典)

[0051] -所用的音素

[0052] -词汇表涉及的语言

[0053] 块(i)i＝0，1，2，......

[0054] 节点Nj j＝0，1，2，......

[0055] -节点从块开始的时间偏移

[0056] -音素象(k)k＝0，1，2，......

[0057] 至节点Nj的偏移＝Nk-Nj(Nk是链接K所延伸到的节点)或如果Nk处于块(i+1)中至节点Nj的偏移＝Nk+Nb-Nj(其中Nb是块(i)中的节点的数目)

[0058] 与链接(k)相关的音素

[0059] -字链接(l)l＝0，1，2，......

[0060] 至节点Nj的偏移＝Ni-Nj(Nj是链接l所延伸至的节点)或者如果Nk处于块(i+1)中至节点Nj的偏移Nj＝Nk+Nb-Nj(其中Nb是块(i)中的节点的数目)

[0061] 与链接(l)相关的字

[0062] 该头部中的开始数据的时间能够标明数据的发送时间和日期。例如，如果视频文档是一个新闻广播，则开始时间可包括广播的准确时间和它被广播的日期。

[0063] 标明注释数据是否字注释数据、音素注释数据或者它是否被混合的标记未被提供，因为不是数据库的所有数据文档都将包括上述的结合的音素和字格注释数据，且在此
情况下不同的搜索策略将被用来搜索这种注释数据。

[0064] 在此实施例中，该注释数据被分成块，以使搜索对于一个给定的声频数据流能够跳到注释数据的中间。因而该头部包括了一个时间索引-它把存储器内的注释数据的块的
位置与开始时间与同该块的开始相应的时间之间的一个给定时间偏移相联系。

[0065] 该头部还包括定义采用的字组(即字典)的数据、所采用的音素组、以及词汇表所涉及的语言。该头部还可包括用于产生该注释数据的自动语音识别系统的细节及在产生注
释数据期间采用的其所有适当的设定。

[0066] 注释数据的块随后按照该头部，并对于块中的各个节点标明从块的开始的节点的时间偏移、通过音素把该节点与其他节点相连接的音素链接和通过字把该节点与其他节点
相连接的字链接。各个音素链接和字链接标明了与该链接相关的音素或字。它们还标明了
与当前节点的偏移。例如，如果节点NZzz50通过一个音素链接而被链接至节点NZzz55，则
至节点NZzz的偏移是5。如本领域的技术人员所能够理解的，利用诸如这样的偏移表示将
使得能够把连续注释数据分割成分离的块。

[0067] 在其中一个自动语音识别单元输出表示对语音识别单元的输出的信心的权的一个实施例中，这些权或信心评分将被包括在该数据结构中。具体地，将为各个节点提供一个信心评分，它表示了到达该节点的信心，且这些音素和字链接每一个都将包括取决于给予
相应的音素或字的权的一个瞬态评分。这些权随后将通过放弃具有低的信心评分的那些匹
配而被用于控制数据文档的搜索和获取。

[0068] 数据文档获取

[0069] 图5是框图，显示了一个用户终端59的形式，它可被用来从数据库29获取注释的数据文档。这种用户终端59可以是例如一个个人计算机、手持装置等。如所示，在此实施
例中，用户终端59包括注释数据文档的数据库29、一个自动语音识别单元51、一个搜索引
擎58、一个控制单元55和一个显示器57。在操作中，自动语音识别单元51对经过麦克风7
和输入线路61接收的来自用户39的一个输入语音询问进行处理，并从其产生相应的音素
和字数据。这种数据还可具有音素和字格的形式，但这不是必需的。这种音素和字数据随
后被输入到控制单元55，控制单元55利用搜索引擎53启动对数据库29的适当搜索。搜索
引擎58产生的搜索结果随后被发送回到控制单元55，而控制单元55对搜索结果进行分析
并产生和振动显示器57向用户显示适当的显示数据。

[0070] 图6a和6b是流程图，显示了在此实施例中用户终端59的操作方式。在步骤s1，用户终端59处于一种闲置状态且等候来自用户39的一个输入询问。在接收到一个输入询
问时，用于该输入询问的音素和字数据在步骤s3由自动语音识别单元51产生。在步骤s5，
控制单元55命令搜索引擎53利用为该输入询问产生的字数据在数据库29中进行搜索。在
此实施例中采用的字搜索与在现有技术中为键入的关键字搜索采用的相同，且将不在此进
行详细描述。如果在步骤s7，控制单元55从搜索结果识别出已经找到了对用户的输入询问
的匹配，则它经显示器57把搜索结果输出给用户。

[0071] 在此实施例中，用户终端59随后使用户能够考虑该搜索结果并等候用户对该结果是否对应于用户所需的信息的确认。如果它们是，则处理从步骤s11进行到处理的结束，且用户终端59返回到其闲置状态并等候下一个输入询问。然而，如果用户表明(例如通过
输入一个适当的语音命令)该搜索结果不与所希望的信息对应，则处理从步骤s11进行到
步骤s13，在那里搜索引擎53进行数据库29的一个音素搜索。然而，在此实施例中，在步骤s13进行的音素搜索不是对整个数据库29的，因为这将需要几个小时-取决于数据库29的
大小。

[0072] 相反地，在步骤s13进行的音素搜索采用了在步骤s5进行的字搜索的结果，以标明数据库内可能与用户的输入询问相应的一或更多部分。在此实施例中在步骤s13进行的
音素搜索的方式将在以下得到更详细的描述。在音素搜索已经被进行的情况下，控制单元
55在步骤s15标明是否已经找到了一个匹配。如果已经找到了一个匹配，则处理进行到步
骤s17，在那里控制单元55使搜索结果在显示器57上被显示给用户。同样地，系统随后等
候用户对该搜索结果是否对应于所希望的信息的确认。如果该结果正确，则处理从步骤s19进行到结束，且用户终端59返回到闲置状态并等候下一个输入询问。然而，如果用户表明
该搜索结果不对应于所希望的信息，则处理从步骤s19进行到步骤s21，在那里控制单元55
经过显示器57询问用户是否在整个数据库29上进行音素搜索。如果用户响应于该询问表
示要进行这样的搜索，则处理进行到步骤s23，在那里搜索引擎进行整个数据库29的音素
搜索。

[0073] 在这种搜索完成时，控制单元55在步骤s25标明是否已经找到了与用户的输入询问的匹配。如果找到了匹配，则处理进行到步骤s27，在那里控制单元55使搜索结果在显示器57上被显示给用户。如果该搜索结果正确，则处理从步骤s29进行到处理的结束，且用
户终端59返回到其闲置状态并等候下一个输入询问。另一方面，如果用户表明该搜索结果
仍然不对应于所希望的信息，则处理进行到步骤s31，在那里控制单元55通过显示器57询
问用户是否希望重新定义或修改搜索询问。如果用户希望重新定义或修改搜索询问，则处
理返回到步骤s3，在那里用户的随后的输入询问以类似的方式得到处理。如果该搜索不被
重新定义或修改，则该搜索结果和用户的初始输入询问被放弃，且用户终端59返回到其闲
置状态并等候下一个输入询问。

[0074] 音素搜索

[0075] 如上所述，在步骤s13和s23，搜索引擎53把输入询问的音素数据与存储在数据库29中的音素和字格注释数据中的音素数据进行比较。为了进行这种比较，可以
采用各种技术，包括诸如动态编程的标准模式匹配技术。在此实施例中，采用了被称为
M-GRAMS的一种技术。这种技术是由Ng，K.和Zue，V.W.提出的，并在例如在proceedings
0f Eurospeech1997中发表的题目为“Subward unit representations for spoken
documentretrieval”的论文中得到了讨论。

[0076] 为各个音素进行搜索的问题，是数据库内的各个音素将会出现多次。因此，各个音素自己并不提供足够的可鉴别性，以使输入询问的音素串能够与数据库内的音素串相匹
配。然而，音节大小的单位可能提供更大的可鉴别性，虽然它们不容易识别。

[0077] M-GRAM技术在这两种可能性之间提供了一个适当的平衡，并取出音素串的重叠的固定大小的碎块或M-GRAM，来提供一组特征。这在图8中得到了显示，该图显示了具有音
素a、b、c、d、e和f的一个输入音素串的部分，这些音素被分到四个M-GRAM(a，b，c)、(b，c，d)、(c，d，e)和(d，e，f)中。在本说明中，四个M-GRAM每一个都包括了三个音素的一个序列，该序列是唯一的并代表了可在该输入音素串中找到的一个唯一的特征(fZzi)。

[0078] 因此，参见图7，在进行图6中的步骤s13中的音素搜索中的第一个步骤s51，是识别在该输入音素数据中的所有不同的M-GRAM和它们的出现频率。随后，在步骤s53，搜索引擎53确定选定的数据库部分中的识别的M-GRAM(从图6中的步骤s5进行的字搜索识别)
的出现频率。为了说明这点，对于数据库的一个给定部分和对于图8所示的示例性M-GRAM，这给出了以下的信息表：

[0079]

[0080] 随后，在步骤s55，搜索引擎53计算一个类似度评分，该评分代表了输入询问的音素串与来自数据库的选定部分的音素串之间的类似度。在此实施例中，这种类似评分，利用采用作为矢量的输入询问中识别的M-GRAM的出现频率与在数据库的该选定部分中的出
现频率之间的余弦量度，而得到确定。这种技术的原理是，如果输入的音素串与数据库音
素串的选定部分类似，则M-GRAM特征的出现频率对于这两种音素串将是类似的。因此，如
果M-GRAM的出现频率被认为是矢量(即考虑上述表中的作为矢量的第二和第三列)，则如
果在输入音素串与数据库的选定部分之间有一种类似度，则这些矢量之间的夹角应该比较
小。这在图9中对于两维矢量a和q得到了显示，其中矢量之间的角用θ表示。在图8所
示的例子中，矢量a和q将是四维矢量且类似度评分将用下式计算：

[0081] 评分＝cosθ＝a·q/(|a| |q|) (1)

[0082] 随后使该评分与数据库的当前选定部分相关并存储该评分至搜索结束。在某些应用中，余弦量度的计算中采用的矢量将是这些出现频率的对数，而不是出现频率本身。

[0083] 该处理随后进行到步骤s57，在那里搜索引擎53确定是否有来自数据库29的音素串的任何更多的选定部分。如果有，则处理返回到步骤s53，在那里进行一种类似处理以识别对于数据库的该部分的评分。如果没有更多的选定部分，则搜索结束且处理返回到图
6所示的步骤s15，在那里控制单元考虑搜索引擎53产生的评分并通过例如把计算出的评
分与一个预定阈值进行比较而判定是否有一个匹配。

[0084] 如本领域的技术人员能够理解的，在图6所示的步骤s23将进行一个类似匹配操作。然而，由于整个数据库都被搜索，这种搜索是通过依次搜索上述块中的每一个而进行
的。

[0085] 替换实施例

[0086] 如本领域的技术人员能够理解的，数据库的数据文档的这种语音和字注释提供了一种方便而强有力的方式，使用户能够借助语音对数据库进行搜索。在所示的实施例中，一个单个的声频数据流得到了注释并被存储在数据库中以供用户随后进行检索。如本领域的
技术人员能够理解的，当输入的数据文档对应于一个视频数据文档时，该数据文档内的声
频数据普通包括不同讲话者的声频数据。不是为声频数据产生单个的注释数据流，可以为
各个讲话者的声频数据产生单独的音素和字格注释数据。这可通过从音节(pitch)或从语
音信号的其他区分特征来识别与各个讲话者对应的声频数据并随后通过对不同的讲话者
的声频分别进行注释，而而实现。如果声频数据是以立体声记录的，或者如果在产生该声频数据时采用了麦克风阵列，则这也可得到实现，因为此时可以对该声频数据进行处理以提
取各个讲话者的数据。

[0087] 图10显示了在这样一个实施例中的注释数据的形式，其中一个第一讲话者说出了“......this so”且第二个讲话者回答了“yes”。如所示，用于不同的讲话者的声频数据的注释数据是彼此时间同步的，因而该注释数据对于数据文档内的视频和声频数据仍然是
时间同步的。在这样一个实施例中，数据结构中的头部信息优选地应该包括注释数据内的
不同的讲话者的一个清单，且对于每一个讲话者，定义讲话者的语言、口音、方言和语音组的数据，以及各个块，应该标明块中活跃的那些讲话者。

[0088] 在上述实施例中，采用了一种语音识别系统来产生对数据库中的一个数据文档进行注释的注释数据。如本领域的技术人员能够理解的，其他的技术可以被用来产生这种注
释数据。例如，一个操作员能够收听声频数据并产生一个语音和字抄本，从而手动地生成该注释数据。

[0089] 在上述实施例中，注释数据是从存储在数据文档本身的声频产生的。如本领域的技术人员能够理解的，其他的技术可被用来输入该注释数据。

[0090] 图11显示了使一个用户能够经过麦克风7输入语音注释数据以对将要存储在数据库29中的数据文档91进行注释的用户终端59。在此实施例中，数据文档91包括由例
如一个摄象机产生的两维图象。用户终端59使用户39能够用适当的注释对该两维图象进
行注释，该注释随后可被用于从数据库29获取该两维图象。在此实施例中，输入的语音注
释信号被自动语音识别单元51转换成音素和字格注释数据，该注释数据被传送到控制单
元55。响应于用户的输入，控制单元55从数据库29检索适当的两维文档并把音素和字注
释数据附在数据文档91上。这种增广的数据文档随后被送回到数据库29。在此注释步骤
中，控制单元55用于在显示器57上显示该两维图象，从而使用户能够保证该注释数据与正
确的数据文档91相关。

[0091] 自动语音识别单元51通过(i)为输入的讲话产生一个音素格；(ii)随后识别音素格内的字；以及，(iii)结合这两者，而产生音素和字格注释数据。图12显示了为输入的讲话“picture of theTaj-Mahal”产生的音素和字格注释数据的形式。如所示，该自动语音识别单元识别与该输入讲话对应的若干不同的可能的音素串。如图12所示，自动语音识
别单元51在音素格内识别的这些字被包含在音素格数据结构中。如所示，对于该示例性的
短语，自动语音识别单元51识别字“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”。控制单元55随后把这种注释数据加到2D图象数据文档91上，且该数据文档91随后被存储在一个数据库29中。

[0092] 如本领域的技术人员能够理解的，该实施例可被用于注释任何种类的图象，诸如患者的X光图象、例如NMR扫描的3D图象、超声波扫描图象等。它还可被用于注释一维数
据，诸如声频数据或地震数据。

[0093] 在上述实施例，从一种语音注释对一个数据文档进行了注释。如本领域的技术人员能够理解的，其他的技术可被用来输入该注释。例如，图13显示了一种用户终端59的形
式，它使得一个用户能够经过键盘3输入键入的注释数据，以对将要存储在一个数据库29
中的数据文档91进行注释。在此实施例中，键入输入通过语音抄本(transcription)单元
75而被转换成音素和字格注释数据(利用一个内部语音字典(未显示))，该注释数据被传
送到控制单元55。响应于用户的输入，控制单元55从数据库29获取适当的2D文档并把该
音素和字注释数据附在数据文档91上。该增广的数据文档随后被送回到数据库29。在此
注释步骤期间，控制单元55把该2D图象显示在显示器57上，从而使用户能够保证注释数
据与正确的数据文档91相联系。

[0094] 图14显示了为输入的讲话“picture of theTaj-Mahal”产生的音素和字格注释数据的形式。如图2所示，该音素和字格是一种非循环指向的曲线图，带有单个的进入点和单个的退出点。它代表了用户的输入的不同的分析。如所示，语音抄本单元75识别出了与
键入输入对应的若干不同的可能的音素串。

[0095] 图15是显示一种文件注释系统的的框图。具体地，如图15所示，一个文本文件101被一个文件扫描仪103转换成一个图象数据文档。该图象数据文档随后被传送到一个光学字符识别(OCR)单元105，该单元105把文件101的图象数据转换成电子文本。这种电子文
本随后被提供给一个语音抄本单元107，该单元107产生音素和字注释数据109，该注释数
据109随后被附在扫描仪103输出的图象数据上以形成一个数据文档111。如所示，数据文
档111随后被存储在数据库29中以便随后获取。在此实施例中，注释数据109包括结合的
上述音素和字格，它使得用户随后能够通过语音询问而从数据库29获取数据文档111。

[0096] 图16显示了对图15所示的文件注释系统的一种修正。图16所示的系统与图15所示的系统的不同，在于光学字符识别单元105的输出，而不是扫描仪103输出的图象数
据，被用来产生数据文档113。图16所示的系统的其余部分与图15所示的相同且将不作进
一步的描述。

[0097] 图17显示了对图15所示的文件注释系统的一种进一步的修正。在图17所示的实施例中，输入的文件被一个传真单元115而不是一个扫描仪103所示接收。该传真单元
所输出的图象数据随后以与图15所示的扫描仪103输出的图象数据相同的方式得到处理，
且将不再描述。

[0098] 在上述实施例中，语音抄本单元107被用于产生注释数据以对图象或文本数据进行注释。如本领域的技术人员能够理解的，其他技术可得到采用。例如，一个操作者能够从文件的图象本身手动地产生这种注释数据。

[0099] 在上述实施例中，数据库29和自动语音识别单元都位于用户终端59内。如本领域的技术人员能够理解的，这不是必需的。图18显示了一个实施例，其中数据库29和搜索
引擎53位于一个远程服务器60上，且其中用户终端59经过网络接口单元67和69以及一
个数据网络68(诸如因特网)对数据库29中的数据文档进行访问和控制。在操作中，用户
经麦克风7输入一个语音询问，该语音询问被自动语音识别单元51转换成音素和字数据。
这种数据随后被传送到控制单元，该控制单元控制这种音素和字数据在数据网络68上至
位于远程服务器60中的搜索引擎53的传送。搜索引擎53随后根据接收的音素和字数据
进行该搜索，或者根据接收的音素和字数据来控制对该数据文档的操作(例如控制一个视
频文档的播放、前送或倒回)。从数据库29获取的数据或与该搜索有关的其他数据随后经
数据网络68被传送回到控制单元55，而控制单元55控制适当的数据在显示器57上的显
示以被用户39所观看。以此方式，可以获取和控制远程服务器60中的数据文档，而不用使
用服务器上的重要的计算机资源(因为是用户终端59把输入的语音转换成了音素和字数
据)。

[0100] 除了定位远程服务器60中的搜索引擎53和数据库29之外，还可以定位远程服务器60中的自动语音识别单元51。图19中显示了这样的一个实施例。如在此实施例中所
示，来自用户的输入语音询问经输入线路61被传送到一个语音编码单元73，该编码单元对
语音进行编码以通过数据网络68进行充分的传送。编码的数据随后被传送到控制单元55，
控制单元55把该数据经网络68发送到远程服务器60，在远程服务器60该数据受到自动语
音识别单元51的处理。由语音识别单元51为该输入询问产生的产生的音素和字数据随后
被传送到搜索引擎53，以用于搜索和控制数据库29中的数据文档。搜索引擎53获取的适
当的数据随后经网络接口69和网络68被传送回到用户终端59。从远程服务器接收回来的
这种数据经网络接口单元67被传送到控制单元55，而控制单元55在显示器57上产生并显
示适当的数据以被用户所观看。

[0101] 在上述实施例中，用户通过语音输入他的询问。图20显示了一种替换实施例，其中用户经过键盘3输入询问。如所示，经键盘3的文本输入被传送到语音抄本单元75，该
单元75用于从输入的文本产生相应的音素串。这种音素串与经过键盘3输入的字一起随
后被传送到控制单元55，而控制单元55利用搜索引擎53起始对数据库的搜索。搜索进行
的方式与在第一实施例中的相同，因而不再进行描述。如同上述其他实施例，语音抄本单元
75、搜索引擎53和/或数据库29可都位于一个远程服务器中。

[0102] 在第一实施例中，来自数据文档23的声频数据通过一个自动语音识别单元而得到传送，以产生音素注释数据。在某些情况下，声频数据的一种抄本可出现在该数据文档
中。图21中显示了这样的一个实施例。在此实施例中，数据文档81代表具有视频数据81-1、声频数据81-2和定义了录相带中各个演员的行的剧本数据81-3的数字视频文档。如所示，
剧本数据81-3通过一个文本被传送到音素转换器83，转换器83利用存储的字典产生音素
格数据85，该字典把字翻译成可能的音素序列。这种音素格数据85随后与剧本数据81-3
结合，以产生上述的音素和字格注释数据81-4。这种注释数据随后被加到数据文档81上以
产生一种增广的数据文档81’，该数据文档81’随后被加到数据库29上。如本领域的技术
人员应该理解的，这种实施例便利了为视频数据文档内的不同的讲话者的单独的音素和字
格注释数据的产生，因为剧本数据普通包含谁在谈话的的表示。这种音素和字格注释数据
与视频和声频数据的同步随后能够通过利用自动语音识别系统(未显示)进行剧本数据与
声频数据的强迫时间对准而得到实现。

[0103] 在上述实施例中，音素(或音素状)和字格被用来对一个数据文档进行注释。语音识别和语音处理领域的技术人员应该理解的，本描述和权利要求书中的“音素”一词不限于其字面含意，而是包括了在标准语音识别系统中使用和识别的各种比字小的单元。

用于产生包括音素数据和解码的字的注释数据的方法和设备转让专利

申请号 : CN00804674.3

文献号 : CN1343337B

文献日 : 2013-03-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 贾森·彼德·安德鲁·查里斯沃斯 , 杰布·雅各布·拉詹 , 菲利普·内尔·嘎纳

申请人 : 佳能株式会社

摘要 :

权利要求 :

说明书 :

用于产生包括音素数据和解码的字的注释数据的方法和设

技术领域

背景技术

发明内容

附图说明

具体实施方式