用于产生包括音素数据和解码的字的注释数据的方法和设备转让专利
申请号 : CN00804674.3
文献号 : CN1343337B
文献日 : 2013-03-20
发明人 : 贾森·彼德·安德鲁·查里斯沃斯 , 杰布·雅各布·拉詹 , 菲利普·内尔·嘎纳
申请人 : 佳能株式会社
摘要 :
权利要求 :
1.一种用于产生注释数据的设备,该注释数据用于对包括声频数据的数据文档进行注释,所述设备包括:自动语音识别装置,用于为该数据文档中的声频数据产生音素数据;
字解码装置,用于识别自动语音识别装置产生的音素数据内的可能的字;以及音素和字注释装置,用于通过结合所产生的音素数据和解码的字产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,并且其中所述音素和字注释装置包括:(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置;
(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置;以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。
2.一种用于产生注释数据的设备,该注释数据用于对包括文本数据的一个数据文档进行注释,该设备包括:一个文本至音素转换装置,用于为该数据文档中的文本数据产生音素数据;
音素和字注释装置,用于通过结合音素数据和文本数据中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,并且其中所述音素和字注释装置包括:(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置;
(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置;以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。
3.一种用于产生注释数据的设备,该注释数据用于注释一个数据文档,该设备包括:输入装置,用于接收一个输入语音信号;
语音识别装置,用于把输入语音信号转换成音素数据和字;
音素和字注释装置,用于通过结合该音素数据和字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,并且其中所述音素和字注释装置包括:(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置;
(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置;以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。
4.一种用于产生注释数据的设备,该注释数据用于注释一个数据文档,该设备包括:输入装置,用于接收来自用户的键入输入;
转换装置,用于把键入的输入中的字转换成音素数据;
音素和字注释装置,用于通过结合音素数据和键入输入中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,并且其中所述音素和字注释装置包括:(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置;
(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置;以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。
5.一种用于产生注释数据的设备,该注释数据用于对一个数据文档进行注释,该设备包括:用于接收代表文本的图象数据的装置;
字符识别装置,用于把所述图象数据转换成文本数据;
转换装置,用于把文本数据中的字转换成音素数据;
音素和字注释装置,用于通过结合该音素数据和文本数据中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,并且其中所述音素和字注释装置包括:(i)用于产生定义音素和字格内的多个节点和连接该音素和字格内的这些节点的多个链接的数据的装置;
(ii)用于产生把音素数据的多个音素与相应的多个链接相联系的数据的装置;以及(iii)用于产生把这些字中的至少一个与所述链接中的至少一个相联系的数据的装置。
6.根据权利要求1至5中任一项的设备,其中所述音素和字格与一个时序信号相联系,并且其中所述音素和字注释装置可被操作以用于产生所述音素和字格,以便使:(i)使注释数据的块的位置与给定的时间点相联系的所述时间索引与该时序信号相同步;以及(ii)音素和字格的每个块都包括相关时间索引,所述时间索引用于识别该时序信号内的块的定时。
7.根据权利要求6的设备,其中所述音素和字注释装置可被操作以用于产生所述节点数据,每个节点代表相关时序信号内、字和/或音素开始或结束时的时间点,并且其中每个节点包括定义该时间点的时间偏移量,其中该时间点由相对于与相应块相联系的所述时间索引的节点来表示。
8.根据权利要求1至5中任一项的设备,其中所述音素和字注释装置可被操作以用于产生具有相等的持续时间的块的形式的所述音素和字格数据。
9.根据权利要求1至5中任一项的设备,其中所述数据文档包括声频和/或视频信号。
10.根据权利要求1的设备,其中所述声频数据包括定义了多个讲话者的语音的声频数据,且其中所述音素和字注释装置用于产生为各个讲话者的语音定义了单独的音素和字格的数据。
11.根据权利要求2的设备,其中所述文本数据定义了多个讲话者的语音,且其中所述音素和字注释装置用于产生为各个讲话者的语音定义了单独的音素和字格的数据。
12.根据权利要求1的设备,其中所述自动语音识别装置可被操作以用于产生定义了用于该音素数据中的音素的权重的数据,且其中所述音素和字注释装置可被操作以便在所述音素和字格中包括所述权重。
13.根据权利要求1的设备,其中所述字解码装置可被操作以用于产生这样的数据,该数据定义了用于所述音素数据内识别的字的权重,且其中所述音素和字注释装置可被操作以便在所述音素和字格中包括所述权重。
14.根据权利要求1至5中任一项的设备,其中所述用于产生用于定义多个节点和多个链接的数据的装置用于定义至少一个节点,该至少一个节点通过多个链接而连接到多个其他节点。
15.根据权利要求14的设备,其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系,且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。
16.根据权利要求3或4的设备,进一步包括用于把所述注释数据与所述数据文档相联系的装置。
17.根据权利要求4的设备,其中所述转换装置包括一个自动语音抄写单元,该单元从键入的输入内的字产生所述音素数据。
18.根据权利要求5的设备,其中所述转换装置包括一个自动语音抄写单元,该单元从所述字符识别装置输出的文本数据内的字产生所述音素数据。
19.根据权利要求5的设备,进一步包括用于把所述注释数据与代表所述文本的所述图象数据或所述文本数据相联系的装置。
20.根据权利要求5的设备,其中所述接收装置包括一个文件扫描仪或一个传真机。
21.一种用于产生注释数据的方法,该注释数据被用于对包括声频数据的一个数据文档进行注释,该方法包括以下步骤:利用一种自动语音识别装置以为该数据文档中的声频数据产生音素数据;
利用一个字解码装置识别自动语音识别装置产生的音素数据内的可能的字;
通过结合所产生的音素数据和解码的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,且其中所述产生注释数据的步骤包括以下步骤:(i)产生这样的数据,该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据;以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
22.一种用于产生注释数据的方法,该注释数据被用于对包括文本数据的一个数据文档进行注释,该方法包括以下步骤:利用一个文本至音素转换装置为该数据文档中的文本数据产生音素数据;
通过结合该音素数据和文本数据中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,且其中所述产生注释数据的步骤包括以下步骤:(i)产生这样的数据,该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据;以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
23.一种用于产生注释数据的方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:接收一个输入语音信号;
利用一个语音识别装置对该输入语音信号进行处理以为该输入语音信号产生音素数据和字数据;
通过结合为该输入语音信号产生的字数据和音素数据而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,且其中所述产生注释数据的步骤包括以下步骤:(i)产生这样的数据,该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据;以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
24.一种用于产生注释数据的方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:接收一个键入的输入;
把该键入输入中的字转换成音素数据;
通过结合该音素数据和键入输入中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,且其中所述产生注释数据的步骤包括以下步骤:(i)产生这样的数据,该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应的多个链接相联系的数据;以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
25.一种用于产生注释数据的方法,该注释数据用于对一个数据文档进行注释,该方法包括以下步骤:接收代表文本的图象数据;
利用一个字符识别单元把所述图象数据转换成文本数据;
把该文本数据中的字转换成音素数据;
通过结合该音素数据和文本数据中的字而产生注释数据;
其中所述注释数据包括使注释数据的块的位置与给定的时间点相关的时间索引并被表示为音素和字格,且其中所述产生注释数据的步骤包括以下步骤:(i)产生这样的数据,该数据定义了该音素和字格内的多个节点和连接该音素和字格内的节点的多个链接;
(ii)产生把音素数据的多个音素与相应多个链接相联系的数据;以及(iii)产生把这些字中的至少一个与所述链接中的至少一个相联系的数据。
26.根据权利要求21至25中任一项的方法,其中所述产生注释数据的步骤产生具有相等的持续时间的块中的所述音素和字格数据。
27.根据权利要求21至25中任一项的方法,其中所述数据文档包括声频和/或视频信号。
28.根据权利要求21的方法,其中所述声频数据包括定义了多个讲话者的语音的声频数据,且其中所述产生注释数据的步骤产生这样的数据,该数据为各个讲话者的语音定义了单独的音素和字格。
29.根据权利要求22的方法,其中所述文本数据定义了多个讲话者的语音,且其中所述产生注释数据的步骤产生了这样的数据,该数据为各个讲话者的语音定义了单独的音素和字格数据。
30.根据权利要求21的方法,其中所述自动语音识别装置产生这样的数据,该数据为与所述链接相联系的音素定义了权重,且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。
31.根据权利要求21的方法,其中所述字解码装置产生这样的数据,该数据为与所述链接相联系的字定义了权重,且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。
32.根据权利要求21至25中任一项的方法,其中所述定义多个节点和多个链接的步骤定义了至少一个节点,该至少一个节点通过多个链接而连接到多个其他节点。
33.根据权利要求32的方法,其中把所述节点连接到所述多个其他节点的所述多个链接中的至少一个与一个音素相联系,且其中把所述节点连接到所述多个其他节点的所述链接中的至少一个与一个字相联系。
34.根据权利要求23的方法,其中所述语音识别装置产生这样的数据,该数据为与所述链接相联系的该音素定义了一个权重,且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。
35.根据权利要求23的方法,其中所述语音识别装置产生这样的数据,该数据为与所述链接相联系的字定义了一个权重,且其中所述产生注释数据的步骤包括在所述音素和字格中包括所述权重。
36.根据权利要求23或24的方法,进一步包括把所述注释数据与所述数据文档相联系的步骤。
37.根据权利要求24的方法,其中所述转换步骤采用了一种自动语音抄写单元,该单元从键入的输入内的字产生所述音素数据。
38.根据权利要求25的方法,其中把字转换成音素的步骤采用了一种自动语音抄写单元,该单元为所述字符识别单元输出的文本数据内的字产生所述音素数据。
39.根据权利要求25的方法,进一步包括使所述注释数据与所述接收的图象数据或所述文本数据相联系的步骤。
40.根据权利要求25的方法,其中所述接收步骤采用了一种文件扫描仪或一个传真机。
说明书 :
用于产生包括音素数据和解码的字的注释数据的方法和设
备
技术领域
中搜索该注释数据以响应于用户输入的询问获取所希望的数据文档的系统。
背景技术
然这是迅速而有效的,但这种搜索不适合于各种的数据库,诸如视频或声频数据库。
发明内容
至少一个所述链接相联系。
对应的音素数据和字数据;利用与用户的询问相应的字数据对数据库进行搜索;响应于该
字搜索的结果而选择数据库中定义音素和字格的数据部分以进行进一步的搜索;利用与用
户的输入询问相应的所述音素数据搜索数据库的所述选定部分;以及,输出搜索结果。
部分以进行进一步的搜索;装置,用于利用与用户的输入询问相应的所述音素数据来搜索
所述选定部分;以及,装置,用于输出搜索结果。
附图说明
具体实施方式
盘3和指向装置5使该系统能够受到一个用户的控制。麦克风7把来自该用户的语音信号
转换成相应的电信号并把这些电信号提供给PC1以进行处理。一个内部调制解调器和语音
接收电路(未显示)与电话线9相连,从而使PC1能够与例如一个远程计算机或一个远程
用户进行通信。
有的PC1进行使用。
合单元27中被与数据文档23相结合,且从其输出的结合的数据文档被输入到数据库29。
在此实施例中,注释数据21包括一个结合的音素(或音素型的)和字格,该音素和字格使
得用户能够通过语音询问而从该数据库获取信息。如本领域的技术人员所能够理解的,数
据文档23可以是任何种类的数据文档,诸如视频文档、声频文档、多媒体文档等。
的系统有若干个问题。这些问题包括:(i)现有技术的语音识别系统在识别中仍然产生基
本的错误;(ii)现有技术的自动语音识别系统采用了也许20000至100000个字的字典且
不能产生该词汇之外的字;以及,(iii)N最佳清单的产生随着各级的假说的数目成指数地
增大,因而导致对于长的语句注释数据变得不可接受地大。
的数据文档。至于第二个问题,它在视频数据应用的情况下是特别严重的,因为用户可能使用名称和地点(这些可能不在语音识别字典中)作为输入询问项。在没有这些名称时,自
动语音识别系统普通会用词汇表中发音类似的字或词来代替该词汇表中没有的字,从而经
常使相邻的解码变得恶化。这还导致了随后的请求时对所需数据文档的获取发生失败。
的音素数据的搜索。音素和字格是一个非循环地指向的曲线图,它有一个单个的进入点和
一个单个的退出点。
构可以形成对一或多个字或音素的替代。因此,音素和字格内的数据的密度在整个声频数
据上基本上是保持线性的,而不是象在上述N最佳技术中那样指数地增大。如本领域的技
术人员能够理解的,音素数据的采用是更为全面的,因为音素不依赖于字典并使得系统能
够应付词汇表之外的字,诸如名称、地点、外来词等。音素数据的采用还使系统能够应付将来的发展,因为它使得被置于数据库中的数据文档即使在字不被原来的自动语音识别系统
所理解的情况下也能够得到获取。
该视频序列相联系的声频的声频数据31-2。如众所周知的,声频数据31-2是与视频数据
31-1时间同步的,因而在使用中视频和声频数据同时被提供给用户。
息,读者可以参见例如LawrenceRabiner和Biing-HwangJuang所著的书“Fundamentals of Speech Recognition”,特别是其42-50页。
语音相应的若干不同的可能的音素串。例如,该语音识别系统考虑在该声频串中的第一个
音素是“t”或“d”。如语音识别领域中众所周知的,这些不同的可能性可具有它们的权重,这些权重是由语音识别单元33产生的并表示了语音识别单元的输出的信心。例如,音素
“t”可以被给予0.9的权,且音素“d”可以被给予0.1的权,表明该语音识别系统比较确信相应的声频部分表示了音素“t”,但它仍然有可能是音素“d”。然而,在此实施例中,不进行音素的这种加权。
别的字被包含在该音素格数据结构中。例如,对于图4a所示的音素格,字解码器37识别出
字“tell”、“dell”、“term”、“me”、“a”、“boat”、“about”、“chase”、“sun”。如图4b所示,这些识别的字被加到语音识别单元33输出的音素格数据结构中,以产生形成注释数据31-3
的音素和字格数据结构。这种注释数据31-3随后被与视频数据文档31相结合,以产生一
种增广的视频数据文档31’-它随后被存储在数据库29中。如本领域的技术人员所能够
理解的,以其中声频数据31-2与视频数据31-1时间同步的方式类似的一种方式,注释数据
31-3也与相应的视频数据31-1和声频数据31-2时间同步和相关,从而能够通过搜索和定
位注释数据31-3的相应的部分而获取视频和声频数据的所希望的部分。
情况下不同的搜索策略将被用来搜索这种注释数据。
位置与开始时间与同该块的开始相应的时间之间的一个给定时间偏移相联系。
释数据期间采用的其所有适当的设定。
相连接的字链接。各个音素链接和字链接标明了与该链接相关的音素或字。它们还标明了
与当前节点的偏移。例如,如果节点NZzz50通过一个音素链接而被链接至节点NZzz55,则
至节点NZzz的偏移是5。如本领域的技术人员所能够理解的,利用诸如这样的偏移表示将
使得能够把连续注释数据分割成分离的块。
相应的音素或字的权的一个瞬态评分。这些权随后将通过放弃具有低的信心评分的那些匹
配而被用于控制数据文档的搜索和获取。
例中,用户终端59包括注释数据文档的数据库29、一个自动语音识别单元51、一个搜索引
擎58、一个控制单元55和一个显示器57。在操作中,自动语音识别单元51对经过麦克风7
和输入线路61接收的来自用户39的一个输入语音询问进行处理,并从其产生相应的音素
和字数据。这种数据还可具有音素和字格的形式,但这不是必需的。这种音素和字数据随
后被输入到控制单元55,控制单元55利用搜索引擎53启动对数据库29的适当搜索。搜索
引擎58产生的搜索结果随后被发送回到控制单元55,而控制单元55对搜索结果进行分析
并产生和振动显示器57向用户显示适当的显示数据。
问时,用于该输入询问的音素和字数据在步骤s3由自动语音识别单元51产生。在步骤s5,
控制单元55命令搜索引擎53利用为该输入询问产生的字数据在数据库29中进行搜索。在
此实施例中采用的字搜索与在现有技术中为键入的关键字搜索采用的相同,且将不在此进
行详细描述。如果在步骤s7,控制单元55从搜索结果识别出已经找到了对用户的输入询问
的匹配,则它经显示器57把搜索结果输出给用户。
输入一个适当的语音命令)该搜索结果不与所希望的信息对应,则处理从步骤s11进行到
步骤s13,在那里搜索引擎53进行数据库29的一个音素搜索。然而,在此实施例中,在步骤s13进行的音素搜索不是对整个数据库29的,因为这将需要几个小时-取决于数据库29的
大小。
音素搜索的方式将在以下得到更详细的描述。在音素搜索已经被进行的情况下,控制单元
55在步骤s15标明是否已经找到了一个匹配。如果已经找到了一个匹配,则处理进行到步
骤s17,在那里控制单元55使搜索结果在显示器57上被显示给用户。同样地,系统随后等
候用户对该搜索结果是否对应于所希望的信息的确认。如果该结果正确,则处理从步骤s19进行到结束,且用户终端59返回到闲置状态并等候下一个输入询问。然而,如果用户表明
该搜索结果不对应于所希望的信息,则处理从步骤s19进行到步骤s21,在那里控制单元55
经过显示器57询问用户是否在整个数据库29上进行音素搜索。如果用户响应于该询问表
示要进行这样的搜索,则处理进行到步骤s23,在那里搜索引擎进行整个数据库29的音素
搜索。
户终端59返回到其闲置状态并等候下一个输入询问。另一方面,如果用户表明该搜索结果
仍然不对应于所希望的信息,则处理进行到步骤s31,在那里控制单元55通过显示器57询
问用户是否希望重新定义或修改搜索询问。如果用户希望重新定义或修改搜索询问,则处
理返回到步骤s3,在那里用户的随后的输入询问以类似的方式得到处理。如果该搜索不被
重新定义或修改,则该搜索结果和用户的初始输入询问被放弃,且用户终端59返回到其闲
置状态并等候下一个输入询问。
采用各种技术,包括诸如动态编程的标准模式匹配技术。在此实施例中,采用了被称为
M-GRAMS的一种技术。这种技术是由Ng,K.和Zue,V.W.提出的,并在例如在proceedings
0f Eurospeech1997中发表的题目为“Subward unit representations for spoken
documentretrieval”的论文中得到了讨论。
配。然而,音节大小的单位可能提供更大的可鉴别性,虽然它们不容易识别。
素a、b、c、d、e和f的一个输入音素串的部分,这些音素被分到四个M-GRAM(a,b,c)、(b,c,d)、(c,d,e)和(d,e,f)中。在本说明中,四个M-GRAM每一个都包括了三个音素的一个序列,该序列是唯一的并代表了可在该输入音素串中找到的一个唯一的特征(fZzi)。
的出现频率。为了说明这点,对于数据库的一个给定部分和对于图8所示的示例性M-GRAM,这给出了以下的信息表:
现频率之间的余弦量度,而得到确定。这种技术的原理是,如果输入的音素串与数据库音
素串的选定部分类似,则M-GRAM特征的出现频率对于这两种音素串将是类似的。因此,如
果M-GRAM的出现频率被认为是矢量(即考虑上述表中的作为矢量的第二和第三列),则如
果在输入音素串与数据库的选定部分之间有一种类似度,则这些矢量之间的夹角应该比较
小。这在图9中对于两维矢量a和q得到了显示,其中矢量之间的角用θ表示。在图8所
示的例子中,矢量a和q将是四维矢量且类似度评分将用下式计算:
6所示的步骤s15,在那里控制单元考虑搜索引擎53产生的评分并通过例如把计算出的评
分与一个预定阈值进行比较而判定是否有一个匹配。
的。
技术人员能够理解的,当输入的数据文档对应于一个视频数据文档时,该数据文档内的声
频数据普通包括不同讲话者的声频数据。不是为声频数据产生单个的注释数据流,可以为
各个讲话者的声频数据产生单独的音素和字格注释数据。这可通过从音节(pitch)或从语
音信号的其他区分特征来识别与各个讲话者对应的声频数据并随后通过对不同的讲话者
的声频分别进行注释,而而实现。如果声频数据是以立体声记录的,或者如果在产生该声频数据时采用了麦克风阵列,则这也可得到实现,因为此时可以对该声频数据进行处理以提
取各个讲话者的数据。
时间同步的。在这样一个实施例中,数据结构中的头部信息优选地应该包括注释数据内的
不同的讲话者的一个清单,且对于每一个讲话者,定义讲话者的语言、口音、方言和语音组的数据,以及各个块,应该标明块中活跃的那些讲话者。
释数据。例如,一个操作员能够收听声频数据并产生一个语音和字抄本,从而手动地生成该注释数据。
如一个摄象机产生的两维图象。用户终端59使用户39能够用适当的注释对该两维图象进
行注释,该注释随后可被用于从数据库29获取该两维图象。在此实施例中,输入的语音注
释信号被自动语音识别单元51转换成音素和字格注释数据,该注释数据被传送到控制单
元55。响应于用户的输入,控制单元55从数据库29检索适当的两维文档并把音素和字注
释数据附在数据文档91上。这种增广的数据文档随后被送回到数据库29。在此注释步骤
中,控制单元55用于在显示器57上显示该两维图象,从而使用户能够保证该注释数据与正
确的数据文档91相关。
别单元51在音素格内识别的这些字被包含在音素格数据结构中。如所示,对于该示例性的
短语,自动语音识别单元51识别字“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”。控制单元55随后把这种注释数据加到2D图象数据文档91上,且该数据文档91随后被存储在一个数据库29中。
据,诸如声频数据或地震数据。
式,它使得一个用户能够经过键盘3输入键入的注释数据,以对将要存储在一个数据库29
中的数据文档91进行注释。在此实施例中,键入输入通过语音抄本(transcription)单元
75而被转换成音素和字格注释数据(利用一个内部语音字典(未显示)),该注释数据被传
送到控制单元55。响应于用户的输入,控制单元55从数据库29获取适当的2D文档并把该
音素和字注释数据附在数据文档91上。该增广的数据文档随后被送回到数据库29。在此
注释步骤期间,控制单元55把该2D图象显示在显示器57上,从而使用户能够保证注释数
据与正确的数据文档91相联系。
键入输入对应的若干不同的可能的音素串。
本随后被提供给一个语音抄本单元107,该单元107产生音素和字注释数据109,该注释数
据109随后被附在扫描仪103输出的图象数据上以形成一个数据文档111。如所示,数据文
档111随后被存储在数据库29中以便随后获取。在此实施例中,注释数据109包括结合的
上述音素和字格,它使得用户随后能够通过语音询问而从数据库29获取数据文档111。
据,被用来产生数据文档113。图16所示的系统的其余部分与图15所示的相同且将不作进
一步的描述。
所输出的图象数据随后以与图15所示的扫描仪103输出的图象数据相同的方式得到处理,
且将不再描述。
引擎53位于一个远程服务器60上,且其中用户终端59经过网络接口单元67和69以及一
个数据网络68(诸如因特网)对数据库29中的数据文档进行访问和控制。在操作中,用户
经麦克风7输入一个语音询问,该语音询问被自动语音识别单元51转换成音素和字数据。
这种数据随后被传送到控制单元,该控制单元控制这种音素和字数据在数据网络68上至
位于远程服务器60中的搜索引擎53的传送。搜索引擎53随后根据接收的音素和字数据
进行该搜索,或者根据接收的音素和字数据来控制对该数据文档的操作(例如控制一个视
频文档的播放、前送或倒回)。从数据库29获取的数据或与该搜索有关的其他数据随后经
数据网络68被传送回到控制单元55,而控制单元55控制适当的数据在显示器57上的显
示以被用户39所观看。以此方式,可以获取和控制远程服务器60中的数据文档,而不用使
用服务器上的重要的计算机资源(因为是用户终端59把输入的语音转换成了音素和字数
据)。
示,来自用户的输入语音询问经输入线路61被传送到一个语音编码单元73,该编码单元对
语音进行编码以通过数据网络68进行充分的传送。编码的数据随后被传送到控制单元55,
控制单元55把该数据经网络68发送到远程服务器60,在远程服务器60该数据受到自动语
音识别单元51的处理。由语音识别单元51为该输入询问产生的产生的音素和字数据随后
被传送到搜索引擎53,以用于搜索和控制数据库29中的数据文档。搜索引擎53获取的适
当的数据随后经网络接口69和网络68被传送回到用户终端59。从远程服务器接收回来的
这种数据经网络接口单元67被传送到控制单元55,而控制单元55在显示器57上产生并显
示适当的数据以被用户所观看。
单元75用于从输入的文本产生相应的音素串。这种音素串与经过键盘3输入的字一起随
后被传送到控制单元55,而控制单元55利用搜索引擎53起始对数据库的搜索。搜索进行
的方式与在第一实施例中的相同,因而不再进行描述。如同上述其他实施例,语音抄本单元
75、搜索引擎53和/或数据库29可都位于一个远程服务器中。
中。图21中显示了这样的一个实施例。在此实施例中,数据文档81代表具有视频数据81-1、声频数据81-2和定义了录相带中各个演员的行的剧本数据81-3的数字视频文档。如所示,
剧本数据81-3通过一个文本被传送到音素转换器83,转换器83利用存储的字典产生音素
格数据85,该字典把字翻译成可能的音素序列。这种音素格数据85随后与剧本数据81-3
结合,以产生上述的音素和字格注释数据81-4。这种注释数据随后被加到数据文档81上以
产生一种增广的数据文档81’,该数据文档81’随后被加到数据库29上。如本领域的技术
人员应该理解的,这种实施例便利了为视频数据文档内的不同的讲话者的单独的音素和字
格注释数据的产生,因为剧本数据普通包含谁在谈话的的表示。这种音素和字格注释数据
与视频和声频数据的同步随后能够通过利用自动语音识别系统(未显示)进行剧本数据与
声频数据的强迫时间对准而得到实现。