检索语音文件的设备和方法转让专利

申请号 : CN200910176846.X

文献号 : CN102023994B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 鲁耀杰尹悦燕史达飞郑继川赵利军

申请人 : 株式会社理光

摘要 :

本发明提供了一种用于根据输入的查询条件检索语音文件的设备,包括以下装置:分割装置,被配置为将一个或多个语音文件分别分割为一个或多个语音片;第一相关度确定装置,被配置为确定每个语音片与所述查询条件的第一相关度;第二相关度确定装置,被配置为根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度。

权利要求 :

1.一种用于根据输入的查询条件检索语音文件的设备,包括以下装置:分割装置,被配置为将一个或多个语音文件分别分割为一个或多个语音片;

第一相关度确定装置,被配置为确定每个语音片与所述查询条件的第一相关度;

第二相关度确定装置,被配置为根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度;以及段落发现装置,被配置为判断对于每个语音文件的每个预定时间点的所述第二相关度是否高于预设的阈值,如果所述第二相关度高于所述阈值,则确定该预定时间点为构成与所述查询条件相关的段落的时间点,从而发现与所述查询条件相关的段落。

2.如权利要求1所述的设备,还包括:

预处理装置,被配置为将每个语音片与查询条件分别转换为具有相同格式的数据。

3.如权利要求1所述的设备,其中,所述第二相关度确定装置被配置为利用窗函数来确定所述第二相关度。

4.如权利要求1所述的设备,其中所述查询条件包括文本查询条件、语音查询条件、或文本查询条件和语音查询条件的组合。

5.一种用于根据输入的查询条件检索语音文件的方法,包括以下步骤:分割步骤,用于将一个或多个语音文件分别分割为一个或多个语音片;

第一相关度确定步骤,用于确定每个语音片与所述查询条件的第一相关度;

第二相关度确定步骤,用于根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度;以及段落发现步骤,用于判断对于每个语音文件的每个预定时间点的所述第二相关度是否高于预设的阈值,如果所述第二相关度高于所述阈值,则确定该预定时间点为构成与所述查询条件相关的段落的时间点,从而发现与所述查询条件相关的段落。

6.如权利要求5所述的方法,还包括:

预处理步骤,用于将每个语音片与查询条件分别转换为具有相同格式的数据。

7.如权利要求5所述的方法,其中,所述第二相关度确定步骤被配置为利用窗函数来确定所述第二相关度。

8.如权利要求5所述的方法,其中所述查询条件包括文本查询条件、语音查询条件、或文本查询条件和语音查询条件的组合。

说明书 :

检索语音文件的设备和方法

技术领域

[0001] 本发明涉及一种用于检索语音文件的设备和方法,具体地说,本发明涉及根据输入的查询条件检索语音文件、从而得到语音文件的各时间点与查询条件的相关度的设备和方法。

背景技术

[0002] 随着多媒体技术的发展,语音媒体得到了越来越多的关注。由于语音本身的特点,用户很难像检索文本一样快速检索语音文件。当用户想在语音文件中查询自己感兴趣的相关语音片段的时候,用户不得不从头开始浏览整个语音文件。在语音文件较大的情况下,这是非常耗费时间和精力的。虽然语音播放器中的快进和快退按钮能帮助用户相对较快地浏览文件,但是其并不能为用户提供语音文件中的各时间点与所查询的条件的相关程度,更加不能查询到与查询条件相关的语音段落。
[0003] 通常,存在两种方法来在语音文件中检索与用户输入的查询条件相关的时间点。第一种方法是基于关键字标注的方法,其基于语音识别技术,将语音文件转换为文本,并标注转换后的文本中与用户输入的文本查询条件相关的文本。然而,该方法存在下述不足之处:1.该方法基于语音识别技术,仅仅进行一次相关度计算,因此检索性能受语音识别的效果影响相对较大,容错性能较差;2.当文本查询条件不是关键字而是句子甚至段落时,该方法的效率大大下降;3.该方法仅针对文本查询条件进行查询,使用范围受到限制。
[0004] 第二种方法是基于语义分割的方法,其利用语音分割技术,按照语义分割语音文件,然后利用语音检索的方法检索分割好的片断与预定查询条件的相关程度。然而,由于当今的语义分割技术尚不够成熟,错误率较高,因此在此基础上进行一次相关度计算而获得的检索结果的错误率也非常高。

发明内容

[0005] 本发明提供了一种用于检索语音文件的设备和方法,其能够根据用户输入的多种查询条件检索语音文件,并以较高精度得到语音文件的各时间点与查询条件的相关度,从而改进了检索效率。进一步说,本发明还提供一种用于检索语音文件的设备和方法,其不但能够以较高精度得到语音文件的各时间点与查询条件的相关度,还能够得到语音文件中与所述查询条件相关的语音段落,从而在改进检索效率的同时还提高了用户操作的方便度。
[0006] 根据本发明的一个方面,一种用于根据输入的查询条件检索语音文件的设备,包括以下装置:分割装置,被配置为将一个或多个语音文件分别分割为一个或多个语音片;第一相关度确定装置,被配置为确定每个语音片与所述查询条件的第一相关度;以及第二相关度确定装置,被配置为根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度。
[0007] 该检索语音文件的设备还可以包括段落发现装置,被配置为判断对于每个语音文件的每个预定时间点的所述第二相关度是否高于预设的阈值,如果所述第二相关度高于所述阈值,则确定该预定时间点为构成与所述查询条件相关的段落的时间点,从而发现与所述查询条件相关的段落。
[0008] 该检索语音文件的设备还可以包括预处理装置,被配置为将每个语音片与查询条件分别转换为具有相同格式的数据。
[0009] 上述第二相关度确定装置可以被配置为利用窗函数来确定所述第二相关度。
[0010] 所述查询条件可以包括文本查询条件、语音查询条件、或文本查询条件和语音查询条件的组合。
[0011] 根据本发明的另一方面,一种用于根据输入的查询条件检索语音文件的方法,包括以下步骤:分割步骤,用于将一个或多个语音文件分别分割为一个或多个语音片;第一相关度确定步骤,用于确定每个语音片与所述查询条件的第一相关度;以及第二相关度确定步骤,用于根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度。
[0012] 该检索语音文件的方法还可以包括段落发现步骤,用于判断对于每个语音文件的每个预定时间点的所述第二相关度是否高于预设的阈值,如果所述第二相关度高于所述阈值,则确定该预定时间点为构成与所述查询条件相关的段落的时间点,从而发现与所述查询条件相关的段落。
[0013] 该检索语音文件的方法还可以包括预处理步骤,用于将每个语音片与查询条件分别转换为具有相同格式的数据。
[0014] 所述第二相关度确定步骤可以被配置为利用窗函数来确定所述第二相关度。
[0015] 所述查询条件可以包括文本查询条件、语音查询条件、或文本查询条件和语音查询条件的组合。根据本发明各方面的设备和方法能够以较高精度得到语音文件的各时间点与输入的查询条件的相关度,从而改进了检索效率。
[0016] 通过参考附图阅读下面以示例性方式给出的本发明实施例的具体描述,本发明的上述和其他目标、特征和优点将变得更加明显。

附图说明

[0017] 图1示意性示出了根据本发明第一实施例的语音文件检索设备100的框图;
[0018] 图2示意性示出了由本发明第一实施例的语音文件检索设备100使用的窗函数的波形特征;
[0019] 图3示意性示出了根据本发明第二实施例的语音文件检索设备200的框图;
[0020] 图4示意性示出了由根据本发明第一实施例的语音文件检索设备100执行的处理的流程图;
[0021] 图5示意性示出了由根据本发明第二实施例的语音文件检索设备200执行的处理的流程图;以及
[0022] 图6示意性示出了由根据本发明第二实施例的语音文件检索设备200执行的处理中的段落发现处理的流程图。

具体实施方式

[0023] 在具体描述本发明实施例前,首先说明在本发明实施例中使用的相关技术术语:
[0024] “语音片”:语音片是将一语音文件分割而得到的各个片段。相邻语音片之间在时间上可以重叠。所有语音片构成的集合将涵盖该语音文件。
[0025] “语音段落”:语音段落是语音文件的任一部分。在本发明实施例中,与查询条件相关的语音段落的长度可以大于语音片的长度、等于语音片的长度,也可以小于语音片的长度。
[0026] 以下,将参照附图详细描述本发明的优选实施例。
[0027] 参考图1,根据本发明第一实施例的语音文件检索设备100包括分割装置11、第一相关度确定装置12和第二相关度确定装置13。分割装置11将一个或多个语音文件分别分割为一个或多个语音片。第一相关度确定装置12确定每个语音片与用户输入的查询条件的第一相关度。第二相关度确定装置13根据所述第一相关度,确定每个语音文件的每个预定时间点与所述查询条件的第二相关度。
[0028] 以下将具体描述各装置的功能配置。
[0029] 分割装置11配置为利用语音分割方法,例如定时分割方法,通过下述处理将一个或多个语音文件分别分割为一个或多个语音片:
[0030] 首先,设置固定时间长度(TL)和固定重合时间长度(OTL)。其中,TL必须大于一个词的发音长度,而OTL必须小于TL。在本发明实施例中,例如,将TL设置30秒,而将OTL设置为29秒。
[0031] 其次,假设一个语音文件的长度为T,可以如下分割该语音文件:
[0032] 第一个语音片的起始时间是0,终止时间是Min{TL,T},即TL和T中较小者。如果Min{TL,T}=T,则分割处理结束。
[0033] 下一个语音片的起始时间Sn是:
[0034] Sn=Sn-1+TL-OTL (1)
[0035] 终止时间En是:
[0036] En=Min(Sn+TL,T) (2)
[0037] 其中,Sn-1是前一时间片的起始时间。
[0038] 重复上述处理,直至Min(Sn+TL,T)=T,此时,分割处理结束。
[0039] 本领域技术人员应理解,在上述分割处理中,各语音片之间是重叠的,然而,各语音片之间不必重叠。此外,本领域技术人员应理解,分割装置11所采用的上述定时分割方法仅仅是一个示例,而并非限制本发明。分割装置11可配置为采用任何语音分割方法,例如基于时间的方法、基于事件的方法、基于语义的方法或这些方法的组合等。
[0040] 通过分割装置11的上述分割处理,每个语音文件被分割为一个或多个语音片。
[0041] 第一相关度确定装置12确定经过上述分割装置11的分割所得到的每个语音片与用户输入的查询条件的第一相关度,即,语音片相关度。
[0042] 在本发明实施例中,例如,第一相关度确定装置12配置为利用Okapi BM25概率模型(Probabilistic Model)作为统计检索模型,通过下式(3),确定每个语音片与查询条件的第一相关度:
[0043]
[0044] 其中,
[0045] w为词,可用任何方法进行分词,例如n-gram法;
[0046] q为查询词,即查询条件经过分词后的分词结果;
[0047] d为语音片对应的文本序列,也称为文档;
[0048] |d|为文档词数;
[0049] avdl是文档集合中每个文档的词数的平均;
[0050] N为文档集合的文档数;
[0051] c(w,d)为词w在文档d中出现的频率,即词w出现的次数和d中词的个数的比值;
[0052] c(w,q)为词w在查询词q中出现的频率;
[0053] df(w)为出现过词w的文档数;以及
[0054] b、k1、k3为调整参数。例如,可设置b=0.54、0.55、0.56等,k1=1.4、1.5、1.6等,以及k3=7.8、8、8.2等。本领域技术人员可以根据具体情况对各参数进行适当的调整。
[0055] 本领域技术人员应理解,除Okapi BM25概率模型外,第一相关度确定装置12还可以利用其他概率模型或向量空间模型(Vector Space Model,VSM)作为统计检索模型,来确定每个语音片与所述查询条件的第一相关度。
[0056] 通过第一相关度确定装置12的上述处理,得到对于每个语音片的第一相关度。
[0057] 第二相关度确定装置13根据所述第一相关度,确定每个语音文件的各时间点与所述查询条件的第二相关度,即,时间点相关度。本领域技术人员应理解,所述各时间点之间的间隔可根据需要适当地选择。
[0058] 在本发明实施例中,例如,第二相关度确定装置13配置为通过下述处理来对每个语音文件的每个预定时间点确定第二相关度:
[0059] 首先,设置窗函数,所述窗函数可以为矩形窗、高斯窗、Hamming窗等多种窗函数,在本发明实施例中,以如图2所示的Hann窗为例,其波形特征为
[0060]
[0061] 其中,t为时间,
[0062] S为窗口大小,
[0063] p为当前窗口位置。
[0064] 此后,利用所述窗函数来确定语音文件中的预定时间点与查询条件的第二相关度。
[0065] 在本发明一个实施例中,对于每个待检索的语音文件,采用窗口乘积法如下确定所述第二相关度:
[0066] 对于语音文件中的预定时间点cur,通过如下公式确定第二相关度Rcur:
[0067]
[0068] 其中,t为时间,是其起始时间最靠近t的语音片的第一相关度。
[0069] 在本发明另一实施例中,对于每个待检索的语音文件,采用窗内阴影法如下确定所述第二相关度:
[0070] 对于语音文件中的预定时间点cur’,通过如下公式确定第二相关度Rcur’:
[0071] Rcur’=∑t(Min(WF(t), (6)
[0072] 其中 是其起始时间最靠近t的语音片的第一相关度。
[0073] 本领域技术人员应理解,所述窗口乘积法、窗口阴影法只是确定第二相关度的两种示例方法,而非限制本发明。第二相关度确定装置13可被配置为采取其他多种方法来确定第二相关度。
[0074] 上面已经描述了根据本发明第一实施例的语音文件检索设备100。通过包含分割装置11、第一相关度确定装置12和第二相关度确定装置13的该语音文件检索设备100,可以以较高精度得到语音文件的各时间点与查询条件的相关度,从而改进了检索效率。
[0075] 优选地,所述语音文件检索设备100还可包括预处理装置,用于对每个语音片与查询条件进行预处理,将其转换为具有相同格式的数据,从而便于确定第一相关度。所述查询条件可以是语音查询条件、文本查询条件、或语音查询条件和文本查询条件的组合。例如,在查询条件是语音查询条件的情况下,所述预处理装置可基于任何语音识别技术,例如,基于隐马尔可夫模型的语音识别技术,将所述每个语音片和所述语音查询条件转换为音素数据。替代地,所述预处理装置可将所述每个语音片和所述语音查询条件转换为文本数据、音频特征数据等等。此外,在查询条件是文本查询条件的情况下,所述预处理装置还可使用语音合成技术,将文本查询条件转换为语音查询条件,再执行上述语音查询条件下的处理。
[0076] 以下,将参照图3描述根据本发明第二实施例的语音文件检索设备200。
[0077] 根据本发明第二实施例的语音文件检索设备200包括分割装置21、第一相关度确定装置22、第二相关度确定装置23和段落发现装置24。其中,分割装置21、第一相关度确定装置22和第二相关度确定装置23的结构和功能配置与根据本发明第一实施例的分割装置11、第一相关度确定装置12和第二相关度确定装置13的结构和功能配置基本相同,在此不再详细描述。
[0078] 根据本发明第二实施例的语音文件检索设备200与语音文件检索设备100的差别在于,该语音文件检索设备200还包括段落发现装置24,用于根据第二相关度确定装置23确定的第二相关度随时间的分布,确定语音文件中与输入的查询条件相关的语音段落。
[0079] 段落发现装置24配置为通过如下处理确定与所述查询条件相关的语音段落:
[0080] 首先,设置阈值Tr;
[0081] 其次,对于每个预定时间点tn,判断对于所述预定时间点tn的第二相关度Rcur(n)是否大于等于Tr;如果该第二相关度Rcur(n)大于等于Tr,则确定该预定时间点tn为构成与查询条件相关的语音段落的时间点;
[0082] 重复以上处理,直至到达语音文件的结束。
[0083] 优选地,在所述阈值设置步骤,可将阈值设置为Tr=MAXs*Tr’,其中MAXs是所有预定时间点的第二相关度中的最大值,Tr′∈。
[0084] 通过段落发现装置24的上述处理,可确定构成与查询条件相关的语音段落的所有时间点,从而确定语音文件中与查询条件相关的语音段落。
[0085] 上面已经描述了根据本发明第二实施例的语音文件检索设备200。通过包含分割装置21、第一相关度确定装置22、第二相关度确定装置23和段落发现装置24的该语音文件检索设备200,不但能够以较高精度得到语音文件的各时间点与查询条件的相关度,还能够得到语音文件中与所述查询条件相关的语音段落,从而在改进检索效率的同时还提高了用户操作的方便度。
[0086] 在得到语音文件中所有与查询条件相关的语音段落后,例如可通过各种排序方法按相关度将所述各语音段落中的一些呈现给用户,以进一步提高用户操作的方便度。因此,本领域技术人员应理解,这里所指的“与查询条件相关的语音段落”并非仅包括呈现给用户作为检索结果的段落,而是包括由其第二相关度高于阈值的所有时间点构成的段落。
[0087] 以下,将参照图4的流程图,描述由根据本发明第一实施例的语音文件检索设备100执行的语音文件检索方法的处理流程。
[0088] 首先,在步骤S401,利用如上参考本发明第一实施例所述的各种语音文件分割方法,将一个或多个语音文件分别分割为一个或多个语音片。
[0089] 其次,在步骤S402,例如以概率模型或向量空间模型作为统计检索模型,确定通过步骤S401的分割得到的每个语音片与用户输入的查询条件的相关度(第一相关度)。
[0090] 接下来,在步骤S403,根据在步骤S402得到的各第一相关度,利用如矩形窗、高斯窗、Hamming窗、Hann窗等的多种窗函数,根据窗口乘积法、窗口阴影法等各种方法,确定语音文件中的每个预定时间点与查询条件的相关度(第二相关度)。
[0091] 优选地,在步骤S402之前还可包括预处理步骤,用于对每个语音片与查询条件进行预处理,将其转换为具有相同格式的数据。所述查询条件可以是语音查询条件、文本查询条件、或语音查询条件和文本查询条件的组合。
[0092] 以下,将参照图5的流程图,描述由根据本发明第二实施例的语音文件检索设备200执行的语音文件检索方法的处理流程。在图5中,步骤S501-S503的操作与参考图4所述的语音文件检索方法中的步骤S401-S403的操作基本相同,在此不再详述。
[0093] 参考图5所述的语音文件检索方法与参考图4所述的语音文件检索方法的差别在于,其还包括步骤S504,用于在步骤S503确定了各预定时间点与查询条件的第二相关度之后,根据该第二相关度,确定语音文件中与所述查询条件相关的语音段落。
[0094] 以下参考图6,具体描述步骤S504的操作。
[0095] 首先,在步骤S5041,设置阈值Tr,该阈值Tr可以是绝对阈值或相对阈值。优选地,将阈值Tr设为相对阈值,即,Tr=MAXs*Tr’,其中MAXs是所有预定时间点的第二相关度中的最大值,Tr′∈。
[0096] 接下来,在步骤S5042,对于每个预定时间点tn,判断对于所述预定时间点tn的第二相关度Rcur(n)是否大于等于Tr;如果该相关度Rcur(n)大于等于Tr,则处理进行到步骤S5043,确定该预定时间点tn为构成与查询条件相关的语音段落的时间点,并使处理进行到步骤S5044。如果Rcur(n)小于Tr,则处理直接进行到步骤S5044,tn=tn+tinter.,其中,tinter.为各预定时间点之间的间隔,由此对下一预定时间点进行处理,直至语音文件的结束。
[0097] 通过上述处理,可确定语音文件中与查询条件相关的语音段落。
[0098] 以上已经描述了根据本发明实施例的语音文件检索设备和方法。
[0099] 本领域技术人员应理解,在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时,可以将计算机程序安装到内置于专用硬件的计算机中的存储器中,使得计算机执行该计算机程序。或者,可以将计算机程序安装到能够执行各种类型的处理的通用计算机中,使得计算机执行该计算机程序。
[0100] 例如,可以将计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者,可以临时或者永久地存储(记录)计算机程序到可移除记录介质中,诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以将这样的可移除记录介质作为封装软件提供。
[0101] 本发明已经参考具体实施例进行了详细说明。然而,很明显,在不背离本发明的精神的情况下,本领域技术人员能够对实施例执行更改和替换。换句话说,本发明用说明的形式公开,而不被限制地解释。本发明的范围仅由权利要求及其等同物限制。