会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 特征向量 / 特征向量补偿装置和特征向量补偿方法

特征向量补偿装置和特征向量补偿方法

阅读:139发布:2020-05-11

IPRDB可以提供特征向量补偿装置和特征向量补偿方法专利检索,专利查询,专利分析的服务。并且本发明提供一种特征向量补偿装置和特征向量补偿方法。其中,特征提取单元提取输入语音的特征向量。相似性计算单元根据特征向量,针对多个噪声环境中的每一个计算相似度。补偿向量计算单元从存储单元中获取第一补偿向量,根据第一补偿向量计算第二补偿向量,并且通过以相似度作为加权系数使第二补偿向量加权相加,来计算第三补偿向量。补偿单元根据第三补偿向量来补偿特征向量。,下面是特征向量补偿装置和特征向量补偿方法专利的具体信息内容。

1.一种特征向量补偿装置,用于补偿在背景噪声环境下的语音 处理中使用的语音的特征向量,包括:存储单元,针对多个噪声环境中的每一个,在其中存储第一补偿 向量;

特征提取单元,提取输入语音的特征向量;

相似性计算单元,根据所提取的特征向量,针对每个噪声环境计 算相似度,所述相似度表示输入语音在所述噪声环境下产生的确定性;

补偿向量计算单元,从所述存储单元中获取第一补偿向量,根据 所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的补 偿向量的第二补偿向量,并且通过以相似度作为加权系数使计算出的 第二补偿向量加权相加,来计算第三补偿向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。

2.如权利要求1所述的特征向量补偿装置,其中,存储单元在其中存储在利用高斯混合模型将噪声环境模型化时 取得的参数,相似性计算单元从存储单元中获取所述参数,根据所获取的参 数,针对每个噪声环境计算表示特征向量出现的确定性的第一似然, 并且根据计算出的第一似然来计算相似度。

3.如权利要求1所述的特征向量补偿装置,其中,补偿单元通过将第三补偿向量与特征向量相加来补偿特征向量。

4.如权利要求1所述的特征向量补偿装置,其中,存储单元针对每个噪声环境在其中存储根据作为噪声环境下的 语音的噪声语音和作为没有噪声的环境下的语音的干净语音而计算出 的第一补偿向量。

5.如权利要求1所述的特征向量补偿装置,其中,特征提取单元提取输入语音的梅尔频率倒谱系数作为特征向量。

6.如权利要求1所述的特征向量补偿装置,其中,相似性计算单元根据在第一时刻之前和之后中的至少一方的预 定范围内的多个时刻所提取的多个特征向量,来计算相似度。

7.如权利要求6所述的特征向量补偿装置,其中,存储单元在其中存储在利用高斯混合模型将噪声环境模型化时 取得的参数,相似性计算单元从存储单元中获取所述参数,根据所获取的参 数,对于包含在所述范围内的每个时刻,针对每个噪声环境计算表示 特征向量出现的确定性的第二似然,通过利用预定的第一系数作为加 权系数使计算出的第二似然加权相乘,来计算表示第一时刻的特征向 量出现的确定性的第一似然,并且根据计算出的第一似然来计算相似 度。

8.如权利要求7所述的特征向量补偿装置,其中,相似性计算单元计算作为计算出的第二似然之积的第一似然,并 根据所计算的第一似然来计算相似度。

9.如权利要求7所述的特征向量补偿装置,其中,所述第一系数以下述方式来预定:针对与第一时刻具有较大差异 的时刻的第一系数的值小于针对与第一时刻具有较小差异的时刻的第 一系数的值。

10.一种用于补偿在背景噪声环境下的语音处理中使用的语音的 特征向量的方法,包括以下步骤:提取输入语音的特征向量的步骤;

根据所提取的特征向量,针对多个噪声环境中的每一个计算相似 度的步骤,所述相似度表示输入语音在所述噪声环境下产生的确定性;

补偿向量计算步骤,包括以下步骤:

从针对每个噪声环境在其中存储第一补偿向量的存储单元中获 取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每个噪声环境的特征 向量的补偿向量的第二补偿向量,以及通过以相似度作为加权系数使计算出的第二补偿向量加权相加, 来计算第三补偿向量;和根据第三补偿向量来补偿所提取的特征向量的步骤。

说明书全文

技术领域

本发明一般涉及语音处理技术,特别是涉及背景噪声环境下的语 音处理。

背景技术

在噪声环境下的语音识别中,由于学习时的噪声环境与识别时的 噪声环境之间的差异,语音模型的不匹配导致识别性能降低的问题。 应对该问题的有效方法之一是在Li Deng,Alex Acero,Li Jiang,Jasha Droppo and Xuedong Huang,“High-performance robust speech recognition using stereo training data”,Proceedings of 2001 International Conference on Acoustics,Speech,and Signal Processing, pp.301-304中提出的以立体声为基础的分段线性环境补偿 (stereo-based piecewise linear compensation for environments, SPLICE)方法。
SPLICE方法预先从一对干净语音数据和在干净语音数据上叠加 了噪声的噪声语音数据中获得补偿向量,利用该补偿向量,使语音识 别时的特征向量接近干净语音的特征向量。SPLICE方法也可以被视 为降噪的方法。
利用这样一种补偿处理,有报告称,即使在培训条件与识别条件 不匹配时,也可以获得较高的识别率。
但是,传统的SPLICE方法仅仅为逐帧地从预先设计的多个噪声 环境中选择的单个噪声环境来补偿特征向量,并且预先设计的噪声环 境不一定与语音识别时的噪声环境相匹配。因此,由于声音模型的不 匹配会导致识别性能的降低。
而且,由于噪声环境的选择是在10至20毫秒短的每帧内进行, 因此即使当相同的环境持续一定时间段,也会为每帧选择不同的环境, 从而导致识别性能的降低。

发明内容

本发明的第一方面提供一种特征向量补偿装置,用于补偿在背景 噪声环境下的语音处理中使用的语音的特征向量,包括:存储单元, 针对多个噪声环境中的每一个,在其中存储第一补偿向量;特征提取 单元,提取输入语音的特征向量;相似性计算单元,根据所提取的特 征向量,针对每个噪声环境计算相似度,所述相似度表示输入语音在 所述噪声环境下产生的确定性;补偿向量计算单元,从所述存储单元 中获取第一补偿向量,根据所获取的第一补偿向量,计算作为针对每 个噪声环境的特征向量的补偿向量的第二补偿向量,并且通过以相似 度作为加权系数使计算出的第二补偿向量加权相加,来计算第三补偿 向量;和补偿单元,根据第三补偿向量来补偿所提取的特征向量。
本发明的第二方面提供一种用于补偿在背景噪声环境下的语音 处理中使用的语音的特征向量的方法,包括以下步骤:提取输入语音 的特征向量的步骤;根据所提取的特征向量,针对多个噪声环境中的 每一个计算相似度的步骤,所述相似度表示输入语音在所述噪声环境 下产生的确定性;补偿向量计算步骤,包括以下步骤:从针对每个噪 声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量,根 据所获取的第一补偿向量,计算作为针对每个噪声环境的特征向量的 补偿向量的第二补偿向量,以及通过以相似度作为加权系数使计算出 的第二补偿向量加权相加,来计算第三补偿向量;和根据第三补偿向 量来补偿所提取的特征向量的步骤。

附图说明

图1是本发明第一实施方式的特征向量补偿装置的功能框图。
图2是第一实施方式的特征向量补偿处理的流程图。
图3是本发明第二实施方式的特征向量补偿装置的功能框图。
图4是第二实施方式的特征向量补偿处理的流程图。
图5是用于说明第一和第二实施方式的特征向量补偿装置的硬件 结构的示意图。

具体实施方式

以下参照附图详细说明本发明的示例性实施方式。
本发明第一实施方式的特征向量补偿装置预先为多个噪声环境 设计补偿向量,并将补偿向量存储在存储单元中,在语音识别时计算 输入语音针对每个噪声环境的相似度,通过根据所计算的相似度对噪 声环境的补偿向量进行加权相加来获得补偿向量,并根据所获得的补 偿向量来补偿特征向量。
图1是第一实施方式的特征向量补偿装置100的功能框图。特征 向量补偿装置100包括噪声环境存储单元120、输入接收单元101、特 征提取单元102、相似性计算单元103、补偿向量计算单元104和特征 向量补偿单元105。
噪声环境存储单元120在其中存储利用GMM将多个噪声环境模 型化时的高斯混合模型(Gaussian mixture model,GMM)参数、以 及作为对应于每个噪声环境的特征向量的补偿向量而预先计算出的补 偿向量。
根据第一实施方式,假设预先计算3个噪声环境的参数,包括噪 声环境1的参数121、噪声环境2的参数122和噪声环境3的参数123, 并存储在噪声环境存储单元120中。噪声环境的数量不限于3个,换 言之,可以采用任何希望数量的噪声环境作为参考数据。
噪声环境存储单元120可以由一般使用的任意记录介质构成,例 如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。
输入接收单元101将从例如麦克风等输入单元(未示出)输入的 语音转换成电信号(语音数据),基于例如脉冲编码调制(PCM)对 语音数据执行模拟-数字(A/D)转换,从而将模拟数据转换成数字 数据,并输出数字语音数据。输入接收单元101所执行的处理可以通 过使用与传统技术的语音信号数字处理相同的方法来实现。
特征提取单元102将从输入接收单元101接收到的语音数据分割 成具有规定长度的多个帧,并提取语音的特征向量。帧的长度可以是 10至20毫秒。根据第一实施方式,特征提取单元102提取包含梅尔 频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的静 态、Δ和ΔΔ参数的语音的特征向量。
换言之,特征提取单元102使用对梅尔滤波器组分析的输出功率 进行离散余弦转换的方法,计算包含13维MFCC、MFCC的Δ和ΔΔ 的总共39维特征向量,作为每个分割帧的特征向量。
特征向量不限于上述的特征向量。换言之,只要代表输入语音的 特征,任何参数都可以用作特征向量。
相似性计算单元103根据由特征提取单元102提取的特征向量, 为预先确定的上述3个噪声环境中的每一个计算相似度,该相似度表 示输入语音在每个噪声环境下产生的确定性。
补偿向量计算单元104从噪声环境存储单元120中获取每个噪声 环境的补偿向量,并通过利用由相似性计算单元103计算的相似度作 为加权系数,对所获取的补偿向量进行加权相加,来计算输入语音的 特征向量的补偿向量。
特征向量补偿单元105使用由补偿向量计算单元104计算的补偿 向量来补偿输入语音的特征向量。特征向量补偿单元105通过使补偿 向量与特征向量相加来补偿特征向量。
图2是第一实施方式的特征向量补偿处理的流程图。
首先,输入接收单元101接收用户发出的语音的输入(步骤 S201)。输入语音由输入接收单元101转换成数字语音信号。
特征提取单元102将语音信号分割成10毫秒的帧,并提取每帧 的特征向量(步骤S202)。特征提取单元102如上所述通过计算MFCC 的特征向量yt来提取特征向量。
相似性计算单元103根据由特征提取单元102提取的特征向量 yt,计算针对预先确定的每个噪声环境的帧的语音的相似度(步骤 S203)。当噪声环境模型为e时,假设时刻t的特征向量yt,则将相 似度如式(1)所示计算为噪声环境e的事后概率p(e|yt):
p ( e | y t ) = p ( y t | e ) p ( e ) p ( y t ) - - - ( 1 )
其中,p(yt|e)为特征向量yt在噪声环境e中出现的概率,p (e)和p(yt)分别是噪声环境e的事前概率和特征向量yt的概率。
当假设p(yt)独立于噪声环境、每个噪声环境的事前概率相同 时,事后概率p(e|yt)可以利用式(2)计算:
p(e|yt)=αp(yt|e)                            (2)
其中,p(yt|e)和α分别利用式(3)和式(4)计算:
p ( y t | e ) = Σ s N ( y t ; μ s e Σ x e ) p ( s ) - - - ( 3 )
α = 1 / Σ alle p ( y t | e ) - - - ( 4 )
其中,N是高斯分布,p(s)是GMM的每个分量的事前概率,特征 向量yt利用GMM模型化。GMM的参数,即平均向量μ和协方差矩 阵∑,可以利用最大期望(expectation maximization,EM)算法来计 算。
可以使用将在噪声环境中准备的大量特征向量作为培训数据的 隐藏式马可夫模型开发工具(Hidden Markov Model Toolkit,HTK) 来获得GMM参数。HTK广泛应用于语音识别来培训HMM。
补偿向量计算单元104通过利用由相似性计算单元103计算的相 似度作为加权系数,对为每个噪声环境预先计算的补偿向量rs e进行加 权相加,来计算输入语音的特征向量的补偿向量rt(步骤S204)。利 用式(5)计算补偿向量rt:
r t = Σ e p ( e | y t ) r t e - - - ( 5 )
其中,利用下式计算rt e:
r t e = Σ s p ( s | y t ) r s e - - - ( 6 )
即,通过基于与传统的SPLICE方法相同的方法来对预先计算的 补偿向量rs e进行加权相加,来计算每个噪声环境e的补偿向量rt e(式 (6))。然后,通过利用相似度作为加权系数来对每个噪声环境e 的补偿向量rt e进行加权相加,来计算输入语音的特征向量的补偿向量 rt(式(5))。
可以使用与传统的SPLICE方法相同的方法来计算补偿向量rs e。 对于给定的大量组(xn,yn),其中n为正整数,xn为干净语音数据 的特征向量,yn为每个噪声环境中的噪声语音数据的特征向量,则补 偿向量rs e可以利用式(7)计算,其中表示噪声环境的上标“e”被省略, 如下所示:
r s = Σ n p ( s | y n ) ( x n - y n ) Σ n p ( s | y n ) - - - ( 7 )
其中,利用式(8)计算p(s|yn):
p ( s | y n ) = p ( y n | s ) p ( s ) Σ s p ( y n | s ) p ( s ) - - - ( 8 )
GMM参数和以上述方式计算的补偿向量被预先存储在噪声环境 存储单元120中。因此,在步骤S204中,使用存储在噪声环境存储单 元120中的每个噪声环境的补偿向量rs e来计算补偿向量rt。
最后,特征向量补偿单元105通过使由补偿向量计算单元104计 算的补偿向量rt与在步骤S202中计算的特征向量yt相加,来进行特 征向量yt的补偿(步骤S205)。
以上述方式补偿后的特征向量被输出到语音识别装置。使用特征 向量的语音处理不限于语音识别处理。本实施方式的方法可以应用于 例如说话者识别等任何类型的处理。
这样,在特征向量补偿装置100中,利用多个噪声环境的线性组 合来近似未知的噪声环境,因此,可以以更高的精度来补偿特征向量, 从而即使当执行语音识别时的噪声环境与进行设计时的噪声环境不匹 配时,也可以以高精度来计算特征向量。因此,可以利用特征向量来 实现较高的语音识别性能。
在传统方法的特征向量补偿中,仅为输入语音信号的每一帧选择 一个噪声环境,当在选择噪声环境中存在错误时,语音识别性能大大 降低。相反,本实施方式的特征向量补偿方法根据相似度线性地组合 多个噪声环境,而不是仅选择一个噪声环境,从而即使由于某种原因 在相似度的计算中存在错误,对于补偿向量的计算的影响也足够小, 从而性能降低程度小。
根据第一实施方式,每个时刻t的噪声环境的相似度仅从时刻t 的特征向量yt获取,然而,本发明第二实施方式的特征向量补偿装置 同时使用时刻t之前和之后的时刻的多个特征向量来计算相似度。
图3是第二实施方式的特征向量补偿装置300的功能框图。特征 向量补偿装置300包括噪声环境存储单元120、输入接收单元101、特 征提取单元102、相似性计算单元303、补偿向量计算单元104和特征 向量补偿单元105。
根据第二实施方式,相似性计算单元303的功能不同于第一实施 方式的相似性计算单元103。其它单元和功能与图1所示的第一实施 方式的特征向量补偿装置100相同。对于具有相同功能的单元,使用 相同的附图标记并省略具体的说明。
相似性计算单元303使用多个帧的时间窗口中的特征向量来计算 相似度。
图4是第二实施方式的特征向量补偿处理的流程图。
从步骤S401到步骤S402的处理按照与特征向量补偿装置100所 执行的、从步骤S201到S202的处理相同的方式执行,因而省略具体 的说明。
在步骤S402中提取了特征向量后,相似性计算单元303计算所 提取的特征向量在每个噪声环境中出现的事件的概率(出现概率)。
接着,相似性计算单元303使用通过使在每个时刻的帧中计算出 的出现概率进行加权相乘而得到的值,来计算时刻t的帧的归属度(步 骤S404)。换言之,相似性计算单元303使用式(9)计算相似度p (e|yt-a:t+b),其中a和b为正整数,yt-a:t+b是从时刻t-a到时刻t+b的 特征向量序列。
p(e|yt-a:t+b)=αp(yt-a:t+b|e)                   (9)
其中,式(9)中的p(yt-a:t+b|e)和α分别利用式(10)和式(11) 计算。
p ( y t - a : t + b | e ) = Π t = - a b ( Σ s N ( y t + t ; μ s e Σ s e ) p ( s ) ) w ( T ) - - - ( 10 )

其中,w(τ)是每个时刻t+τ的加权。w(τ)的值例如可以设定成 对于所有的τ值都为w(τ)=1,或者可以设定成随着τ值的绝对值 的增大而减小。然后,可以利用以上述方式计算的相似度p(e|yt-a:t+b), 以与式(5)相同的方式获得补偿向量rt。
即,补偿向量计算单元104使用在步骤S404中计算的相似度, 以与第一实施方式中的步骤S204相同的方式,计算补偿向量rt(步骤 S405)。
特征向量补偿单元105以与第一实施方式中的步骤S205相同的 方式,使用补偿向量rt来补偿特征向量yt(步骤S406),完成补偿特 征向量的处理。
这样,在第二实施方式的特征向量补偿装置中,利用多个特征向 量来计算相似度,因此,可以抑制补偿向量的突然变化,从而以较高 的精度来计算特征向量。因此,可以利用特征向量来实现较高的语音 识别性能。
图5是用于说明第一和第二实施方式中的任意一个的特征向量补 偿装置的硬件结构的示意图。
特征向量补偿装置包括例如中央处理单元(CPU)51等控制设 备、例如只读存储器(ROM)52和随机存取存储器(RAM)53等存 储设备、用于经由网络执行通信的通信接口(I/F)54和连接上述部件 的总线61。
在特征向量补偿装置中执行的计算机程序(以下称为“特征向量 补偿程序”)由预装在其中的例如ROM52等存储设备提供。
相反,可以通过将特征向量补偿程序作为可安装格式或可执行格 式的文件存储在例如高密度盘-只读存储器(CD-ROM)、软盘(FD)、 高密度盘-可记录(CD-R)和数字通用盘(DVD)等计算机可读记 录介质中来提供。
另外可选的是,可以将特征向量补偿程序存储在与因特网等网络 连接的计算机中,以便可以通过网络下载程序。另外可选的是,可以 通过因特网等网络来提供或分配特征向量补偿程序。
特征向量补偿程序构成为模块结构,该模块结构包括上述功能单 元(输入接收单元、特征提取单元、相似性计算单元、补偿向量计算 单元和特征向量补偿单元)。因此,作为实际的硬件,CPU51从ROM52 读出特征向量补偿程序来执行该程序,从而使上述功能单元装载在计 算机的主存储器上,并在主存储器上生成。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用