会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 数学与统计 / 倒谱 / 基于倒谱特征线性情感补偿的说话人识别方法

基于倒谱特征线性情感补偿的说话人识别方法

阅读:499发布:2020-05-13

IPRDB可以提供基于倒谱特征线性情感补偿的说话人识别方法专利检索,专利查询,专利分析的服务。并且本发明涉及一种基于倒谱特征线性情感补偿的说话人识别方法,主要步骤是:1)语音信号进行预处理;2)语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率,根据基音频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音,不予处理;3)依据基音频率的变化对相应帧的MFCC进行线性补偿;4)根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)识别。本发明有益的效果是:采用基于基音频率的倒谱特征补偿,利用韵律特征在情感语音中的变化规律,对情感语音的MFCC特征进行补偿后使说话人特征更具稳定性,以尽量减少情感影响带来的说话人自身语音差异。,下面是基于倒谱特征线性情感补偿的说话人识别方法专利的具体信息内容。

1、一种基于倒谱特征线性情感补偿的说话人识别方法,其特征在于:主要步骤是:

1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;

2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率,根据基音 频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语 音,不予处理;

3)、依据基音频率的变化对相应帧的MFCC进行线性补偿,其间不断调整补偿系数使 EM算法中的最大似然估计得到的概率值最大,并由此确定补偿系数;

4)、根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语 音特征进行训练;

5)、识别:用于语音输入后,经特征提取,得到一特征向量序列,该序列输入到相关用 户模型参数的GMM中,得到相似度值并根据其给用户打分。

2、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的倒谱特征线性补偿为将每一帧的MFCC特征各维量值通过对应帧的基音频率进行修 正,使其能够尽量更好地表征说话人个性特征。

3、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的补偿系数为进行到谱特征补偿时所使用的描述基音频率变化对MFCC特征影响的因 子,可通过多次EM算法来调整得到最佳的补偿系数。

4、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的多次EM算法确定最佳补偿系数方法是通过不同补偿系数补偿后的MFCC进行隐概率 估计,找出其中令概率值最大的补偿系数作为训练模型时使用的补偿系数。

5、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 语音帧上的特征提取包括基音频率,即pitch和梅尔倒谱系数,即MFCC的提取;

1)、基音频率:

A)、设置基音频率的搜索范围ffloor=50,fceiling=1250Hz;

B)、设置语音的基音频率的取值范围fmin=50,fmax=550Hz;

C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);

D)、计算每个频率的SHR,即分谐波-谐波比例

SHR=SS/SH

其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N = f ceiling / f E)、找出SHR最高的频率f1

F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,基音频率Pitch=0

G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2

H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1

I)、其他情况,Pitch=f2

J)、对得到的基音频率进行自相关效验:

从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0;

K)、最后对全部的Pitch值进行中值平滑滤波;

2)、MFCC的提取:

A)、设置梅尔倒谱系数的阶数p;

B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);

C)、计算梅尔域刻度:

M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , · · · , p ) D)、计算对应的频域刻度:

f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , · · · , p ) E)、计算每个梅尔域通道φj上的对数能量谱:

E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2 其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 . 其中

F)、做离散余弦变换DCT。

6、根据权利要求1或2或3或4所述的基于倒谱特征线性情感补偿的说话人识别方法, 其特征在于:通过EM算法确定最佳补偿系数,对应不同的补偿系数αk进行多次隐状态的概 率计算,以得到最佳补偿系数;

A)、对应帧的倒谱特征进行补偿系数为αk的线性补偿

x(t)是t时刻的倒谱特征,Y(t)是t时刻的基音频率,Xopt(t)是该时刻经过补偿后的倒谱 特征,E(Y(t))是平均基音频率:

x opt ( t ) = x ( t ) - α k × | Y ( t ) - E ( Y ( t ) ) | | E ( Y ( t ) ) | B)、估计隐状态概率

P i = Σ t = 1 T T t ( i ) Σ t = 1 T Σ i = 1 M T t ( i ) = 1 T Σ t = 1 T P ( i t = i / z t , λ ) 其中

P ( i t = i / z t , λ ) = P i p ( z t / i t = i , λ ) p ( z t / λ ) = P i b i ( z t ) Σ i = 1 M P i b i ( z t ) C)、循环进行计算直至找到 满足

α ^ = arg max α { P ( i t = i / z t , λ ) } D)、以局部最大准则估计GMM的参数P′、μi′和Ri′,即λ′;

μ i = Σ t = 1 T T t ( i ) z t Σ t = 1 T T t ( i ) = Σ t = 1 T P ( i t = i / z t , λ ) z t Σ t = 1 T P ( i t = i / z t , λ ) R i = Σ t = 1 T P ( i t = i / z t , λ ) ( z t - μ i ) T ( z t - μ i ) Σ t = 1 T P ( i t = i / z t , λ ) .

说明书全文

技术领域

本发明涉及生物特征识别技术,主要是一种基于倒谱特征线性情感补偿的说话人识别方 法。

背景技术

生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认证的一种技 术,它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特 征(话音、击键、步态、签名等)为依据,采用计算机的强大功能和网络技术进行图像处理 和模式识别,用以鉴别人的身份。声纹识别或说话人识别属于其中一种,是一项根据语音波 形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
人的声音中不仅包含了说话人信息和语言内容信息,也饱含了感情和情绪等特征。传统 的说话人识别方法在含有情感影响的语音上识别率会急剧下降,这是因为没有将包含在声音 中的情感因素考虑在内,也就是没有考虑语音中韵律和副语言的作用。表现在特征上,传统 的声纹特征提取仅从语音信号中提取生理特征,声纹识别系统主要依靠较低层次声学特征进 行识别。由于提取信息不能贴切全面地刻画说话人的个性特征,导致现有的声纹识别系统性 能不稳定。

发明内容

本发明要解决上述技术所存在的缺陷,提供一种使用基于基音频率的线性倒谱特征补偿 的情感语音下说话人识别方法,通过对说话人倒谱特征的线性补偿,实现在情感因素影响下 提高说话人识别的鲁棒性。
本发明解决其技术问题所采用的技术方案:这种基于倒谱特征线性情感补偿的说话人识 别方法,主要步骤是:1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗; 2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率,根据基音频率 存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音, 不予处理;3)、依据基音频率的变化对相应帧的MFCC进行线性补偿,其间不断调整补偿系 数使EM算法中的最大似然估计得到的概率值最大,并由此确定补偿系数;4)、根据这个使 最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)、 识别:用于语音输入后,经特征提取,得到一特征向量序列,该序列输入到相关用户模型参 数的GMM中,得到相似度值并根据其给用户打分。
本发明解决技术问题所采用的技术方案还可以进一步完善。所述的倒谱特征线性补偿为 将每一帧的MFCC特征各维量值通过对应帧的基音频率进行修正,使其能够尽量更好地表征 说话人个性特征,减少因情感变动而带来的说话人内部语音特征的变化。所述的补偿系数为 进行倒谱特征补偿时所使用的描述基音频率变化对MFCC特征影响的因子,可通过多次EM 算法来调整得到最佳的补偿系数。所述的多次EM算法确定最佳补偿系数方法是通过不同补 偿系数补偿后的MFCC进行隐概率估计,找出其中令概率值最大的补偿系数作为训练模型时 使用的补偿系数。
本发明有益的效果是:采用基于基音频率的倒谱特征补偿,利用韵律特征在情感语音中 的变化规律,对情感语音的MFCC特征进行补偿后使说话人特征更具稳定性,以尽量减少情 感影响带来的说话人自身语音差异。通过多次调用高斯混合模型(GMM)训练过程中的EM 算法来选择最佳的补偿系数。使用该方法可以找到最佳描述基音频率和原来MFCC特征之间 变化关系的系数。

附图说明

图1是本发明的线性补偿EM训练算法的过程;
图2是本发明的算法流程图;

具体实施方式

下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分六步。
第一步:语音信号预处理
1、采样与量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHz;
B)、设置语音采样率F=2FN;
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化值表示s′(n)。
2、预加重处理
A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍小的 值;
B)、s′(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。
3、加窗
A)、计算语音帧的帧长N,N需满足:
20 N F 30 ,
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为N/2,把s″(n)划分成一系列的语音帧Fm,每一语音帧包含N 个语音信号样本;
C)、计算哈明窗函数:

D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=1,1,...,N-1}。
第二步:特征提取
语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取。
1、基音频率(pitch):
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);
B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
D)、计算每个频率的SHR(分谐波-谐波比例)
SHR=SS/SH
其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N=fceiling/f
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音帧,基音频率为0,Pitch=0
G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0。
K)、最后对全部的Pitch值进行中值平滑滤波。
2、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 In 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 .
F)、做离散余弦变换DCT
第三步、倒谱特征补偿
1、对齐倒谱特征和基音频率
浊音信号是一种准周期信号,其周期称为基音频率。根据基音频率存在与否,将语音信 号流分成浊音段和清音段,判断如果某帧为清音段,则丢弃该帧语音,不予处理。
2、通过EM算法确定最佳补偿系数
在前一个步骤中,对应不同的补偿系数αk进行多次隐状态的概率计算,以得到最佳补偿 系数。
A)、对应帧的倒谱特征进行补偿系数为αk的线性补偿
x(t)是t时刻的倒谱特征,Y(t)是t时刻的基音频率,xopt(t)是该时刻经过补偿后的倒谱特 征,E(Y(t))是平均基音频率:
x opt ( t ) = x ( t ) - α k × | Y ( t ) - E ( Y ( t ) ) | | E ( Y ( t ) ) |
B)、估计隐状态概率
P i = Σ t = 1 T T t ( i ) Σ t = 1 T Σ i = 1 M T t ( i ) = 1 T Σ t = 1 T P ( i t = i / z t , λ )
其中
P ( i t = i / z t , λ ) = P i p ( z t / i t = i , λ ) p ( z t / λ ) = P i b i ( z t ) Σ i = 1 M P i b i ( z t )
C)、循环进行计算直至找到 满足
α ^ = arg max α { P ( i t = i / z t , λ ) }
D)、以局部最大准则估计GMM的参数P′、μi′和R,即λ′。
μ i = Σ t = 1 T T t ( i ) z t Σ t = 1 T T t ( i ) = Σ t = 1 T P ( i t = i / z t , λ ) z t Σ t = 1 T P ( i t = i / z t , λ )
R t = Σ t = 1 T P ( i t = i / z t , λ ) ( z t - μ i ) T ( z t - μ i ) Σ t = 1 T P ( i t = i / z t , λ )
第四步、训练
每一个说话人的语音特征在特征空间中都形成了特定的分布,经过补偿后的特征分布可 更好地用于描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合来近似 说话人的特征分布。
每一个说话人的概率密度函数的函数形式是相同的,所不同的只是函数中的参数。M阶 高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , μ i , R i ) = 1 ( 2 π ) p / 2 | p i | 1 / 2 - exp { - 1 2 ( x - μ i ) T R i - 1 ( x - μ i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布 函数,M(可选,一般为16,32)是GMM模型的阶数,在建立说话人模型以前设为一确定整 数。 λ { P i , μ i , R i | i = 1,2 , . . . , M } 为说话人特征分布GMM中的参数。作为高斯混合分布的加权系 数,Pi应满足使:
- + p ( x / λ ) dx = 1
即有
Σ i = 1 M P i = 1
由于计算GMM中的p(x)需要求p×p维方阵Ri(i=1,2,...,M)的逆,运算量大。为此,将 Rj设为对角阵,将求逆运算转化为求倒数运算,提高运算速度。
第五步、识别
用于语音输入后,经特征提取,得到一特征向量序列。该序列输入到相关用户模型参数 的GMM中,得到相似度值并根据其给用户打分。
实验结果
本系统在Emotional Prosody Speech语音库上进行了实验。这个语音库是由国际语言学数 据联盟(Linguistic Data Consortium,即LDC)依据数据库标准建立的情感语音数据库,用作 不同情感语音的发音特征研究,由7名专业演员(3名男性目标说话人和4名女性目标说话 人)来录制的,用英语朗读一系列特定予以的语句,主要是日期和数字,涵盖了14种不同情 感类型。录音的方法是让演员表演相应情感时候的不同语气、语调以及语速,每个说话人在 每种情感的录音时间不等,大约在10秒到40秒之间,也有极少数长达50秒,每个说话人总 的录音时间大约在5、6分钟。
我们在这个库上设计并完成了两组实验。第一组是使用经典MFCC-GMM的基准实验, 仅仅使用没有经过任何补偿算法的倒谱特征训练模型,GMM通过普通的EM算法训练。这 组实验最为对照组。
第二组实验,对倒谱特征进行线性补偿,并采用多次的EM估计来选择最佳的补偿系数, 使用修正后的MFCC特征向量训练GMM模型。
为了对说话人确认系统的性能进行评估,选用等错误率(EER,Equal Error Rate)和识 别率(IR,Identification Rate)来作为实验结果的评估标准。
EER的计算需使用其它两个评估指标:
(1)错误接受率FA:将错误接受的短语数除以应被拒绝的总短语数即得到说话 人确认的错误接受率;
(2)错误拒绝率FR:将错误拒绝的短语数除以应被接受的总短语数即得到说话 人确认的错误拒绝率。
当FA=FR或|FA-FR|<δ(δ<0.0001)时,得到系统的等错误率(EER),即EER=FA或 EER=FR。
识别率IR的计算公式是:

实验参数的设置如下:   窗长   32ms   步进   16ms   预加重   0.97   MFCC维数   16MFCC+delta   GMM   32阶
实验结果如下:   方法   EER(%)   IR(%)   基准实验   32.41   62.94   本方法   29.92   73.04
每种情感分别的实验结果如下表,同基准实验相比较,“+”表示该值有所升高,“-”表示 减少:   情感状态   相对EER(%)   相对IR(%)   得意(Elation)   -4.30   +6.29   惊慌(Panic)   -10.76   +19.86   愤怒(Hot anger)   -3.60   +9.35   厌恶(Disgust)   -3.70   +15.56   恼怒(Cold anger)   -1.92   +12.82   焦虑(Anxiety)   -3.92   +8.82   兴趣盎然(Interest)   -1.41   +5.09   绝望(Despair)   -2.79   +5.78   轻蔑(Contempt)   -1.02   +10.0   悲伤(Sadness)   -3.53   +15.23   自豪(Pride)   -2.76   +5.96   羞愧(Shame)   -1.35   +11.49   厌倦(Boredom)   -0.00   +10.39   中性(Neutral)   -0.00   +6.25
实验用机器配置CPU为AMD Athlon(tm)XP2500+,内存为512M ddr400。
实验结果表明,本特征补偿方法能够使倒谱特征更能描述说话人个性信息,从而提高说 话人识别的性能,使得其错误率降低,识别率升高。并且在情感库上的实验,表明了该方法 对于各种情感状态均有较好的效果。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用