会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 情感识别 / 基于巴氏距离最优小波包分解的语音情感特征提取方法

基于巴氏距离最优小波包分解的语音情感特征提取方法

阅读:427发布:2021-02-18

IPRDB可以提供基于巴氏距离最优小波包分解的语音情感特征提取方法专利检索,专利查询,专利分析的服务。并且本发明涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造,在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取,降低了说话人身份、语音内容等无关信息对情感识别准确度的影响,同时具有较低的计算复杂度。,下面是基于巴氏距离最优小波包分解的语音情感特征提取方法专利的具体信息内容。

1.一种基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:步骤1:接收情感语音片段输入;

步骤2:将情感语音片段数字化以提供数字语音信号X;

步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;

步骤4:构造巴氏距离最优小波包基;

步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;

步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。

2.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤3中所述的预处理包括如下步骤:步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号其中 表示数字语音信号X的离散点序号, 为数字语音信号X的长度, 和分别表示数字语音信号X在第 和 个离散点上的值, 表示预加重后的语音信号 在第 个离散点上的值,X(-1)=0;

步骤3.2:采用交叠分段的方法对预加重后的语音信号 进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取

16ms,即取256点, 经过分帧得到语音帧集合

其中 为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:表示 向下取整;

步骤3.3:对各语音帧 1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:其中xk'(n)、 w(n)分别表示xk'、 w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk':其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ:其中K'为语音帧总帧数;

步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。

3.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤4中所述的巴氏距离最优小波包基的构造方法如下:步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;

步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;

步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合 其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数, 为情感类别l的第m个小波包构造有效语音帧;

步骤4.4:构造J层满二叉树结构 作为完全小波包分解树,将其表示为J=5,其树节点以二元组(j,p)表示,

j

0≤j≤J,0≤p≤2-1,j为树节点的深度,p为 中同一深度j下位于该节点左侧的节点总数目;

步骤4.5:对各小波包构造有效语音帧 按照满二叉树结构进行小波包分解,小波包分解的具体步骤如下:

步骤4.5.1:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数其中Fs表示数字语音信号采样频率, 为情感类别l的第m个小波包构造有效语音帧, 为 在第n1个离散点上的值, 为小波包构造有效语音帧 在小波包树根节点(0,0)上的第n1个小波包系数;

步骤4.5.2:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,将 在小波包树根节点(0,0)上的小波包系数 作为初始值,通过马拉Mallat算法依次计算 在各小波包树节点处的小波包系数其中1≤j≤J、0≤p≤2j-1, 为情感类别l的第m个小波包构造有效语音帧 在小波包树节点(j,p)上的第r个小波包系数, 且p为偶数表示 在小波包树节点(j-1,p/2)上的第r'个小波包系数, 且p为奇数表示 在小波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:其中 为10阶多贝西Daubechies小波高通滤波器g在第 个离散点上的值,为10阶多贝西Daubechies小波低通滤波器h在第 个离散点上的值;

步骤4.6:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,计算 在各小j波包树节点(j,p)且0≤j≤J、0≤p≤2-1的归一化能量其中 为情感类别l的第m个小波包构造有效语音帧 在节点(j,p)上的小波包系数, 为 的欧氏范数, 为 的欧式范数;

j

步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2-1的巴氏距离,具体步骤如下:j

步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧 在节点(j,p)处的归一化能量均值μl(j,p)和方差其中μl(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值, 表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差;

j

步骤4.7.2:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2-1中的所有两两情感类别l1、l2的类间巴氏距离DBh(j,p;l1,l2),其中,1≤l1≤L,1≤l2≤L,且l1≠l2:其中DBh(j,p;l1,l2)表示在节点(j,p)处情感类别l1、l2的类间巴氏距离, 表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,和 分别表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差, 和 分别表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差;

步骤4.7.3:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1上的巴氏距离DBh(j,p):其中DBh(j,p)表示节点(j,p)处的巴氏距离, 与 分别表示情感类别l1与l2的先验概率:其中 和 分别表示情感类别l1与l2的小波包构造有效语音帧的总帧数,Nl为情感类别l的小波包构造有效语音帧的总帧数;

步骤4.8:依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基,具体步骤如下:步骤4.8.1:初始化小波包树结构为 用“*”标记 的所有叶节点;

j

步骤4.8.2:对j=J-1,...,0,p=0,...,2-1,依次执行:将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较,若DBh(j,p)>DBh(j+1,2p)+DBh(j+1,2p+1) (21)则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DBh(j,p)值为DBh(j,p)=DBh(j+1,2p)+DBh(j+1,2p+1) (22)其中DBh(j,p)表示节点(j,p)的巴氏距离,DBh(j+1,2p)、DBh(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离;

步骤4.8.3:从小波包树 最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为巴氏距离最优小波包基,其中I为最优小波包树的叶节点总数。

4.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤5中所述的有效语音帧小波包分解方法如下:步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数 为:其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值, 为有效语音帧sk在小波包树根节点(0,0)上的第n2个小波包系数;

步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数 作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:其中 表示有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数, 且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数, 且pi为奇数表示sk在小波包树节点(ji-1,(pi-1)/2)上的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值。

5.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤6中所述的各有效语音帧的情感特征计算方法如下:步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算巴氏距离并将全体叶节点{(ji,pi)}1≤i≤I的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为 选取巴氏距离排序前I'且I'

其中, 为巴氏距离排序第i'的最优小波包树叶节点, 为有效语音帧sk在最优小波包树叶节点 上的小波包系数, 为 的欧式范数,||sk||为sk的欧式范数;

步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek:2

ek=lg||sk|| (26)

其中,||sk||为sk的欧式范数;

步骤6.4:对于各有效语音帧sk且1≤k≤K, 与对数帧能量ek共同构成sk的I'+1维情感特征ck:

式中,上标T表示向量的转置。

说明书全文

基于巴氏距离最优小波包分解的语音情感特征提取方法

技术领域

[0001] 本发明专利涉及一种语音情感特征提取方法,尤其涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法,属于语音情感识别技术领域。

背景技术

[0002] 随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。
[0003] 为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
[0004] 作为一种新兴的信号时频分析技术,小波包分析因其在数字信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立反映类别可分性的准则函数用于构建最优小波包基,对信号进行相应的最优小波包分解,并保留最具类别区分性的信号分量,剔除冗余信息,是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。

发明内容

[0005] 本发明解决的问题是:为提高语音情感识别的精度和鲁棒性,结合以上背景和需求,本发明提供一种基于巴氏距离最优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性,以反映情感类别区分能力的巴氏距离为准则构建最优小波包基,并提取具有情感区分性的特征参数,作为语音情感特征。
[0006] 本发明的技术解决方案是:
[0007] 一种基于巴氏距离最优小波包分解的语音情感特征提取方法,包括以下步骤:
[0008] 步骤1:接收情感语音片段输入;
[0009] 步骤2:将情感语音片段数字化以提供数字语音信号X;
[0010] 步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
[0011] 步骤4:构造巴氏距离最优小波包基;
[0012] 步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
[0013] 步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
[0014] 本发明的有益效果包括:
[0015] (1)本发明利用了小波包分解方式的多样性,采用反映情感类别区分能力的巴氏距离作为选取最优小波包基的准则函数,构建了巴氏距离准则下的最优小波包基,用于语音信号的分析;
[0016] (2)本发明根据巴氏距离与情感类别区分能力的相关性,有选择性地保留具有较大巴氏距离的最优小波包树叶节点用于语音情感特征提取,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性;
[0017] (3)本发明建立了一种反映类别区分能力的巴氏距离准则函数用于最优小波包基的构造,该准则函数具有可加性,从而保证了自底至顶的快速算法可以用于最优小波包基的构造,有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。

附图说明

[0018] 图1为本发明的语音情感特征提取流程图;
[0019] 图2为巴氏距离最优小波包基构造流程图。

具体实施方式

[0020] 一种基于巴氏距离最优小波包分解的语音情感特征提取方法,包括以下步骤:
[0021] 步骤1:接收情感语音片段输入;
[0022] 步骤2:将情感语音片段数字化以提供数字语音信号X;
[0023] 步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
[0024] 步骤4:构造巴氏距离最优小波包基;
[0025] 步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
[0026] 步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
[0027] 步骤3中所述的预处理包括如下步骤:
[0028] 步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号[0029]
[0030] 其中 表示数字语音信号X的离散点序号, 为数字语音信号X的长度, 和分别表示数字语音信号X在第 和 个离散点上的值, 表示预加重后的语音信号 在第 个离散点上的值,X(-1)=0;
[0031] 步骤3.2:采用交叠分段的方法对预加重后的语音信号 进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点, 经过分帧得到语音帧集合
[0032]
[0033] 其中 为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
[0034]
[0035] 表示 向下取整;
[0036] 步骤3.3:对各语音帧 1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
[0037]
[0038] 其中xk'(n)、 w(n)分别表示xk'、 w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
[0039]
[0040] 步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
[0041] 步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk':
[0042]
[0043]
[0044] 其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
[0045]
[0046] 步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ:
[0047]
[0048]
[0049] 其中K'为语音帧总帧数;
[0050] 步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
[0051] 步骤4中所述的巴氏距离最优小波包基的构造方法如下:
[0052] 步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;
[0053] 步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;
[0054] 步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合 其中l为情感类别标号,L为情感类别总数,Nl为情感类别l的小波包构造有效语音帧的总帧数, 为情感类别l的第m个小波包构造有效语音帧;
[0055] 步骤4.4:构造J层满二叉树结构 作为完全小波包分解树,将其表示为J=5,其树节点以二元组(j,p)表示,j
0≤j≤J,0≤p≤2-1,j为树节点的深度,p为 中同一深度j下位于该节点左侧的节点总数目;
[0056] 步骤4.5:对各小波包构造有效语音帧 按照满二叉树结构 进行小波包分解,小波包分解的具体步骤如下:
[0057] 步骤4.5.1:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数
[0058]
[0059] 其中Fs表示数字语音信号采样频率, 为情感类别l的第m个小波包构造有效语音帧, 为 在第n1个离散点上的值, 为小波包构造有效语音帧 在小波包树根节点(0,0)上的第n1个小波包系数;
[0060] 步骤4.5.2:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,将 在小波包树根节点(0,0)上的小波包系数 作为初始值,通过马拉Mallat算法依次计算在各小波包树节点处的小波包系数
[0061]
[0062] 其中1≤j≤J、0≤p≤2j-1, 为情感类别l的第m个小波包构造有效语音帧 在小波包树节点(j,p)上的第r个小波包系数, 且p为偶数表示 在小波包树节点(j-1,p/2)上的第r'个小波包系数, 且p为奇数表示 在小
波包树节点(j-1,(p-1)/2)上的第r'个小波包系数,h(r'-2r)为10阶多贝西Daubechies小波低通滤波器h在第r'-2r个离散点上的值,g(r'-2r)为10阶多贝西Daubechies小波高通滤波器g在第r'-2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:
[0063]
[0064] 其中 为10阶多贝西Daubechies小波高通滤波器g在第 个离散点上的值,为10阶多贝西Daubechies小波低通滤波器h在第 个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g系数见表1和表2;
[0065] 表110阶Daubechies小波低通滤波器
[0066]
[0067] 表210阶Daubechies小波高通滤波器
[0068]
[0069] 步骤4.6:对于各小波包构造有效语音帧 且1≤m≤Nl、1≤l≤L,计算 在j各小波包树节点(j,p)且0≤j≤J、0≤p≤2-1的归一化能量
[0070]
[0071] 其中 为情感类别l的第m个小波包构造有效语音帧 在节点(j,p)上的小波包系数, 为 的欧氏范数, 为 的欧式范数;
[0072] 步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1的巴氏距离,具体步骤如下:
[0073] 步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧 在节点(j,p)处的归一化能量均值μl(j,p)和方差
[0074]
[0075]
[0076] 其中μl(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值, 表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差;j
[0077] 步骤4.7.2:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2-1中的所有两两情感类别l1、l2的类间巴氏距离DBh(j,p;l1,l2),其中,1≤l1≤L,1≤l2≤L,且l1≠l2:
[0078]
[0079]
[0080] 其中DBh(j,p;l1,l2)表示在节点(j,p)处情感类别l1、l2的类间巴氏距离,表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值, 和 分别表示情感类别l1的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差, 和 分别表示情感类别l2的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差;
[0081] 步骤4.7.3:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2j-1上的巴氏距离DBh(j,p):
[0082]
[0083] 其中DBh(j,p)表示节点(j,p)处的巴氏距离, 与 分别表示情感类别l1与l2的先验概率:
[0084]
[0085]
[0086] 其中 和 分别表示情感类别l1与l2的小波包构造有效语音帧的总帧数,Nl为情感类别l的小波包构造有效语音帧的总帧数;
[0087] 步骤4.8:依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基,具体步骤如下:
[0088] 步骤4.8.1:初始化小波包树结构为 用“*”标记 的所有叶节点;
[0089] 步骤4.8.2:对j=J-1,...,0,p=0,...,2j-1,依次执行:
[0090] 将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较,若
[0091] DBh(j,p)>DBh(j+1,2p)+DBh(j+1,2p+1) (21)
[0092] 则用“*”标记节点(j,p),否则不标记节点(j,p),且更新DBh(j,p)值为[0093] DBh(j,p)=DBh(j+1,2p)+DBh(j+1,2p+1) (22)
[0094] 其中DBh(j,p)表示节点(j,p)的巴氏距离,DBh(j+1,2p)、DBh(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离;
[0095] 步骤4.8.3:从小波包树 最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(ji,pi)}1≤i≤I对应的小波包基即为巴氏距离最优小波包基,其中I为最优小波包树的叶节点总数。
[0096] 步骤5中所述的有效语音帧小波包分解方法如下:
[0097] 步骤5.1:对于各有效语音帧sk且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数 为:
[0098]
[0099] 其中Fs表示采样频率,sk(n2)为有效语音帧sk在第n2个离散点上的值,为有效语音帧sk在小波包树根节点(0,0)上的第n2个小波包系数;
[0100] 步骤5.2:对于各有效语音帧sk且1≤k≤K,将sk在小波包树根节点(0,0)上的小波包系数 作为初始值,通过马拉Mallat算法计算sk在最优小波包树叶节点{(ji,pi)}1≤i≤I处的小波包系数:
[0101]
[0102] 其中 表示有效语音帧sk在最优小波包树叶节点(ji,pi)处的第r1个小波包系数, 且pi为偶数表示sk在小波包树节点(ji-1,pi/2)上的第r2个小波包系数, 且pi为奇数表示sk在小波包树节点(ji-1,(pi-1)/2)上的第r2个小波包系数,h(r2-2r1)和g(r2-2r1)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r2-2r1个离散点上的值。
[0103] 步骤6中所述的各有效语音帧的情感特征计算方法如下:
[0104] 步骤6.1:对最优小波包树的全体叶节点{(ji,pi)}1≤i≤I,按步骤4.7计算巴氏距离并将全体叶节点{(ji,pi)}1≤i≤I的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为 选取巴氏距离排序前I'且I'
[0105] 步骤6.2:对于各有效语音帧sk且1≤k≤K,计算sk在叶节点 上的归一化能量:
[0106]
[0107] 其中, 为巴氏距离排序第i'的最优小波包树叶节点, 为有效语音帧sk在最优小波包树叶节点 上的小波包系数, 为 的欧式范数,为sk的欧式范数;
[0108] 步骤6.3:对于各有效语音帧sk且1≤k≤K,计算sk的对数帧能量ek:2
[0109] ek=lg||sk|| (26)
[0110] 其中,||sk||为sk的欧式范数;
[0111] 步骤6.4:对于各有效语音帧sk且1≤k≤K, 与对数帧能量ek共同构成sk的I'+1维情感特征ck:
[0112]
[0113] 式中,上标T表示向量的转置。
[0114] 以上的实施例只是已实现的有效具体实施方式之一,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用