一种基于空域相关性的二维时频掩模估计建模方法转让专利

申请号 : CN201810955158.2

文献号 : CN109166590B

文献日 : 2020-06-30

本发明涉及一种基于空域相关性的二维时频掩模估计建模方法，包括：针对麦克风阵列采集到的语音信号；计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差；由两相位差定义频点到目标声源的距离；采用类正态分布法计算此频点被目标声源支配的概率；将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析；进行空域相关性时频交织建模；表示出此二维交织模型的整体参数集；表示出全局概率密度函数，将建模问题转换为按极大似然准则估计整体参数集，并精确估计语音源的掩模。该方法以空域信息为特征，将时间和频率两个维度上的信息交织在一起，发展一种二维相关模型，准确估计语音源的掩模，得到很好的语音分离效果。

1.一种基于空域相关性的二维时频掩模估计建模方法，包括：步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理，所述的麦克风阵列包括K对麦克风；

步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元；

步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差，所述M等于K(K-1)/2，K表示阵列拥有麦克风的数量；

步骤四、计算在假设某频点被目标声源支配的情况下，M对麦克风之间的相位差；

步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离；

步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率；

步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析，表示出时间转移概率，频率转移概率；

步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图；

步骤九、根据以上二维交织建模表示出模型的整个参数集；

步骤十、计算全局的概率密度函数，将建模问题实现为按极大似然准则估计整体参数集；

步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。

2.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤三中，所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括：在给定t时刻和f频点上，由第p个和第q个麦克风组成的第m(m＝1，2，…，M)对麦克风的相位差ψl，m为：其中∠(.)表示求取复数相位的操作，m表示麦克风的索引；l为帧号；m1和m2分别表示第

1对和第2对麦克风；和分别表示第m1和m2个麦克风第l帧的对数幅度谱；

在阵列中共有K对麦克风，则对于某个给定的时频点，总共有M＝K(K-1)/2对麦克风上的相位差组成一个向量集，以此表示声源的空域特征。

3.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤四中，所述计算在假设某频点被目标声源支配的情况下，M对麦克风之间的相位差包括：在t时刻和f频点相同的情况下，假设此时频点完全被目标声源所支配；

通过几何关系推导出此条件下的麦克风之间相位差为：其中，三维单位矢量γ表示声源的入射方向，rk表示声源的间距，c表示声速，表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量；l为帧号；m表示麦克风的序号；ωf表示角频率；T＝2π/ωf。

4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl，f，γ)包括：将一般时频点和被完全支配频点相位差进行取绝对值操作“；一般时频点”表示其相位差为ψl，m，的频点；“被完全支配的频点”表示其相位差为的频点；

求取上面步骤中相位差绝对值的平方和，然后进行累加，最后再除以总项数得到均值；

此均值类似于正态分布中的均值μ；

求得新定义的(l，f)频点到目标声源的距离L(Xl，f，γ)为：其中F(·)表示将周期为2π的变量调整到[-π，π]之间的函数，ωf表示角频率。参数l为帧号；Xl，f，γ表示入射方向为γ的第l帧，第f个频点信号的对数幅度谱；m表示麦克风的序号；ψl，m表示相位差；rm表示第m对麦克风之间的间距；表示周期为T的第m个麦克风到第一个麦克风的单位矢量；γ表示声源的入射方向；c表示速度。

5.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤六中，所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括：根据步骤五得到的频点到目标声源的距离得到，频点被目标声源支配的概率P(Xl，f|dl，f＝1)为：其中，σ表示标准差；l为帧号；f为频点序号；xl，f表示第l帧，第f个频点上的对数幅度谱；dl，f表示权利要求3中被目标声源支配的频点；γ表示声源的入射方向；L(Xl，fγ)表示权利要求4中频点(l，f)到目标声源的距离。

6.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤七中，所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析，表示出时间转移概率，频率转移概率包括：根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链，在时间维度和频率维度进行分解分析；

该马尔可夫链的时间转移概率λf，l是一个2×2矩阵，将其元素λf，l(i，j)表示为：λf，l(i，j)＝p(dl，f＝j|dl，f＝i)将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg，l表示为：cg，l(h，j)＝p(dl，f＝j|dl，f＝h)f为频点序号；l为帧号；dl，f＝1表示被目标声源支配的频点状态；g为频率子带的间隔；

i，j，h均表示为2×2矩阵元素的索引，其取值均为1或2。

7.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤八中，所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括：在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态；

在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态，超过D个单位频率间隔相邻位置上的状态则被认为不相关了；

进行二维图形绘制，横坐标代表时间也为帧序列，横向的箭头表示时间状态转移概率；

纵坐标代表频带，其中g为频率子带的间隔。

8.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤九中，所述根据以上二维交织建模表示出模型的整个参数集Λl为：Λl＝{λ1，l，...λF，l，c1，l，...，cD，l}λF，l表示时间维度上状态转移概率的参数集；

cD，l表示的是频率维度上状态转移概率的参数集；

参数集中所有的频带都共享频率状态转移概率。

9.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤十中，所述计算全局的概率密度函数，将建模问题实现为按极大似然准则估计整体参数集，进一步包括：首先，给定一个参数集Λl；

Λl表示从序列Xl中获取的模型参数估计值；

对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为：其次，p(Xl|Sl，Al)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度，表示为：

其中Xl＝{X1，X2，...Xl}表示一个因果窗内L个样本，L表示样本数量，f为频点序号，定义f＝1，2，…，F，F表示频点序号的最大值；t表示除去L个样本后的帧数；l为帧号；xf，t表示观察值序列xl的状态序列；St，t表示状态矩阵Sl的状态序列；λf，l表示参数集Λl的状态序列；

对语音信号在每一个频率分量上提取对数幅度谱包络；

对于一个频率分量上的对数幅度谱时间序列xl＝{X1，X2，...xl}；

建立一个隐马尔科夫模型Sl＝{S1，S2，...Sl}；

其中Sl∈{0，1}是其对应的状态序列，Sl＝1，Sl＝0分别表示的是第l帧语音的存在和缺失，对应语音和噪声两个状态；

其中的b(xf，t|st，t，λf，l)表示的是频点被目标声源支配的概率：然后，p(Sl|Al)是表示状态序列Sl出现的先验概率的概率，xl，f表示第l帧，第f个频点上的对数幅度谱；dl，f＝1表示被目标声源支配的频点状态；σ表示尺度参数；γ表示声源的入射方向；L(Xl，f，γ)表示权利要求4中频点(l，f)到目标声源的距离，高斯分量表示为：i，j，h均表示为2x2矩阵元素的索引，其取值均为1或2，d也表示为频点信号，定义d＝1，

2，…，D，af，l(i，j)，cd，l(h，j)分别表示时间状态转移概率和频率状态转移概率。最后，将建模问题被实现为按照极大似然(Maximum Likelihood，ML)准则估计整体参数集Λl，其依据表示为

10.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法，在步骤十一中，所述将参数集的估计过程等价为以模型为基础的分类过程，将Sl表示为：Xl表示观察序列；Sl表示状态矩阵；Λl表示从序列Xl中获取的模型参数估计值；

将参数集的估计过程使用等价原则等价为以模型为基础的分类过程，因此得到了语音掩膜的最佳估计。

一种基于空域相关性的二维时频掩模估计建模方法

技术领域

[0001] 本发明涉及语音信号分离处理技术领域。尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。

背景技术

[0002] 时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量，去除由噪声主导的时频点分量，从而实现目标语音信号和噪声信号的主要成分的分离。

[0003] 常见的时频掩模有理想二值掩模和理想浮值掩模，前者的状态矩阵中的每个元素取值仅为0或1，表示各时频点上语音信号存在与否的硬性判决；后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离，在很大程度上容易造成频谱丢失；理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用，但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。

[0004] 目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况，根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性，它使得相邻频点支配声源之间也存在某种相似性，而传统的方法忽略了这种相似性。

[0005] 空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克风接收信号的频域相位差上。因此，它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息，通过将时间和频率两个维度上的信息交织在一起，发展一种二维相关模型，精确估计语音源的掩模。

发明内容

[0006] 本发明的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷，试图以空域信息为特征，将时间和频率两个维度上的信息交织在一起，发展一种二维相关模型，从而可以更加精确的估计出语音源的掩模。

[0007] 为了实现上述目的，本发明提出了一种基于空域相关性的二维时频掩模估计建模方法，包括：

[0008] 步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理，所述的麦克风阵列包括K对麦克风；

[0009] 步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元；

[0010] 步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差，所述M等于K(K-1)/2，K表示阵列拥有麦克风的数量；

[0011] 步骤四、计算在假设某频点被目标声源支配的情况下，M对麦克风之间的相位差；

[0012] 步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离；

[0013] 步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率；

[0014] 步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析，表示出时间转移概率，频率转移概率；

[0015] 步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图；

[0016] 步骤九、根据以上二维交织建模表示出模型的整个参数集；

[0017] 步骤十、计算全局的概率密度函数，将建模问题实现为按极大似然准则估计整体参数集；

[0018] 步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。

[0019] 上述技术方案中，在步骤三中，所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括：

[0020] 在给定t时刻和f频点上，由第p个和第q个麦克风组成的第m(m＝1,2,…,M)对麦克风的相位差ψl,m为：

[0021]

[0022] 其中∠(.)表示求取复数相位的操作，m表示麦克风的索引；l为帧号；m1和m2分别表示第1对和第2对麦克风；和分别表示第m1和m2个麦克风第l帧的对数幅度谱；

[0023] 在阵列中共有K对麦克风，则对于某个给定的时频点，总共有M＝K(K-1)/2对麦克风上的相位差组成一个向量集，以此表示声源的空域特征。

[0024] 上述技术方案中，在步骤四中，所述计算在假设某频点被目标声源支配的情况下，M对麦克风之间的相位差包括：

[0025] 在t时刻和f频点相同的情况下，假设此时频点完全被目标声源所支配；

[0026] 通过几何关系推导出此条件下的麦克风之间相位差为:

[0027]

[0028] 其中，三维单位矢量γ表示声源的入射方向，rk表示声源的间距，c表示声速，表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量；l为帧号；

[0029] m表示麦克风的序号；ωf表示角频率；T＝2π/ωf。

[0030] 上述技术方案中，在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括：

[0031] 将一般时频点和被完全支配频点相位差进行取绝对值操作；“一般时频点”表示其相位差为ψl,m，的频点；“被完全支配的频点”表示其相位差为的频点；

[0032] 求取上面步骤中相位差绝对值的平方和，然后进行累加，最后再除以总项数得到均值；此均值类似于正态分布中的均值μ；

[0033] 求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为：

[0034]

[0035] 其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数，ωf表示角频率。参数l为帧号；Xl,f,γ表示入射方向为γ的第l帧，第f个频点信号的对数幅度谱；m表示麦克风的序号；ψl,m表示相位差；rm表示第m对麦克风之间的间距；表示周期为T的第m个麦克风到第一个麦克风的单位矢量；γ表示声源的入射方向；c表示速度。

[0036] 上述技术方案中，在步骤六中，所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括：

[0037] 根据步骤五得到的频点到目标声源的距离得到，频点被目标声源支配的概率P(Xl,f|dl,f＝1)为：

[0038]

[0039] 其中，σ表示标准差；l为帧号；f为频点序号；xl,f表示第l帧，第f个频点上的对数幅度谱；dl,f表示权利要求3中被目标声源支配的频点；γ表示声源的入射方向；L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。

[0040] 上述技术方案中，在步骤七中，所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析，表示出时间转移概率，频率转移概率包括：

[0041] 根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链，在时间维度和频率维度进行分解分析；

[0042] 该马尔可夫链的时间转移概率λf,l是一个22矩阵，将其元素λf,l(i,j)表示为：

[0043] λf,l(i,j)＝p(dl,f=j|dl,f＝i)

[0044] f为频点序号；l为帧号；将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为：

[0045] cg,l(h,j)＝p(dl,f＝j|dl,f＝h)

[0046] dl,f＝1表示被目标声源支配的频点状态；g为频率子带的间隔；i,j,h均表示为2x2矩阵元素的索引，其取值均为1或2。上述技术方案中，在步骤八中，所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括：

[0047] 在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态；

[0048] 在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态，超过D个单位频率间隔相邻位置上的状态则被认为不相关了；

[0049] 进行二维图形绘制，横坐标代表时间也为帧序列，横向的箭头表示时间状态转移概率；

[0050] 纵坐标代表频带，其中g为频率子带的间隔。

[0051] 上述技术方案中，在步骤九中，所述根据以上二维交织建模表示出模型的整个参数集Λl为：

[0052] Λl＝{λ1,l,...λF,l,c1,l,...,cD,l}

[0053] λF，l表示时间维度上状态转移概率的参数集；

[0054] cD,l表示的是频率维度上状态转移概率的参数集；

[0055] 参数集中所有的频带都共享频率状态转移概率。

[0056] 上述技术方案中，在步骤十中，所述计算全局的概率密度函数，将建模问题实现为按极大似然准则估计整体参数集，进一步包括：

[0057] 首先，给定一个参数集Λl；

[0058] Λl表示从序列Xl中获取的模型参数估计值；

[0059] 对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为：

[0060]

[0061] 其次，p(Xl|Sl,Λl)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度，表示为：

[0062]

[0063] 其中Xl＝{X1,X2,…Xl}表示一个因果窗内L个样本，L表示样本数量，f为频点序号，定义f＝1,2,…,F,F表示频点序号的最大值；t表示除去L个样本后的帧数；l为帧号；xf,t表示观察值序列xl的状态序列；st,t表示状态矩阵sl的状态序列；λf,l表示参数集Λl的状态序列；

[0064] 对语音信号在每一个频率分量上提取对数幅度谱包络；

[0065] 对于一个频率分量上的对数幅度谱时间序列Xl＝{X1,X2,…Xl}；

[0066] 建立一个隐马尔科夫模型Sl＝{S1,S2,…Sl}；

[0067] 其中Sl∈{0,1是其对应的状态序列，Sl＝1，Sl＝0分别表示的是第l帧语音的存在和缺失，对应语音和噪声两个状态；

[0068] 其中的b(xf,t|t,t,λf,l)表示的是频点被目标声源支配的概率：

[0069]

[0070] 然后，p(Sl|Λl)是表示状态序列Sl出现的先验概率的概率，xl,f表示第l帧，第f个频点上的对数幅度谱；dl,f表示权利要求3中被目标声源支配的频点；σ表示尺度参数；γ表示声源的入射方向；L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离，高斯分量表示为：

[0071]

[0072] i,j,h均表示为2x2矩阵元素的索引，其取值均为1或2，d也表示为频点信号，定义d＝1,2,…,D，af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。

[0073] 最后，将建模问题被实现为按照极大似然(Maximum Likelihood，ML)准则估计整体参数集Λl，

[0074] 其依据表示为

[0075] 上述技术方案中，在步骤十一中，所述将参数集的估计过程等价为以模型为基础的分类过程，将Sl表示为：

[0076]

[0077] Xl表示观察序列；Sl表示状态矩阵；Λl表示从序列Xl中获取的模型参数估计值；将参数集的估计过程将参数集的过程使用等价原则等价为以模型为基础的分类过程，因此得到了语音掩膜的最佳估计。

[0078] 本发明的积极效果和优点在于：

[0079] 1.通过求取各对麦克风接收信号的频域相位差，得到麦克风阵列空域信息，而空域信息对于提高语音的感知质量具有重要作用。

[0080] 2.本方法提出了一种基于空域相关性的二维时频掩模估计建模方法。将麦克风阵列的相位差即空域信息，频点被支配的状态转移概率的时间维度转移概率和频率维度转移概率三者综合一起运算，得到面向空域相关性的二维时频掩膜建模方法，最终实现空域掩膜的准确估计。

附图说明

[0081] 图1为本发明的一种基于空域相关性的二维时频掩模估计建模方法的流程框图；

[0082] 1表示：将通过麦克风阵列接收到的声源信号转换成数字声音信号；

[0083] 2表示：将混合语音信号通过子带滤波器处理分解为不同的时频单元；

[0084] 3表示：计算时频点给定情况下麦克风信号相位差；

[0085] 4表示：计算假设频点被目标声源支配下的相位差；

[0086] 5表示：根据两相位差定义频点到目标声源的距离；

[0087] 6表示：计算频点被目标声源支配的概率；

[0088] 7表示：将支配转移概率的马尔可夫链在时间、频率两维度分解分析；

[0089] 8表示：进行二维相关建模；

[0090] 9表示：表示出模型参数集；

[0091] 10表示：计算全局概率密度，将建模问题实现为按极大似然准则估计整体参数集；

[0092] 11表示：将参数集的估计过程等价为以模型为基础的分类过程。

[0093] 图2为发明方法中基于使用马尔科夫模型交织而成的二维网格建模频谱的空域相关性的方法。

具体实施方式

[0094] 下面通过附图和实施例，对本发明的技术方案做进一步详细描述。

[0095] 参考图1，本发明的方法包括以下步骤：

[0096] 步骤一，通过使用麦克风阵列将接收到的声音信号转换为数字信号；

[0097] 所述的麦克风阵列包括K对麦克风；

[0098] 步骤二，将混合数字声音信号使用Gammatone多子带滤波器组进行外围处理，分解为不同的时频单元，具体包括：

[0099] 首先，确定Gammatone滤波器的个数M，确定每个滤波器的中心频率，使用公式gm(t)＝tn-1exp(-2πbmt)cos(2πfmt+φm)U(t),1≤m≤M；

[0100] 其中n为滤波器的阶数，fm是滤波器的中心频率，φm为相位，bm为等效带宽，M为滤波器个数，U(t)为阶跃函数。

[0101] 其次，计算得到滤波器冲击响应gi(n)(i＝1,2,…,M)，采样频率为8KHZ时M可取18)，并获得滤波器参数。

[0102] 然后，将含噪语音x(n)用这M个Gammatone滤波器进行分离，得到M个带通语音[0103] 最后，将每个带通语音经过分帧、短时傅里叶变换得到不同的时频单元。

[0104] 步骤三，给定l时刻和f频点上，由第p个和第q个麦克风组成的第m(m＝1,2,…,M)对麦克风的相位差ψl,m为：

[0105]

[0106] 其中∠(.)表示求取复数相位的操作，m表示麦克风的索引；l为帧号；m1和m2分别表示第1对和第2对麦克风；和分别表示第m1和m2个麦克风第l帧的对数幅度谱；

[0107] 在阵列中共有K对麦克风，则对于某个给定的时频点，总共有M＝K(K-1)/2对麦克风上的相位差组成一个向量集，以此表示声源的空域特征。

[0108] 步骤四，求取某个时频点被目标声源完全支配的情况下得到相位差包括：

[0109] 在l时刻和f频点相同的情况下，假设此时频点完全被目标声源所支配；

[0110] 通过几何关系推导出此条件下的麦克风之间相位差为:

[0111]

[0112] 其中，三维单位矢量γ表示声源的入射方向，rk表示声源的间距，c表示声速，表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量，l为帧号；m表示麦克风的序号；ωf表示角频率；T＝2π/ωf。

[0113] 步骤五，根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括：

[0114] 将一般情况时频点和被完全支配频点相位差进行取绝对值操作；“一般时频点”表示其相位差为ψl,m，的频点；“被完全支配的频点”表示其相位差为的频点；

[0115] 求取上面步骤中相位差绝对值的平方和，然后进行累加，最后再除以总项数得到均值；此均值类似于正态分布中的均值μ；

[0116] 求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为：

[0117]

[0118] 其中F(·)函数表示将周期为2π的变量调整到[-π,π]之间的函数，ωf表示角频率。参数l为帧号；Xl,f,γ表示入射方向为γ的第l帧，第f个频点信号的对数幅度谱；m表示麦克风的序号；ψl,m表示相位差；rm表示第m对麦克风之间的间距；表示周期为T的第m个麦克风到第一个麦克风的单位矢量；γ表示声源的入射方向；c表示速度。

[0119] 步骤六，定义频点被目标声源支配的概率包括：

[0120] 联想分析正态分布中，当x趋近于μ时，概率密度函数f(x)取得最大值；

[0121] 将麦克风间的相位差ψl,m等价于正态分布中x；

[0122] 频点被目标声源支配情况下的相位差等价于正态分布中的μ；

[0123] 根据类似正态分布分析定义频点被目标声源支配的概率p(Xl,f|dl,f＝1)为：

[0124]

[0125] 其中，其中σ表示标准差；l为帧号；f为频点序号；xl,f表示第l帧，第f个频点上的对数幅度谱；dl,f表示权利要求3中被目标声源支配的频点；γ表示声源的入射方向；L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。

[0126] 步骤七，将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析，表示出时间转移概率，频率转移概率包括：

[0127] 由于频点只有被目标声源和被噪声支配的两个状态；

[0128] 定义频点被目标声源支配的状态用dl,f＝1来表示，被噪声支配的概率用dl,f＝0表示；

[0129] 频点被目标声源支配的概率在步骤六中已计算出，且频点在这两个状态之间来回切换，因此将该马尔可夫链在时间维度和频率维度分别表示出转移概率函数为；

[0130] 该马尔可夫链的时间转移概率λf,l是一个2×2矩阵，将其元素λf,l(i,j)表示为：

[0131] λf,l(i,j)＝p(dl,f＝j|dl,f＝i)

[0132] f为频点序号；l为帧号；将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为：

[0133] cg,l(h,j)＝p(dl,f＝j|dl,f＝h)

[0134] dl,f＝1表示被目标声源支配的频点状态；g为频率子带的间隔；i,j,h均表示为2x2矩阵元素的索引，其取值均为1或2。

[0135] 步骤八，根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图，参考图2，具体实施步骤如下所示：

[0136] 在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态；

[0137] 在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态，超过D个单位频率间隔相邻位置上的状态则被认为不相关了；

[0138] 进行二维图形绘制，横坐标代表时间也为帧序列，横向的箭头表示时间状态转移概率；

[0139] 纵坐标代表频带，其中g为频率子带的间隔；

[0140] 步骤九，所述根据以上二维交织建模表示出模型的整个参数集Λl为：

[0141] Λl＝{λ1,l,...λF,l,c1,l,...,cD,l}

[0142] λF，l表示时间维度上状态转移概率的参数集；

[0143] cD,l表示的是频率维度上状态转移概率的参数集；

[0144] 参数集中所有的频带都共享频率状态转移概率；

[0145] 步骤十，计算全局的概率密度函数，将建模问题实现为按极大似然准则估计整体参数集，进一步包括：

[0146] 首先，给定一个参数集Λl；

[0147] Λl表示从序列Xl中获取的模型参数估计值；

[0148] 对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为：

[0149]

[0150] 其次，p(Xl|Sl,Λl)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度，表示为：

[0151]

[0152] 其中Xl＝{X1,X2,…Xl}表示一个因果窗内L个样本；L表示样本数量，f为频点序号，定义f＝1,2,…,F,F表示频点序号的最大值；t表示除去L个样本后的帧数；l为帧号；xf,t表示观察值序列xl的状态序列；st,t表示状态矩阵sl的状态序列；λf,l表示参数集Λl的状态序列；

[0153] 对语音信号在每一个频率分量上提取对数幅度谱包络；

[0154] 对于一个频率分量上的对数幅度谱时间序列Xl＝{X1,X2,…Xl}；

[0155] 建立一个隐马尔科夫模型Sl＝{S1,S2,…Sl}；

[0156] 其中Sl∈{0,1}是其对应的状态序列，Sl＝1，Sl＝0分别表示的是第l帧语音的存在和缺失，对应语音和噪声两个状态；

[0157] 其中的b(xf,t|st,t,λf,l)表示的是频点被目标声源支配的概率：

[0158]

[0159] 然后，p(Sl|Λl)是表示状态序列Sl出现的先验概率的概率，xl,f表示第l帧，第f个频点上的对数幅度谱；dl,f表示权利要求3中被目标声源支配的频点；σ表示尺度参数；γ表示声源的入射方向；L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离，高斯分量表示为：

[0160]

[0161] i,j,h均表示为2x2矩阵元素的索引，其取值均为1或2，d也表示为频点信号，定义d＝1,2,…,D，af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。

[0162] 最后，将建模问题被实现为按照极大似然(Maximum Likelihood，ML)准则估计整体参数集Λl。

[0163] 其依据表示为

[0164] 步骤十一，所述将参数集的估计过程等价为以模型为基础的分类过程，将Sl表示为：

[0165] Xl表示观察序列；Sl表示状态矩阵；Λl表示从序列Xl中获取的模型参数估计值；将参数集的估计过程使用等价原则等价为以模型为基础的分类过程最终得到了语音掩膜的最佳估计

一种基于空域相关性的二维时频掩模估计建模方法转让专利

申请号 : CN201810955158.2

文献号 : CN109166590B

文献日 : 2020-06-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 许春冬 , 龙清华 , 应冬文 , 许瑞龙 , 周静

申请人 : 江西理工大学

摘要 :

权利要求 :

说明书 :