提高语音唤醒率及修正DOA的方法转让专利
申请号 : CN201711375740.3
文献号 : CN108122563B
文献日 : 2021-03-30
发明人 : 朱振岭 , 冯大航 , 陈孝良 , 苏少炜 , 常乐
申请人 : 北京声智科技有限公司
摘要 :
权利要求 :
1.一种提高语音唤醒率及修正DOA的方法,包括:步骤S0,接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;
步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;
步骤S2,进行唤醒,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;
步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存在则返回步骤S0;
步骤S4,设备进入识别状态,确定DOA;
其中,所述步骤S3还包括:对波束合成之后的信号进行第二次唤醒,选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度:
当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态;
当唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。
2.根据权利要求1所述的方法,所述步骤S3包括:采用MUSIC算法进行高分辨率DOA估计,声源个数为D个,则数据协方差矩阵表示为:
H
R(k)xx=E{X(k)X(k) }=R(k)SS+R(k)nnH H
其中R(k)SS=E{S(k)S(k) },R(k)nn=E{n(k)n(k))分别是语音、噪声协方差矩阵;S(k)T
=[s1(k),...,sl(k),...,sD(k)]是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,k表示频带;
H
对数据协方差矩阵进行分解,R(k)xx=EΛE ,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N‑D个特征值对应的特征向量组成的信号子空间和噪声子空间;
阵元域MUSIC方位谱函数为:H H
P(k,θ)=1/a(k,θ)E(k)nE(k)na(k,θ),θ∈Θa(k,θ)是阵列流形向量,θ表示方位角,Θ表示观察扇面。
3.根据权利要求2所述的方法,通过高分辨率DOA估计区分多个声源,并显示该方向信号功率,根据确定的声源方向,针对声源方向进行波束形成。
4.根据权利要求1或2所述的方法,所述步骤S1中:单或双通道语音增强时,单通道降噪任选某一路信号,降噪方法包括维纳滤波、谱减法、IMCRA方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。
5.根据权利要求1或2所述的方法,所述步骤S2中:当检测到语音存在时进行唤醒,并计算唤醒置信度,唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3,否则视为非唤醒关键词,返回步骤S0。
6.根据权利要求5所述的方法,第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值,所述第一唤醒阈值ε_l的范围为0.3以下。
7.根据权利要求1所述的方法,所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型及设备误唤醒率。
8.根据权利要求1所述的方法,所述步骤S0包括:麦克风阵列进行录音,设备实时接收麦克风阵列采集信号,其中,假设麦克风的个数是N,目标声源个数为1,干扰声源的数量为D‑1,其中D>=1,采集信号记为:
T
x(n)=[x1(n),...,xi(n),...,xN(n)]后续信号处理主要在频域进行,采用重叠相加语音处理框架,将时域信号进行FFT变换转到频域:
T
X(k)=[x1(k),...,xi(k),...,xN(k)]麦克信号为语音信号与噪声、干扰的叠加:X(k)=A(k,ΘD)S(k)+n(k)其中,i表示麦克风序号,n表示时域序列,k表示频带,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),...,a(k,θl),...,a(k,θD)],a(k,θl)是阵列流形向量,ΘD=[θ1,...,θl,...θD]表示D个信号源方向。
9.根据权利要求1所述的方法,所述步骤S0还包括:
若设备处于唤醒状态,即处于语音识别状态,则执行步骤S4;和/或所述步骤S4还包括:
确定DOA后,对该目标语音方向进行信号增强,在识别结束后,将设备状态改为未唤醒状态,返回步骤S0。
说明书 :
提高语音唤醒率及修正DOA的方法
技术领域
背景技术
这些设备一般都具有的功能包括可以用某个关键词唤醒,唤醒后可以找到说话人的方向,
可以对说话人的方向进行语音增强,并且自己在播放音乐或语音的情况下,可对其用唤醒
词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混
响技术等。
都很高,对受混响、噪声、干扰影响远场语音信号唤醒率、识别率都较低。这是因为目前的处
理方法是在唤醒时进行DOA估计,而此时用于唤醒的语音信号通常是某一路未经处理或者
经过单通道降噪的麦克风信号,信号质量偏低,导致唤醒率偏低,且当多个声源同时存在或
者当设备距离墙壁、显示屏等强反射面时,唤醒时刻DOA估计不准确,导致后面的波束形成
误将说话人的声音当做噪声消除掉,从而造成设备无法听懂说话人的指令。
态,则执行步骤S1;步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算
是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;步骤S2,进行唤醒,
当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时
返回步骤S0;步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之
后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在
则转至步骤S4;若不存在则返回步骤S0;步骤S4,设备进入识别状态,确定DOA。
S(k)=[s1(k),…,sl(k),…,sD(k)]是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪
声向量,T表示转置,k表示频带。
较小的N‑D个特征值对应的特征向量组成的信号子空间和噪声子空间;
进行降噪或者双通道自适应算法进行语音增强。
步骤S0。
二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态;当唤醒置信度存在高于第二唤
醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。
1,其中D>=1,采集信号记为:
表示D个信号源方向。
在识别结束后,将设备状态改为未唤醒状态,返回步骤S0。
体验效果;
附图说明
具体实施方式
阵列某一通道信号),在语音存在时刻进行唤醒,当唤醒置信度大于某一较低阈值ε_l,对阵
列信号进行高分辨率DOA估计,在估计出的置信度较高的n个声源方向分别进行估计方向的
波束合形成,对n个波束信号进行唤醒,唤醒置信度大于某一较高阈值ε_h时,智能设备进入
唤醒状态,该方向即为目标说话人方向,后续可对该方向信号增强,进行识别。
为限于此数所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
正DOA的方法流程图。如图1所示,本公开提高语音唤醒率和修正DOA的方法包括:
骤S4;若不存则返回步骤S0;
括:
的数量为D‑1,其中D>=1,采集信号记为
T
(k)]是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,n表示时域
序列,i表示麦克风序号,k表示频带。
谱减法、IMCRA等方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行
语音增强。
的唤醒阈值相比较小,通常为0.3以下。考虑计算量的问题,唤醒可以采用较小的唤醒模型
筛选语音信号,选择恰当的第一唤醒阈值ε_l非常关键。
骤S4;若不存则返回步骤S0;具体包括:
较小的N‑D个特征值对应的特征向量组成的信号子空间和噪声子空间;
多个声源,且正确地显示了该方向信号功率。确定了声源方向,针对声源方向进行波束形
成,提高信号的质量,语音信号唤醒置信度提高较多。
未唤醒状态,唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束
方向即为目标声源方向。第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型,同时兼顾设备
误唤醒率,选择合适的阈值。
成后三种情况的语音时频图(为消除幅度影响,语音均做了归一化处理),本实施例中实际
录音及仿真均采用4麦克风环阵,半径为0.035m。如图3所示,图题中给出了相应的唤醒置信
度,分别为0.9、0.47、0.85,可以看出当说话人距离阵列较远时,语音信号已严重污染,唤醒
置信度较低,容易漏检,为防止漏检需要设置较低的唤醒阈值,会造成误唤醒率增高,影响
用户体验,经过多通道语音增强后的关键词唤醒置信度已接近近场语音,可提高唤醒率。
未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体
结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具
有相同命名的元件能做出清楚区分。
此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合
形成更多的实施例。
的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种
编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公
开的最佳实施方式。
软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微
处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部
部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者
全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程
序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可
以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或
子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何
组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任
何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权
利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代
替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬
件项来具体体现。
例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保
护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面
的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,
遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身
都作为本公开的单独实施例。
在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保
护范围之内。