基于FMCW与特征表达迁移的声道用户验证方法及系统转让专利

申请号 : CN201910586991.9

文献号 : CN110197664B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 俞嘉地卢立孔浩李明禄

申请人 : 上海交通大学

摘要 :

一种基于FMCW与特征表达迁移的声道用户验证方法,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证。本发明直接采用基于语音声纹的用户认证模型,其只需要少量的数据去取得令人满意的性能。

权利要求 :

1.一种基于FMCW与特征表达迁移的声道用户验证方法,其特征在于,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证;

所述的编解码神经网络包括:两个卷积编码器和两个逆卷积解码器,其中:卷积编码器由卷积层和池化层构成,其先将输入的特征抽象为一些压缩表达的块,再由池化层进一步降低每个块内的特征维度;逆卷积解码器由逆池化层和逆卷积层构成,其分别执行池化层和卷积层的逆操作以重构特征;

所述的频差序列采用编解码神经网络迁移至语音的梅尔倒谱系数;

所述的包含声道行为特征的频差序列是指:利用FMCW技术从发射信号与接收信号的频差来测量出信号传播时间,进而计算出距离信息用于建模声道行为特征,具体包括:利用dechirp操作计算发射信号与接收信号的频差Δf,然后利用三角形相似性计算信号传播时间,即 其中τ是一个锯齿波的周期,B为锯齿波的频带;最后利用声波传播速度得到移动终端与声道的距离

2.根据权利要求1所述的验证方法,其特征是,所述的两个卷积编码器中的第一卷积编码器通过32个3*3维的卷积核将频差序列F抽象到声道级特征F’,第二卷积编码器通过64个

3*3维的卷积核将声道级特征F’压缩到用户层特征U;

所述的两个逆卷积解码器中的第一逆卷积解码器通过64个3*3维的逆卷积核重构用户相关的语音特征M’,第二逆卷积解码器通过32个3*3维的逆卷积核来重构MFCC特征Mp。

3.根据权利要求1所述的验证方法,其特征是,所述的FMCW技术的发射信号为线性锯齿波,其参数包括锯齿波的频带和周期。

4.根据权利要求3所述的验证方法,其特征是,所述的频带为16~24kHz。

5.根据权利要求1所述的验证方法,其特征是,所述的预处理,利用在接收信号上计算移动方差的方式确定任一信号段是否处于激活阶段,即移动方差非零的信号段对应为激活阶段,移动方差为零的信号段对应为非激活阶段;

所述的信号段长度为300ms;

所述的激活阶段的信号段的频率为0.3~5kHz。

6.根据权利要求5所述的验证方法,其特征是,当区分激活和非激活阶段后,采用5kHz的低通滤波器和16kHz的高通滤波器来提取出语音信号和感知声道行为的锯齿波信号。

7.根据权利要求1所述的验证方法,其特征是,所述的移动终端与声道的距离满足:

并进一步松弛为 即通过相

对距离描述声道行为的性质,其中dA和dB分别为声道中任意两点A和B至移动终端的距离,α为声道中任意两点A和B至移动终端的连线夹角;因此由移动方差寻找非零元素,其对应到声道运动的信号部分,然后将所有的绝对距离减去拥有非零元素的最小绝对距离获得相对距离,最终得到包含声道行为特征的频差序列。

8.根据权利要求1所述的验证方法,其特征是,根据迁移后的MFCC特征,采用高斯混合模型-通用背景模型建立用户认证模型,并应用该模型于用户认证与攻击者检测。

9.一种实现权利要求1~8中任一所述方法的系统,其特征在于,包括:载波模块、信号采集模块、特征迁移模块以及语音认证模块,其中:载波模块针对声道并发射无线载波,信号采集模块接收无线载波调制后包含声道行为特征的调制语音信号,经预处理和特征提取后将声道行为特征输出至特征迁移模块,特征迁移模块将迁移后的语音特征输出至语音认证模块,语音认证模块根据语音特征进行用户注册及认证。

说明书 :

基于FMCW与特征表达迁移的声道用户验证方法及系统

技术领域

[0001] 本发明涉及的是一种信息安全领域的技术,具体是一种基于调频连续波(FMCW)与特征表达迁移的声道用户认证方法及系统。

背景技术

[0002] 随着用户隐私信息在移动设备中的存储量的增加,用于移动设备的用户认证系统吸引了越来越多人的注意力。已有的基于指纹、面部识别等技术的移动用户认证已经被广泛地部署在移动设备上。然而这些方法已经被证明会受到重播攻击,即使用指纹膜或提前录制的视频/图片等方式进行攻击。同时,这些方法也易受到周围环境的影响,如手指的状态,周围环境光的影响。作为一种自然且广泛存在的行为,说话行为被开发用于用户认证应用,并且近来得到了快速的发展。已有的基于说话行为的用户认证或利用语音中的声纹,或利用说话时的嘴部运动行为来提取用户的特异特征。然而这些方法都易受到监听与重播攻击。

发明内容

[0003] 本发明针对现有基于说话行为的用户认证对监听与重播攻击的不足,提出一种基于FMCW与特征表达迁移的声道用户验证方法及系统,将FMCW建模的声道行为特征迁移至语音的MFCC特征,从而直接采用基于语音声纹的用户认证模型,其只需要少量的数据去取得令人满意的性能。
[0004] 本发明是通过以下技术方案实现的:
[0005] 本发明涉及一种基于FMCW与特征表达迁移的声道用户验证方法,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证。
[0006] 本发明涉及一种实现上述方法的系统,包括:载波模块、信号采集模块、特征迁移模块以及语音认证模块,其中:载波模块针对声道并发射无线载波,信号采集模块接收无线载波调制后包含声道行为特征的调制语音信号,经预处理和特征提取后将声道行为特征输出至特征迁移模块,特征迁移模块将迁移后的语音特征输出至语音认证模块,语音认证模块根据语音特征进行用户注册及认证。
[0007] 技术效果
[0008] 与现有技术相比,本发明拓展了FMCW技术在距离测量上的应用,获得人说话时声道行为变化的特异模式,并进一步用于用户认证。基于迁移学习的方法主要作用是将FMCW建模出的声道行为特征迁移为语音的梅尔倒谱系数(MFCC)特征,从而直接利用成熟的基于语音特征的模型来进行用户认证。

附图说明

[0009] 图1为本发明系统示意图;
[0010] 图2为FMCW技术示意图;
[0011] 图3为信号分段示意图;
[0012] 图4为绝对距离-相对距离转换示意图;
[0013] 图5为编解码神经网络示意图;
[0014] 图6为本发明总体性能示意图;
[0015] 图7为本发明攻击抵御性能示意图;
[0016] 图8为本发明用户体验性能示意图;
[0017] 图9为本发明成功登录所需的说话次数示意图。

具体实施方式

[0018] 如图1所示,本实施例具体实施过程包括:注册阶段与登录阶段。
[0019] ①注册阶段:
[0020] 1.1)用户在安静环境中口述预定义口令数次,同时用于注册的移动终端通过扬声器不断发出FMCW信号作为载波信号,并用麦克风接收由环境中各种物体反射的声波信号作为调制语音信号。
[0021] 1.2)对接收到的声波信号进行预处理并取得说话状态信号,使用FMCW方法解调说话状态信号并从中提取出认证者的声道行为特征。
[0022] 1.3)通过编解码神经网络将声道行为特征迁移至语音特征。
[0023] 1.4)利用基于语音的用户认证模型构建用户认证模型以识别不同用户。
[0024] ②登录阶段:
[0025] 2.1)发射相同的FMCW信号并接收登录者口述口令的声波信号。
[0026] 2.2)对声波信号进行预处理并提取出登录者的声道行为特征,经迁移至语音特征后输入至训练后的用户认证模型从而确认登录者身份。
[0027] 如图2所示,本实施例中所采用的设计的FMCW信号为线性锯齿波,其参数包括锯齿波的频带和周期。
[0028] 锯齿波的周期设计与人说话的时间相关。通常,一个人说话在一个大约20ms的短时间内被看作是一个静止过程。为了捕获这样一个静止过程,本实施例中设置锯齿波的周期为20ms。另一方面,锯齿波频段的设计则与声波感知所需的解析度有关。根据傅立叶转换理论,由声道反射的两个锯齿波被分离开当且仅当Δf>1/τ,其中:Δf是两个锯齿波的频差,τ是一个锯齿波的周期。基于FMCW原理可得 其中:d是声道与移动终端之间的距离,B是锯齿波的频带,c是声波的传播速度。结合上式可得 即频带越宽,FMCW能够取得的解析度越宽。同时,由于大部分人都无法听到16kHz以上的声音且移动设备上的声波装置一般只能取得48kHz的采样率,因此,本实施例中设置锯齿波的频带为16~24kHz。
[0029] 如图3所示,所述的预处理是指:由于人说话的过程不是一个连续的过程,其中:会包含一个非激活阶段(不说话状态)在两个激活阶段之间。这样一个非激活阶段通常在300ms左右。鉴于在说话过程中频率在0.3~5kHz的语音信号在激活阶段和非激活阶段显示出明显的不同,本实施例利用在接收信号上计算移动方差来确定某个信号段是否处于激活阶段,即移动方差非零的信号段对应为激活阶段,移动方差为零的信号段对应为非激活阶段。
[0030] 当区分激活和非激活阶段后,采用5kHz的低通滤波器和16kHz的高通滤波器来提取出语音信号和感知声道行为的锯齿波信号。
[0031] 所述的包含声道行为特征的频差序列是指:利用FMCW技术从发射信号与接收信号的频差来测量出信号传播时间,进而计算出距离信息用于建模声道行为特征,具体包括:利用dechirp操作计算发射信号与接收信号的频差Δf,然后利用三角形相似性计算信号传播时间,即 最后利用声波传播速度得到移动终端与声道的距离
[0032] 由于该距离是移动终端到声道的绝对距离,因此一个稳定的模型需要用户每次使用时都保持一样的相对位置。本实施例中进一步将绝对距离转换为相对距离来松弛该要求:如图4所示 ,声道中任意两点A和B,本实施例中利用余弦定理得到由于移动终端与声道的距离通常比声道内两点的距离大很多,
上述公式可松弛为 说明相对距离与声道中两点的距离
是一一对应的,即相对距离描述声道行为的性质。因此本实施例中通过移动方差寻找非零元素,其对应到声道运动的信号部分,然后将所有的绝对距离减去拥有非零元素的最小绝对距离获得相对距离,最终得到包含声道行为特征的频差序列。
[0033] 所述的频差序列优选采用编解码神经网络(EDNN)迁移至语音的梅尔倒谱系数(MFCC)特征,以便于采用成熟的基于语音的用户认证模型。
[0034] 如图5所示,所述的编解码神经网络(EDNN)包括:两个卷积编码器和两个逆卷积解码器,其中:卷积编码器由卷积层和池化层构成,其先将输入的特征抽象为一些压缩表达的块,再由池化层进一步降低每个块内的特征维度;逆卷积解码器由逆池化层和逆卷积层构成,其分别执行池化层和卷积层的逆操作以重构特征,具体为:第一卷积编码器通过32个3*3维的卷积核将频差序列F抽象到声道级特征F’,第二卷积编码器通过64个3*3维的卷积核将声道级特征F’压缩到用户层特征U,第一逆卷积解码器通过64个3*3维的逆卷积核重构用户相关的语音特征M’,第二逆卷积解码器通过32个3*3维的逆卷积核来重构MFCC特征Mp。
[0035] 所述的卷积编码器均采用ReLU激活函数以及2*2维的池化滤波器。
[0036] 所述的EDNN模型的训练是指:对函数minDIF(M,Mp)=min||M-Mp||2+λΩweight进行优化,其中:Mp是EDNN迁移后的MFCC特征,M是输入的用户语音MFCC特征,‖·‖2是L2范数,Ωweight是参数的L2规范子,λ是Ωweight的系数,训练后的EDNN用于将迁移频差序列迁移为MFCC特征。
[0037] 本实施例根据迁移后的MFCC特征,采用高斯混合模型-通用背景模型(GMM-UBM)建立用户认证模型,并应用该模型于用户认证与攻击者检测。
[0038] 本实施例通过三个移动终端(三星S6,小米6,华为P10)上分别实施上述方法,具体为:设置移动终端的麦克风采样率设置为48kHz。实验在三个环境中执行,即实验室,餐厅,超市。在每个环境中,以10位志愿者vs2位攻击者。在每个实验中,每位志愿者随机挑选一个移动终端,并将麦克风正对着声道说话。设置移动终端到声道的距离在3~20cm之间,通过预定义6个口令用于注册和登录。10位合法用户分别说每个口令3次用于注册;所有志愿者在登录阶段说20次测试登录成功情况。
[0039] 本实施例中首先比较本方法和已有的基于嘴部运动的用户认证(LipPass)和基于声纹的用户认证(微信)在3个环境下的性能不同。如图6所示,为用户认证的性能比较情况,可见本方法在实验室中的用户认证准确率高达93.8%,其与基于嘴部运动(92.8%)和基于声纹(94%)的用户认证相似。同时,本方法在3个不同环境下的性能差距很小,这远远超越了微信用户认证的性能表现。这意味着本方法在不同环境中取得很好的性能表现。
[0040] 接着本实施例验证了本方法与其他用户认证方式在不同攻击场景下的表现情况。本实施例中设计了三种攻击方式:监听与重播攻击、合成攻击以及模仿攻击,其中监听与重播攻击是指一个攻击者提前录下用户的嘴部运动以及语音信号通过捕捉全向传播的声信号,然后向目标设备播放来攻击;合成攻击是指攻击者提前录下用户的语音信号,通过语音合成器生成一段拥有用户说话特征和特定内容的语音用于攻击;模仿攻击是指攻击者提前录下用户说话时的影像,然后模仿其说话方式来进行攻击。
[0041] 本实施例比较了本方法与LipPass和微信在这三种攻击下的性能表现。如图7所示,为三种方式在不同攻击的错误接受率。可见本方法在三种攻击下的成功率均小于10%。而对于LipPass而言,监听与重播攻击能够达到57.3%的成功率。而对于微信来说,攻击的成功率更高了:对于监听与重播攻击还有合成攻击,其成功率都在60%以上。这说明本方法在攻击抵御方面远胜于已有的方法。
[0042] 本实施例进一步衡量本方法的用户体验情况。如图8所示,为本方法的错误拒绝率。观察到在三个不同的环境中,其总体错误拒绝率均小于2%。在实验室环境中,本方法进一步在不同移动终端下均取得小于1%的错误拒绝率。该结果说明本方法能够提供一个很小的错误拒绝率并提供较好的用户体验。如图9所示,为本方法为了一次成功的登录用户所需的说话次数的累积概率分布(CDF)。观察到约82.7%的用户一次性登录成功,不需要多余的说话次数。同时,总体而言,超过95%的用户只需要说3次以内即可登录成功。该结果进一步的证明了本方法良好的用户体验。
[0043] 上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。